评估聊天机器人在快速变化的血液癌症领域中的准确性 - AI与医疗健康

评估聊天机器人在快速变化的血液癌症领域中的准确性Evaluating chatbot accuracy in the fast-changing blood cancer field

环球医讯 / AI与医疗健康来源：medicalxpress.com美国 - 英语2025-09-03 19:15:36 - 阅读时长3分钟 - 1207字

本研究评估了ChatGPT 3.5在血液癌症领域的回答准确性，发现该模型在通用问题上表现尚可，但对新型疗法的回答存在显著缺陷。研究人员强调医生对人工智能生成的医疗信息进行审核的重要性，同时指出聊天机器人可用于辅助患者就诊准备，但无法替代专业临床指导。研究同时展示了迈阿密大学医学院在AI医疗应用方面的多项创新成果。

患者正日益依赖人工智能获取医疗信息和建议，但应如何正确使用AI服务？2025年9月3日发表在《Future Science OA》期刊的新研究为快速发展的血液癌症领域提供了重要参考，该研究通过10个医学问题评估了ChatGPT的回答质量。

这项研究测试了ChatGPT 3.5（研究开展时OpenAI提供的免费版本）。四位匿名血液肿瘤科医生对回答进行评估后发现，该模型在通用问题上表现较好，但在新型疗法和治疗方案的回答上存在明显不足。

"我建议患者保持一定怀疑态度，特别是涉及特定癌症类型和治疗方案的信息时，一定要咨询医生。"资深作者、迈阿密大学西尔维斯特综合癌症中心的贾斯汀·泰勒医生（Justin Taylor）指出。他回忆道，当自己最初接受医生培训时，患者主要通过谷歌搜索医疗信息。经过长期磨合，医生们学会了引导患者使用可信资源，而患者也提升了信息甄别能力。他认为当前正经历类似过程，大型语言模型（LLM）技术虽在快速进化，但其回答往往不够准确或完整。

此前缺乏针对LLM在血液肿瘤学领域表现的系统研究。其他研究显示，ChatGPT 3.5在宫颈癌预防等通用医疗信息方面表现尚可，但在诊断和治疗建议方面准确率显著下降。选择血液肿瘤学作为测试领域，正是由于该领域治疗方案更新迅速且高度个体化。

研究团队选择ChatGPT 3.5是因其用户基础庞大且免费易用。他们设计了10个模拟患者治疗过程中的问题，包括5个常见诊断期问题（如"化疗常见副作用及管理方法"）和5个特定问题（如"BCL-2抑制剂是什么"）。评分采用1-5分制，3分为中性（模糊或不完整），结果显示通用问题平均3.38分，新疗法问题平均3.06分。所有评估者均未给出满分。

"在使用人工智能生成的医疗信息前，医生审核仍是必要环节。"研究结论明确指出。研究局限性在于未测试其他LLM或更新版本的ChatGPT。由于ChatGPT 3.5的知识截止于2021年，其对最新医学进展的分析能力受限。泰勒强调："当新药或研究出现时，肿瘤科医生会与同行讨论如何将其转化为患者治疗方案。这种专业判断和个性化理解是聊天机器人无法提供的。"

不过该技术仍有其价值定位。研究指出，ChatGPT等工具可帮助患者准备就诊问题，或引导其获取更准确的原始信息源。西尔维斯特和迈阿密大学医学院已开展多项AI应用：AI辅助光学成像诊断脑肿瘤系统、多发性骨髓瘤患者风险预测模型，以及针对拉丁美洲医学工作者的AI伦理课程。该学院新成立的医学AI办公室还开设了面向医学生的AI选修课。

参与本研究的还包括佛罗里达州立大学医学院的Tiffany Nong，以及来自佛蒙特大学和佛罗里达癌症专家中心的研究人员。未来团队计划在1-2年内重新评估更新版ChatGPT的准确性。

【全文结束】