先进人工智能模型在医学考试中表现良好,但在与患者沟通方面仍显不足AI chatbots fail to diagnose patients by talking with them

环球医讯 / AI与医疗健康来源:www.msn.com美国 - 英语2025-01-02 19:00:00 - 阅读时长3分钟 - 1208字
本文探讨了尽管先进的人工智能模型在专业医学考试中表现出色,但在模拟医生-患者的对话中却难以有效收集医疗信息并做出准确诊断的问题,揭示了当前AI技术在临床应用上的局限性,并强调了医生全面判断的重要性。
人工智能医学考试患者沟通哈佛大学PranavRajpurkarShreyaJohriCRAFT-MDGPT-4临床AI模拟对话病史采集诊断推理OpenAIMetaMistralAIEricTopol医疗实践医生判断
先进人工智能模型在医学考试中表现良好,但在与患者沟通方面仍显不足

哈佛大学的Pranav Rajpurkar指出:“虽然大型语言模型在多项选择题测试中表现出令人印象深刻的结果,但它们在动态对话中的准确性显著下降。”特别是这些模型在开放式的诊断推理方面遇到了困难。当研究人员开发了一种基于模拟医患对话评估临床AI模型推理能力的方法时,这一点变得尤为明显。“患者”基于2000个主要来自美国专业医学委员会考试的医疗案例。

同样来自哈佛大学的Shreya Johri表示:“模拟患者互动使我们能够评估病史采集技能,这是临床实践中一个关键组成部分,而这是通过病例摘要无法评估的。”新的评估基准CRAFT-MD还“反映了现实生活场景,在这些场景中,患者可能不知道哪些细节是重要的,只有在被特定问题引导时才会透露重要信息”。CRAFT-MD基准本身依赖于AI。OpenAI的GPT-4模型在与被测试的“临床AI”对话中扮演了“患者AI”的角色。GPT-4还通过将临床AI的诊断与每个案例的正确答案进行比较来帮助评分。人类医学专家对这些评估进行了双重检查。他们还审查了对话,以检查患者AI的准确性,以及临床AI是否成功收集了相关的医疗信息。

多次实验表明,四种领先的大型语言模型——OpenAI的GPT-3.5和GPT-4模型、Meta的Llama-2-7b模型以及Mistral AI的Mistral-v2-7b模型——在基于对话的基准测试中的表现明显不如他们在基于书面病例摘要进行诊断时的表现。OpenAI、Meta和Mistral AI未回应评论请求。例如,当GPT-4面对结构化的病例摘要并可以从多个选项中选择诊断时,其诊断准确率高达82%,而在没有多项选择的情况下,这一数字降至49%左右。然而,当它必须从模拟的患者对话中进行诊断时,其准确率进一步下降至26%。

值得注意的是,GPT-4是研究中表现最好的AI模型,GPT-3.5通常排在第二位,Mistral AI模型有时排在第二或第三位,而Meta的Llama模型通常得分最低。AI模型在相当大比例的时间内未能收集完整的病史,即使是最先进的GPT-4模型也只在71%的模拟患者对话中完成了这一任务。即使AI模型确实收集了患者的病史,它们也不总是能得出正确的诊断。

加州斯克里普斯研究所转化科学研究所的Eric Topol认为,这种模拟患者对话代表了一种“更有用”的方式来评估AI的临床推理能力。Rajpurkar指出,如果一个AI模型最终通过了这个基准测试,能够始终如一地根据模拟的患者对话做出准确的诊断,这并不一定意味着它比人类医生更优秀。他指出,现实世界的医疗实践比模拟更加复杂,涉及管理多个患者、与医疗团队协调、进行体检以及理解当地医疗情况中的“复杂社会和系统因素”。

Rajpurkar总结说:“在我们的基准上取得优异成绩表明AI可以成为支持临床工作的强大工具——但这不一定能替代经验丰富的医生的综合判断。”


(全文结束)

大健康
大健康