研究人员表示,人工智能(AI)工具在“医生问诊的基本对话交流”方面存在困难。此前的研究发现,AI系统可以帮助医疗专业人员成功记录病史、提供初步诊断和分流患者。然而,来自哈佛医学院和斯坦福大学的科学家们现在发现,AI工具在更接近现实世界的场景中表现不佳。
在这项研究中,学术团队开发了一种名为“医学对话推理评估框架(CRAFT-MD)”的测试,用于评估四个大型语言模型在临床环境中的表现。他们发现,这些大型语言模型在应对类似医学考试的问题时表现良好,但在进行更接近现实世界互动的对话时表现欠佳。
作者指出:“这一差距凸显了两方面的需求:首先,创建更现实的评估工具,以更好地衡量临床AI模型在真实世界中的适用性;其次,在这些工具部署到诊所之前,提高它们基于更现实互动做出诊断的能力。”
第一作者Pranav Rajpurkar教授表示:“我们的研究表明了一个显著的矛盾——虽然这些AI模型在医学考试中表现出色,但在医生问诊的基本对话交流中却显得力不从心。医疗对话的动态性质——适时提出正确的问题、整理分散的信息、通过症状进行推理——带来了远超选择题的挑战。”
Rajpurkar教授补充道:“当我们从标准化测试转向自然对话时,即使是最先进的AI模型在诊断准确性上也显示出显著下降。”
另一位作者Shreya Johri说:“目前的方法假设所有相关信息都清晰简洁地呈现出来,通常伴随着简化诊断过程的医学术语或关键词。但在现实中,这个过程要复杂得多。我们需要一个更能反映现实的测试框架,从而更好地预测模型的表现。”
共同作者Roxana Daneshjou教授表示:“作为一名医师科学家,我对能够有效且合乎伦理地增强临床实践的AI模型感兴趣。CRAFT-MD创建了一个更接近现实世界互动的框架,因此有助于推动该领域在测试AI模型性能方面的进展。”
这项研究发表在《自然医学》杂志上。
(全文结束)


