研究表明AI工具在真实世界医疗对话中面临挑战AI tools face challenges in real-world medical conversations, says study

环球医讯 / AI与医疗健康来源:news.outsourceaccelerator.com美国 - 英语2025-01-09 01:00:00 - 阅读时长2分钟 - 978字
一项由哈佛医学院和斯坦福大学领导的研究表明,尽管AI模型在标准化医疗测试中表现出色,但在真实世界的医生-患者对话中却遇到了显著困难,研究提出了改进AI临床表现的策略,强调了在部署AI工具前需进行更现实的训练和评估方法的重要性。
AI工具医疗对话挑战哈佛医学院斯坦福大学CRAFT-MD评估框架医生-患者互动诊断准确性病史采集非结构化数据动态交流训练方法优化策略真实互动非言语线索临床实践AI代理伦理增强可靠应用
研究表明AI工具在真实世界医疗对话中面临挑战

波士顿,美国 — 随着人工智能(AI)工具在医疗保健领域的应用日益增多,这些技术有望通过分流患者、记录病史甚至提供初步诊断来减轻临床医生的工作负担。然而,最近由哈佛医学院(HMS)和斯坦福大学研究人员领导的一项研究揭示,虽然这些AI模型在标准化医学测试中表现出色,但在真实世界的医患对话中却面临显著挑战。

医疗AI的新基准:CRAFT-MD

该研究发表于《自然医学》,引入了CRAFT-MD(医学对话推理评估框架),这是一个新的评估框架,旨在模拟真实的医生-患者互动。与传统的选择题测试不同,CRAFT-MD评估大型语言模型(LLM)通过开放式对话收集患者信息并提供准确诊断的能力。

研究人员测试了四个大型语言模型,涵盖了2000个涉及初级护理和12个专科的临床场景。尽管这些模型在考试式问题上表现出色,但当参与动态对话交流时,其诊断准确性急剧下降。

“我们的研究揭示了一个显著的悖论——虽然这些AI模型在医学考试中表现出色,但在医生访问的基本对话中却表现不佳。”该研究的高级作者Pranav Rajpurkar表示。

AI诊断技能的真实差距

该研究指出了AI医生面临的几个挑战:

  • 在采集病史时难以提出相关问题
  • 忽略分散在对话中的关键信息
  • 在将非结构化数据整合为准确诊断方面存在困难
  • 在动态交流中的表现远不如在结构化格式中

这些局限性突显了在临床环境中部署AI工具之前,需要更加现实的训练和评估方法。

提高AI临床表现的策略

为了弥补这些差距,研究人员提出了几种优化AI工具的策略:

  • 使用反映真实互动的开放式对话数据集训练模型
  • 增强从非结构化输入中提取关键信息的能力
  • 开发整合文本数据与非文本输入(如图像或实验室结果)的系统
  • 将非言语线索(如语调和肢体语言)纳入AI设计

CRAFT-MD本身就是一个创新的例子,它使用AI代理模拟患者互动并高效评估诊断准确性。这种方法在数小时内处理了数千次对话,同时最大限度地减少了对真实患者的潜在风险。

“作为一位医师科学家,我对能够有效且合乎伦理地增强临床实践的AI模型感兴趣。”斯坦福大学的共同高级作者Roxana Daneshjou表示。

该研究强调了在广泛部署前,使AI工具与实际医疗实践复杂性相一致的重要性。通过应对这些挑战,研究人员希望为更可靠和有效的AI在医疗环境中的应用铺平道路。


(全文结束)

大健康
大健康