来自明尼苏达大学医学院、斯坦福大学、贝斯以色列女执事医疗中心和弗吉尼亚大学的一支合作研究团队研究了医生使用GPT-4(一种大型语言模型系统)来诊断患者的效果。该研究发表在《JAMA Network Open》杂志上。
研究团队对50名拥有美国执业医师资格的家庭医学、内科和急诊医学医生进行了调查。研究发现,GPT-4作为诊断辅助工具并未显著改善临床推理能力,相较于传统资源而言。其他关键发现包括:
- 单独使用的GPT-4在诊断表现上得分显著更高,超过了使用传统在线诊断资源的医生和使用GPT-4辅助的医生。
- 在评估使用GPT-4的医生与使用传统诊断资源的医生相比时,加入GPT-4并未显著提升诊断表现。
“AI领域正在迅速扩展,对我们生活的影响无论是在医学内外都越来越大。重要的是我们要研究这些工具,了解如何最好地利用它们来改善我们提供的护理以及提供护理的体验,”明尼苏达大学医学院教授兼M Health Fairview医院医生安德鲁·奥尔森博士(Andrew Olson, MD)表示。“这项研究表明,在临床实践中进一步改进医生与AI的合作存在机会。”
这些结果强调了将AI整合到临床实践中的复杂性。虽然单独使用的GPT-4显示出有希望的结果,但将其作为诊断辅助工具与医生合作时,并未显著优于使用传统诊断资源。这表明AI在医疗保健领域的潜力是复杂的,强调了进一步探索AI如何最佳支持临床实践的重要性。此外,还需要更多研究来了解医生应如何接受培训以使用这些工具。
四家合作机构已启动了一个跨海岸AI评估网络,称为ARiSE,以进一步评估生成式AI在医疗保健中的输出。
更多信息:
Ethan Goh等人,《大型语言模型对诊断推理的影响》,《JAMA Network Open》(2024)。DOI: 10.1001/jamanetworkopen.2024.40969
期刊信息:
JAMA Network Open
来源:明尼苏达大学医学院
(全文结束)


