来自明尼苏达大学医学院、斯坦福大学、贝丝以色列女执事医疗中心和弗吉尼亚大学的研究团队研究了医生如何利用GPT-4——一种人工智能(AI)大型语言模型系统——进行患者诊断。该研究涉及50名拥有美国执业资格的医师,涵盖家庭医学、内科和急诊医学领域。研究团队发现,GPT-4作为诊断辅助工具并未显著提高临床推理能力,相比传统资源而言。其他关键发现包括:
- 单独使用GPT-4在诊断性能上得分显著更高,超过了使用传统在线诊断资源的临床医生和使用GPT-4辅助的临床医生的表现。
- 在评估使用GPT-4的临床医生与使用传统诊断资源的临床医生时,GPT-4的加入并未显著提升诊断性能。
“人工智能领域正在迅速扩展,影响着我们的生活,无论是医疗内外。重要的是我们要研究这些工具,了解如何最好地利用它们来改善我们提供的护理以及提供护理的体验。”明尼苏达大学医学院教授、M Health Fairview医院医生安德鲁·奥尔森博士(Andrew Olson, MD)表示。“这项研究表明,医生与AI的合作在临床实践中还有进一步改进的空间。”
这些结果强调了将AI整合到临床实践中的复杂性。虽然单独使用GPT-4表现出色,但将其作为诊断辅助工具与临床医生结合使用时,并未显著优于传统诊断资源。这表明AI在医疗保健中的潜力是复杂的,需要进一步探索如何最好地支持临床实践。此外,还需要更多的研究来了解如何培训临床医生使用这些工具。四家合作机构已启动了一个跨海岸的AI评估网络——称为ARiSE——以进一步评估生成式AI在医疗保健中的输出。该研究的资金由戈登和贝蒂·摩尔基金会提供。
(全文结束)


