GPT-4能否提升诊断推理能力？ - AI与医疗健康

GPT-4能否提升诊断推理能力？AI in Medicine: Can GPT-4 Improve Diagnostic Reasoning?

环球医讯 / AI与医疗健康来源：medicine.stanford.edu美国 - 英语2024-10-29 02:00:00 - 阅读时长4分钟 - 1694字

斯坦福大学的研究团队探讨了GPT-4在医疗诊断中的应用，发现其在某些情况下甚至超过了人类医生的表现。

人工智能（AI）正越来越多地进入医疗保健领域，引发了关于其在支持医生和改善患者结果方面的有效性的疑问。最近，由斯坦福大学生物医学信息学研究中心、临床卓越研究中心和医院医学部门的研究人员领导的一项研究，作为更广泛的跨海岸AI研究和科学评估（ARISE）网络的一部分，旨在探讨这一问题。

什么是诊断推理？

诊断推理是医生根据临床信息（如病史、体格检查和实验室结果）确定患者诊断的过程。“我们在医学中所做的很多工作都涉及整合数据并得出所谓的鉴别诊断——基于可用数据的一系列可能诊断，”研究作者、斯坦福大学医院医生Jason Hom博士解释道。

在实践中，这意味着当患者出现不明确的症状时，医生需要筛选多种潜在疾病。例如，诊断“不明原因发热”的患者可能会涉及一个长长的可能诊断清单，需要仔细分析以缩小病因范围。

研究如何测试AI的能力

“我们的目标是真正了解AI作为诊断辅助工具的可用性如何影响医生的临床推理表现，”研究作者、斯坦福大学AI研究员Ethan Goh博士说。

研究团队使用了“临床案例描述”，即需要医生根据提供的信息确定诊断的简短患者病例描述。这些案例描述是测试和培训诊断技能的标准方法。所有病例均基于实际患者，并包括初始诊断评估时可获得的数据，包括病史、体格检查和实验室检查结果。这些案例从未公开发布，以保护测试材料的有效性供未来使用。

五十名医生参与了这项研究。他们被分为两组：一组可以使用GPT-4及其常规资源，而另一组仅使用常规资源，如医学教科书和在线参考数据库。

AI是否有帮助？

研究发现，使用GPT-4与常规工具的医生表现几乎与仅使用常规工具的医生一样好。换句话说，仅仅添加AI并未显著改变医生的诊断能力。“虽然很容易假设AI会立即改善护理并拯救生命，但这些结果强调了对AI对医生和患者的影响进行严格评估的必要性，以确保我们不会浪费资源或无意中造成伤害，”研究作者Rob Gallo博士说。

一个令人惊讶的研究结果是，当给予基本提示和相同的临床案例描述及问题任务时，单独使用的GPT-4表现优于人类医生，包括那些可以使用GPT-4的医生。研究团队正在调查医生与GPT-4的聊天记录和直接访谈，以更好地理解发生了什么。值得注意的是，许多医生参与者当时还不熟悉聊天机器人AI系统的功能或如何有效使用它，将其更多地当作搜索引擎而非广泛对话代理。GPT-4的意外出色表现可能是由于AI处理信息的方式，没有认知偏差或疲劳等人类可能遇到的问题。“我们看到的是，当提供正确的信息时，GPT-4可以是一个出色的诊断工具，”Hom解释道。他还指出，研究中的案例是结构化和清晰的——信息以清晰、一致的格式呈现，包含所有相关细节，没有歧义或错误。“现实情况更为复杂，医生需要在动态环境中收集和综合信息，”他强调。

最终，Hom强调了培训医生有效使用这些工具的必要性：“这不仅仅是使用AI；而是要正确使用。”

挑战和未来考虑

Hom还指出了将研究结果应用于真实临床环境的挑战。“在现实生活中，当你在凌晨2点接收患者时，你从各种来源收集信息——如患者本人、家属、看护者或急救医疗服务，”他说。“这些过程是由人类驱动的，涉及建立关系——这是AI目前还无法完全处理的。” 另一个观点是他认为AI工具的使用方式将因医生的经验水平而异。一年级住院医生可能会与资深主治医生不同地使用AI。Hom补充说，医学生和MSPA学生需要学习如何负责任地使用AI，同时也要首先发展他们的基本独立技能。

医学中的AI未来

Hom和他的合作者认为，AI最终将与人类医生合作而不是取代他们。他设想：“理想情况下，AI将支持医生，使他们更加高效，让他们能够专注于医学中独特的人类方面——如安慰患者及其家属。” 这项研究是理解如何将像GPT-4这样的工具整合到医疗实践中的关键一步。研究共同作者Neera Ahuja博士指出：“平衡以HIPAA合规方式整合AI工具（如GPT），增加前线提供者的带宽是至关重要的。” 随着AI技术的不断发展，挑战将是找到最佳方法，结合人类专业知识和AI辅助，确保患者的最佳结果。

(全文结束)