体格检查是重要的诊断工具,可以揭示患者健康状况的关键见解,但如果临床医生在特定领域的专业培训不足,复杂的病症可能会被忽视。尽管先前的研究已经探讨了使用大型语言模型(LLMs)作为提供诊断的工具,但它们在体格检查中的应用尚未得到开发。为了填补这一空白,麻省总医院布里格姆的研究人员提示LLM GPT-4根据患者的症状推荐体格检查指令。研究结果表明,使用LLMs作为临床医生在体格检查中的辅助工具有潜在价值。研究结果已发表在《医学人工智能杂志》上。
“职业生涯早期的医疗专业人员可能因经验有限或其他情境因素(如资源较少的环境)而面临执行适当的个性化体格检查的挑战,”高级作者、麻省总医院布里格姆创新战略创新领导者、企业放射学创新和商业化副主席兼麻省总医院布里格姆医疗工程解决方案孵化器(MESH)执行董事Marc D. Succi博士说。“LLMs有潜力成为一座桥梁,支持医生和其他医疗专业人员进行体格检查技巧,提高他们在护理点的诊断能力。”
Succi和他的同事提示GPT-4根据患者的主诉症状(例如,疼痛的髋关节)推荐体格检查指令。然后,由三位主治医师根据准确性、全面性、可读性和整体质量对GPT-4的响应进行1到5分的评分。他们发现,GPT-4在提供指令方面表现良好,得分至少达到总分的80%。最高得分的是“运动时腿痛”,最低得分的是“下腹痛”。
“GPT-4在许多方面表现出色,但其在某些关键领域(如诊断特异性)的偶尔模糊或遗漏提醒我们,确保全面患者护理仍需医生的判断,”主要作者、哈佛医学院学生研究员Arya Rao表示。
虽然GPT-4提供了详细的响应,但研究人员发现它有时会遗漏关键指令或过于模糊,这表明需要人类评估者。根据研究人员的说法,LLM的出色表现表明其有潜力作为工具,帮助填补医生的知识空白,未来在诊断医疗条件方面提供帮助。
作者包括:除了Succi,麻省总医院布里格姆的作者还包括Arya S. Rao、Christian Rivera、Husayn F. Ramji、Sarah Wagner、Andrew Mu、John Kim、William Marks、Benjamin White、David C. Whitehead和Michael J. Senter-Zapata。
资金来源:该项目部分由美国国立一般医学科学研究所(T32GM144273)资助。内容仅由作者负责,不一定代表美国国立一般医学科学研究所或美国国立卫生研究院的官方观点。
引用论文:Rao, Arya S et al. “大型语言模型指导下的重点体格检查方法”《医学人工智能杂志》DOI: 10.21037/jmai-24-275
(全文结束)


