体格检查是重要的诊断工具,可以揭示患者健康状况的关键信息,但如果医生在特定领域的培训不足,复杂的病症可能会被忽视。尽管先前的研究已经探讨了使用大型语言模型(LLM)作为诊断辅助工具,但在体格检查中的应用仍是一片空白。
为了填补这一空白,来自麻省总医院布里格姆创新中心(Mass General Brigham)的研究人员促使LLM GPT-4根据患者的症状推荐体格检查指令。该研究建议使用LLM作为医生在体格检查中的辅助工具。研究结果已发表在《医学人工智能杂志》上。
“职业生涯早期的医疗专业人员可能因经验有限或其他情境因素(如资源不足的环境)而在进行适当的个性化体格检查时面临挑战,”资深作者马克·D·苏奇博士(Marc D. Succi, MD)表示。他是麻省总医院布里格姆创新中心的战略创新领导者,同时也是企业放射学创新和商业化副主任及医疗工程解决方案孵化器(MESH Incubator)执行主任。
“LLM有潜力成为医生和其他医疗专业人员在体格检查技术和增强诊断能力方面的桥梁和支持。”
苏奇和他的同事们促使GPT-4根据患者的主诉症状推荐体格检查指令,例如髋部疼痛。GPT-4的响应随后由三名主治医师根据准确性、全面性、可读性和整体质量进行评分,满分为5分。
研究发现,GPT-4在提供指导方面表现良好,得分至少达到了可能分数的80%。最高分的项目是“运动时腿痛”,最低分的项目是“下腹部疼痛”。
“GPT-4在许多方面表现出色,但其在某些关键领域的偶尔模糊或遗漏,如诊断特异性,提醒我们医生判断的重要性,以确保全面的患者护理,”主要作者阿利亚·拉奥(Arya Rao)表示。他是一名在MESH孵化器就读哈佛医学院的学生研究员。
尽管GPT-4提供了详细的响应,但研究人员发现它有时会遗漏关键指令或过于模糊,这表明需要人类评估者。根据研究人员的说法,LLM的出色表现表明其作为工具的潜力,可以帮助填补医生知识的空白,并在未来辅助诊断医疗条件。
(全文结束)


