根据最近在田纳西州纳什维尔举行的医院医学学会(SHM) Converge 2026会议上公布的新研究,人工智能生成的医院患者就诊总结(AVSs)表现优于医生撰写的总结。
当研究人员测试两种大型语言模型(LLMs)——Copilot和Gemma——来生成就诊总结并与临床医生撰写的总结进行比较时,人工智能生成的总结在可理解性、可操作性、可读性、准确性及其他衡量标准上得分更高。研究发现,人工智能生成的总结并未增加潜在危害风险。
研究作者、加州大学圣地亚哥健康中心(UC San Diego Health)医学助理临床教授Milla Kviatkovsky博士表示,患者就诊总结——以及患者理解这些总结的能力——对安全有效的医院出院至关重要。
尽管就诊总结前景广阔,但先前的研究发现,这些总结常常不尽如人意,患者报告称难以理解内容。
Kviatkovsky发现,人工智能生成的文档可能是改善这些总结的关键。
人机对决:研究过程
"我们从Epic系统中提取了50份病历,获取了医生撰写的就诊总结,"Kviatkovsky说。这50名成年患者均于2023年1月至12月期间从仅由主治医师负责的医院内科服务出院。
研究人员随机抽取了58次符合条件的就诊记录。
他们使用出院总结中医生撰写的医院诊疗过程作为源文本,生成人工智能草拟版本。他们使用了微软Copilot(GPT-4)和Gemma 3n 2B模型。他们使用的提示强调以患者为中心的语言,避免专业术语,并将建议调整为适合六年级阅读水平的患者。
五位主治医师在不知情的情况下评估了这些总结(他们不知道评估的总结是如何生成的)。他们使用了两种评估工具:患者教育材料评估工具(PEMAT v2.0),用于评估可操作性和可理解性;以及一个包含六个维度的就诊总结评分标准,考察准确性、完整性、清晰度或可读性、与医疗记录的一致性、语气或同理心,以及潜在危害。
研究结果
医生撰写的就诊总结得分为:
- 可理解性:66.1%
- PEMAT评估中的可操作性:56.7%
两种人工智能生成的就诊总结表现更佳:
- Copilot在可理解性上得分为85.5%,在可操作性上得分为70.9%
- Gemma在可理解性上得分为87.5%,在可操作性上得分为74.1%
对于两种模型,人工智能与医生相比的P值均<0.001。
当使用就诊总结评分标准进行评估时,人工智能生成的总结也优于医生撰写的总结,在清晰度或可读性以及语气或同理心方面的改善最为显著(P<0.001)。评估者发现,人工智能生成的总结并未增加潜在危害风险,96%的Copilot总结和90%的Gemma总结被评为没有增加感知到的潜在危害风险,而医生撰写的总结这一比例为80%(Copilot与医生相比的P值=0.02)。
两种大型语言模型之间没有发现显著差异。
Kviatkovsky对研究结果感到惊讶吗?"绝对不惊讶,"她说。"医生仍然是创建文档的核心,"她说。"我们只是利用人工智能在它非常擅长的领域——将信息转化为更易读、更易理解的文本,"Kviatkovsky告诉《Medscape医学新闻》。
她说,使用人工智能处理就诊总结将使医生有更多时间与患者面对面交流。目前,Kviatkovsky正在重复这项研究,让患者作为评分者,这是研究的一个重要补充。
专家观点
这些结果也让亚当·罗德曼(Adam Rodman)博士不感到惊讶,他是贝斯以色列女执事医疗中心(Beth Israel Deaconess Medical Center)Carl J. Shapiro教育与研究中心的医院医师和AI项目主任,同时也是哈佛医学院(Harvard Medical School)的助理教授。他为《Medscape医学新闻》审阅了这项研究。
他在电话采访中表示,主要发现是我们已经相当了解的事情:AI总结可能非常有帮助,能提供更高质量的信息。罗德曼说,当医生撰写就诊总结时,会消耗大量"认知时间","而且已经明确的是,我们[医生]在这方面做得并不好。"
他说,在时间紧迫的情况下,大多数医生宁愿花时间与患者和家属交谈,而不是撰写总结。"大多数医院医师会欢迎这些[人工智能生成的就诊总结],"他说。
罗德曼表示,在相关研究取得进展之前,现在合理做法是将信息输入Copilot以生成更准确的总结,然后阅读并检查后再交给患者。
类似的人工智能研究
波士顿麻省总医院(Massachusetts General Hospital)放射肿瘤学讲师Sonu Subudhi博士最近发现,人工智能在获取患者临床病史方面效果显著,这对临床医生来说是另一个潜在的时间节省工具。
他为《Medscape医学新闻》审阅了这项新研究。
"这是一项及时的研究,为大型语言模型辅助临床文档的使用增添了有意义的证据,"他在电子邮件采访中表示。"也许最引人注目的发现是,一个非常小的开源权重模型,即Gemma 3n 2B,表现与GPT-4(微软Copilot)相当。这对实际部署极为重要,特别是在资源有限的环境或对数据隐私有严格要求的机构中,这些地方无法将患者数据发送到基于云的API[应用程序编程接口]。"
他同意需要患者评审,因为医生和患者对什么使出院总结清晰或有同理心往往有"相当不同"的看法。
他说,模型领域发展迅速,现在有比研究进行时更先进的选项,包括一些可以在标准医院硬件上完全本地运行而无需互联网连接的模型。
医生们怎么看?
《Medscape医学新闻》还采访了三位未参与该研究的医生。
印第安纳波利斯埃斯凯纳齐医疗集团(Eskenazi Medical Group)的学术医院医师、印第安纳大学医学院(Indiana University School of Medicine)临床医学和儿科助理教授Lujia Zhang博士称这项新研究"很有前景",但也补充说他"并不完全确信它能在我所期望的情况下发挥作用"。
"毫无疑问,大型语言模型和其他实现方式在这方面工作的能力,"他说。"在我看来,AI擅长识别模式、处理大量数据和某些重复性操作。"
然而,撰写就诊总结还需要其他复杂的判断,例如对原始文档中讨论内容的深入理解,如风险-收益考量。
他还希望看到有关使用AI节省时间的研究。尽管有这些注意事项,他补充道:"我很乐意尝试!"
参加了SHM会议上Kviatkovsky报告的加州大学旧金山分校健康中心(UCSF Health)医学教授兼医院医学部主任Margaret Fang博士也不对研究结果感到惊讶。她说,其他研究表明,人工智能生成的信息与人类生成的信息一样好,甚至更好。
她说,这项新研究论证了保持人类参与的重要性。"医生需要对原始文档的准确性保持警惕。"
犹他大学盐湖城分校的住院医师Brent Kennis博士表示,这项新研究"是利用人工智能提高临床效率和患者体验的绝佳例子"。但也有注意事项,包括临床医生"并不总是擅长"撰写总结,而错误的细节可能会在人工智能中"引发一连串意想不到的后果"。
SHM指导
SHM没有关于在就诊总结中使用人工智能的官方声明,但确实提供了关于在临床护理中使用人工智能的建议,这些是针对卫生与公众服务部信息请求的回应。
Zhang、Fang和Kennis报告称没有相关披露。Kviatkovsky报告称没有相关披露。Rodman报告称曾在谷歌担任访问研究员。Subudhi报告称是与其研究中描述的代理临床病史采集框架相关的临时专利申请的命名发明人。
该研究没有获得资助。
【全文结束】

