纽约,纽约州[2025年9月25日]——西奈山医疗系统(Mount Sinai Health System)研究人员的一项新研究表明,对人工智能(AI)分配诊断代码的方式进行简单调整,可以显著提高准确性,甚至超过医生的表现。该研究结果发表在9月25日在线出版的《NEJM AI》期刊上[DOI: 10.1056/AIcs2401161],有望帮助减少医生在文书工作上花费的时间,减少计费错误,并提高患者记录的质量。
西奈山医学院伊坎医学院(Icahn School of Medicine at Mount Sinai)Windreich人工智能与人类健康系生成式AI负责人Eyal Klang医学博士表示:"我们之前的研究表明,即使是最先进的AI,在被要求猜测时也可能产生错误的代码,有时甚至是毫无意义的代码。这一次,我们给了模型一个反思和回顾类似过往病例的机会。这一小小的改变产生了巨大影响。"
在美国,医生每周花费数小时分配ICD代码——这些字母数字字符串用于描述从脚踝扭伤到心脏病发作的一切情况。但像ChatGPT这样的大型语言模型在正确分配这些代码方面往往存在困难。为解决这一问题,研究人员尝试了一种"先查找后编码"的方法,首先提示AI用通俗语言描述诊断,然后从真实世界示例列表中选择最合适的代码。该方法提供了更高的准确性、更少的错误,并且表现与人类相当甚至更优。
研究团队利用了西奈山医疗系统医院的500次急诊患者就诊记录。对于每个病例,他们将医生的记录输入九种不同的AI模型,包括小型开源系统。首先,模型生成初始ICD诊断描述。使用检索方法,将每个描述与来自超过100万条医院记录数据库的10个类似ICD描述进行匹配,并附上这些诊断的发生频率。在第二步中,模型使用这些检索到的信息选择最准确的ICD描述和代码。
急诊医生和两个独立的AI系统独立评估了编码结果,且不知道这些代码是由AI还是临床医生生成的。
总体而言,使用检索步骤的模型表现优于未使用的模型,甚至在许多情况下比医生分配的代码表现更好。令人惊讶的是,即使小型开源模型在被允许"查找"示例时也表现良好。
西奈山医学院伊坎医学院Windreich人工智能与人类健康系主任、Hasso Plattner数字健康研究所主任、Irene和Dr. Arthur M. Fishberg医学教授、西奈山医疗系统首席AI官Girish N. Nadkarni医学博士表示:"这关乎更智能的支持,而非为了自动化而自动化。如果我们能够减少医生在编码上花费的时间,减少计费错误,并提高数据质量,这一切都通过一个经济实惠且透明的系统实现,这对患者和医疗服务提供者来说都是重大胜利。"
作者强调,这种增强检索的方法旨在支持而非取代人工监督。虽然该方法尚未获准用于计费,且专门针对从急诊回家的患者的主要诊断代码进行了测试,但它在临床应用方面显示出令人鼓舞的潜力。研究人员认为可以立即应用,例如在电子记录中建议代码或在计费前标记错误。
调查人员目前正在将该方法集成到西奈山的电子健康记录系统中进行试点测试。他们希望将其扩展到其他临床环境,并在未来的版本中包括次要诊断和程序代码。
西奈山医疗系统首席临床官兼西奈山医院院长David L. Reich医学博士表示:"这里的宏观图景是AI改变我们照顾患者方式的潜力。当技术减轻医生和其他医疗服务提供者的行政负担时,他们就有更多时间进行直接患者护理。这对临床医生、患者以及各种规模的医疗系统都有好处。以这种方式使用AI通过花更多时间与患者相处,提高了我们提供关注和富有同情心的护理的能力。这加强了各地医院和医疗系统的基础。"
该论文题为"评估用于医疗编码的检索增强型大型语言模型"。
研究作者按期刊列出的顺序为:Eyal Klang、Idit Tessler、Donald U. Apakama、Ethan Abbott、Benjamin S Glicksberg、Arnold Monique、Akini Moses、Ankit Sakhuja、Ali Soroush、Alexander W. Charney、David L. Reich、Jolion McGreevy、Nicholas Gavin、Brendan Carr、Robert Freeman和Girish N Nadkarni。
本工作得到了国家转化科学促进中心(National Center for Advancing Translational Sciences)的临床和转化科学奖(CTSA)资助UL1TR004419的支持。本出版物中报告的研究还得到了美国国立卫生研究院研究基础设施办公室的资助,资助编号为S10OD026880和S10OD030463。
【全文结束】


