在人工智能(AI)和医疗保健交叉领域的一个新兴趋势是通过使用更高质量的训练数据集和定制编码来增强标准大语言模型(LLM)的能力。最近发表在《JAMA Network Open》上的一项研究显示,一种增强型的人工智能大语言模型(LLM)通过了美国医学执照考试(USMLE)的所有部分,并且其得分超过了大多数医生和其他现有的AI工具。
越来越多的趋势是评估LLM在医疗保健中的应用。根据Statista在2024年进行的一项调查,18%的医疗保健工作者使用LLM进行生物医学研究,至少有五分之一的人使用医疗聊天机器人和LLM来回答患者的问题。
“通过有针对性、最新的临床知识来提高LLM在医疗保健中的性能,是LLM实施和接受的重要一步,”首席作者Peter L. Elkin博士及其合著者Guresh Mehta、Frank LeHouillier、Melissa Resnick、Sarah Mullin、Crystal Tomlin、Skyler Resendez、Jiaxing Liu、Jonathan Nebeker和Steven Brown写道。
AI和LLM在医疗保健中的应用
人工智能正在迅速改变医疗保健。当OpenAI于2022年11月30日向公众发布其聊天机器人ChatGPT时,这个瓶子里的精灵被释放出来,再也无法回头。ChatGPT打破了记录,在一周内就获得了100万用户,据UBS的数据,两个月内用户数达到了1亿。LLM的例子包括Meta的Llama、Google的BERT、Bard、Gemini、LaMDA、Google AI的PaLM 2(Bison-001)、Anthropic的Claude、技术创新研究所(TII)的Falcon、Cohere、Microsoft的Orca、Guanaco、LMSYS的Vicuna、CalderaAI的30B Lazarus、前Google研究人员的Flan-T5、WizardLM、斯坦福大学的Alpaca 7B等。
目前,许多医院已经在使用AI或在全球范围内评估机器学习的使用情况。根据《2024未来健康指数》全球报告,该报告调查了来自14个国家的近3,000名医疗保健领导者,受访者报告称,AI已经被大约43%的医院用于院内患者监测,37%用于药物管理,37%用于治疗计划,36%用于放射学,36%用于预防性护理,35%用于病理学,33%用于远程患者监测,以及32%用于临床指挥中心。
例如,梅奥诊所拥有超过200个AI项目,包括创建早期检测焦虑、抑郁、神经肌肉疾病、乳腺癌、胰腺癌和心血管疾病的模型。约翰霍普金斯大学及医学院正在测试将AI作为临床工具,用于总结患者病历、临床文档、草拟对患者信息的回复以及对传入信息进行分类和分配。麻省总医院布里格姆的医生目前正在评估使用AI预测口腔病变恶性风险的可行性,以及使用ChatGPT为乳房疼痛和乳腺癌患者推荐影像服务并回答结肠镜检查患者的疑问。麻省总医院布里格姆的医生Vesela Kovacheva博士正在开发一种AI机器学习算法,以自动化为即将进行剖腹产的母亲提供麻醉。
LLM真的聪明吗?
人工智能机器学习通过从大规模训练数据集中识别模式来进行预测,而不是依赖硬编码的显式编程指令。大型语言模型是一种人工智能机器学习程序。
LLM是由深度学习算法和注意力机制组成的神经网络,这些算法在大量数据集上进行了预训练,以便在提供前置文本时能够预测序列中的下一个词或标记。
标准的大型语言模型可能看起来很智能并且能够进行复杂的推理,但实际上,标准LLM主要依赖于模式识别能力来进行预测,这类似于一个很好的猜测者。
虽然“大型语言模型(LLM)正在医疗保健中得到应用,”研究人员写道,“但需要提高准确性并保持长期准确性,以最大化LLM的好处。”
如何提高AI的准确性?
目前有许多方法可以提高AI模型的性能。例如,增加训练数据集的大小和质量,增加AI模型本身的参数数量,以及在训练过程中提高计算能力。对于LLM而言,可以通过调优、提示蒸馏和提示工程技术来实现性能改进。
在这项新研究中,研究人员决定使用检索增强生成(RAG)方法,这是一种自然语言处理(NLP)方法,通过引用外部知识库来优化LLM的输出,从而增强原生LLM的相关临床知识。
有许多优点可以使用检索增强生成来提高LLM的性能。RAG使LLM能够从实时数据源(如定期更新的数据存储库、新闻网站、期刊、出版物、研究和社会媒体流)获取最新信息。RAG还可以提供引文、参考文献和来源归属,以提高模型的透明度和可解释性。
研究人员还使用了一种称为语义三元组的数据结构,该结构按主题、关系和对象对数据进行分组,以向LLM提供更丰富的上下文。
团队将其技术命名为SCAI(发音为“sky”),即语义临床人工智能。
“我们的假设是,通过语义三元组增强原生LLM的相关临床知识,可以提高准确性并减少虚构内容,”科学家们写道。
团队使用Meta的Llama 2 13B参数模型、Llama 3 70B和Llama 3.1 405B模型测试了他们的SCAI RAG增强LLM在美国医学执照考试步骤1、2和3中的文本问题。
“在这项比较效果研究中,我们发现使用SCAI RAG进行语义增强与USMLE步骤1、2和3的分数显著提高相关,”科学家们得出结论。
有了这个概念验证,下一步将是扩展SCAI RAG方法到更多的LLM,以确定该技术的通用性。
通过这项研究结果,研究人员强调他们认为使用AI的临床医生可能会取代那些不使用AI的临床医生,并且AI将作为辅助工具而不是取代人类临床医生。在不久的将来,人类医生和AI之间的合作将成为常态,而不是例外。
(全文结束)


