布法罗大学AI工具在USMLE考试中超越其他AI工具和大多数医生
UB AI tool outperformed other AI tools — and most doctors — on USMLE exams
由布法罗大学生物信息学研究人员开发的一种强大的临床人工智能工具在所有三部分的美国医学执照考试(USMLE)中展示了卓越的准确性,根据4月22日在《JAMA Network Open》上发表的一篇论文显示。
这种名为“语义临床人工智能”(SCAI,发音为“Sky”)的工具在美国医学执照考试中的得分超过了大多数医生和其他所有AI工具。该项目的主要作者Peter L. Elkin表示,SCAI有潜力成为医生的关键合作伙伴。Elkin是雅各布斯医学院和生物医学科学学院生物医学信息学系主任,也是UBMD内科医生。
Elkin表示,SCAI是迄今为止最准确的临床AI工具,其最新版本在美国医学执照考试第三阶段得分为95.2%,而GPT4 Omni在同一测试中得分为90.5%。
他解释说:“作为医生,我们习惯于使用计算机作为工具,但SCAI不同;它可以根据自己的推理来补充你的决策和思考。”
研究人员将该模型与全国医师执照所需的美国医学执照考试进行了测试。该考试评估了医生应用知识、概念和原则的能力,以及展示基本以患者为中心的技能。任何包含视觉成分的问题都被排除在外。
Elkin解释说,大多数AI工具通过使用统计方法在网络数据中找到关联,从而回答问题。“我们将这些工具称为生成式人工智能,”他说。“有人认为它们只是在抄袭网上的内容,因为它们给出的答案是其他人写过的。”然而,这些AI模型现在正在成为护理的合作伙伴,而不仅仅是临床医生在其实践中使用的简单工具。
“但SCAI可以回答更复杂的问题并进行更复杂的语义推理,”他说。“我们创建的知识来源可以像人们在医学院学习时那样进行推理。”
团队从他们之前开发的自然语言处理软件开始,添加了大量的权威临床信息,这些信息来自各种不同的来源,包括最近的医学文献、临床指南、基因组数据、药物信息、出院建议、患者安全数据等。任何可能带有偏见的数据,如临床笔记,都没有被包括在内。
SCAI包含了1300万条医学事实,以及这些事实之间所有可能的相互作用。团队使用基本的临床事实,即语义三元组(如“青霉素治疗肺炎链球菌性肺炎”),来创建语义网络。然后,该工具可以表示这些语义网络,从而可以从其中推导出逻辑结论。
Elkin说:“我们已经教会大型语言模型如何使用语义推理。”
其他有助于SCAI的技术包括知识图谱,旨在发现医学数据中的新链接以及以前“隐藏”的模式,还有检索增强生成,这使得大型语言模型能够在响应提示之前访问和整合外部知识数据库中的信息。这减少了AI工具在没有足够信息时仍然回应提示的“编造”倾向。
Elkin补充说,使用形式语义来指导大型语言模型提供了重要的上下文,这对于SCAI理解并更准确地回应特定问题至关重要。
“SCAI与其他大型语言模型不同,因为它可以与你进行对话,并且作为一种人机合作,可以根据自己的推理来补充你的决策和思考,”Elkin说。
他总结道:“通过向大型语言模型添加语义,我们使它们具备了类似于我们在实践循证医学时的推理能力。”
由于SCAI可以访问大量的数据,它还有潜力提高患者安全性、改善医疗可及性,并“民主化专科护理”,通过使初级保健提供者甚至患者能够获得专科和亚专科的医学信息。
尽管SCAI的功能令人印象深刻,Elkin强调其角色将是辅助而不是取代医生。
“人工智能不会取代医生,但使用AI的医生可能会取代不使用AI的医生,”他说。
除了Elkin之外,布法罗大学生物医学信息学系的合著者还包括Guresh Mehta、Frank LeHouillier、Melissa Resnick、Crystal Tomlin、Skyler Resendez和Jiaxing Liu。
罗斯威尔公园综合癌症中心的Sarah Mullin,以及退伍军人事务部的Jonathan R. Nebeker和Steven H. Brown也是合著者。
这项工作得到了国立卫生研究院和退伍军人事务部的资助。
(全文结束)
声明:本文仅代表作者观点,不代表本站立场,如有侵权请联系我们删除。
本页内容撰写过程部分涉及AI生成(包括且不限于题材,素材,提纲的搜集与整理),请注意甄别。