开源AI在解决复杂医疗案例方面与顶级专有模型匹敌Open-Source AI Matches Top Proprietary Model in Solving Tough Medical Cases | Newswise

环球医讯 / AI与医疗健康来源:www.newswise.com美国 - 英语2025-03-15 07:00:00 - 阅读时长5分钟 - 2279字
一项新的研究显示,一个开源的人工智能模型在解决复杂的医疗案例方面与领先的闭源工具表现相当,这预示着未来将有更多的竞争,从而惠及患者和临床医生。
开源AI闭源AI医疗案例诊断Llama3.1405BGPT-4患者受益临床推理模型优缺点诊断准确性
开源AI在解决复杂医疗案例方面与顶级专有模型匹敌

一项新的研究表明,一个开源的人工智能(AI)模型在解决复杂的医疗案例方面与领先的闭源工具表现相当。这种转变预示着更多的竞争,最终将使患者和临床医生受益。

人工智能可以通过多种方式改变医学,包括其作为忙碌的临床医生的可信诊断助手的潜力。

在过去两年中,专有的AI模型(也称为闭源模型)在解决需要复杂临床推理的难题方面表现出色。值得注意的是,这些闭源AI模型的表现优于开源模型,因为开源模型的源代码是公开的,任何人都可以对其进行调整和修改。

开源AI赶上了吗?

答案似乎是肯定的,至少对于一个名为Llama 3.1 405B的开源AI模型来说是如此。根据由哈佛医学院研究人员领导并得到美国国立卫生研究院资助的新研究的结果,该研究还与哈佛附属贝斯以色列女执事医疗中心和布里格姆妇女医院的临床医生合作进行。

该研究结果于3月14日发表在《JAMA Health Forum》上,显示挑战者开源AI工具Llama 3.1 405B在性能上与GPT-4这一领先的专有闭源模型相当。在分析中,研究人员比较了这两种模型在《新英格兰医学杂志》每周发布的92个难以诊断的临床情景中的表现。

研究结果表明,开源AI工具正在变得越来越具有竞争力,并可能为专有模型提供有价值的替代方案。

“据我们所知,这是开源AI模型首次在由医生评估的此类挑战性案例中与GPT-4的表现相匹配,”高级作者、哈佛医学院Blavatnik研究所生物医学信息学助理教授Arjun Manrai说。“Llama模型能够如此迅速地赶上领先的专有模型,这真是令人震惊。患者、护理人员和医院都将从这种竞争中受益。”

开源AI和闭源AI系统的优缺点

开源AI和闭源AI在几个重要方面有所不同。首先,开源模型可以在医院的私有计算机上下载和运行,从而将患者数据保留在内部。相比之下,闭源模型在外部服务器上运行,要求用户将私人数据传输到外部。“开源模型可能对许多首席信息官、医院管理人员和医生更具吸引力,因为在将数据发送给另一个实体时,即使是一个受信任的实体,也有根本的不同,”该研究的主要作者、哈佛医学院生物医学信息学系新设立的AI in Medicine项目博士生Thomas Buckley说。

其次,医疗和IT专业人员可以调整开源模型以满足独特的临床和研究需求,而闭源工具通常更难定制。“这一点非常关键,”Buckley说。“你可以使用本地数据来微调这些模型,无论是基本的方式还是复杂的方式,从而使它们适应你自己的医生、研究人员和患者的需求。”

第三,像OpenAI和谷歌这样的闭源AI开发商托管他们自己的模型并提供传统的客户支持,而开源模型则将模型设置和维护的责任放在用户身上。至少到目前为止,闭源模型更容易与电子健康记录和医院IT基础设施集成。

开源AI与闭源AI:解决复杂临床案例的评分表

开源和闭源AI算法都在庞大的数据集上进行训练,这些数据集包括医学教科书、同行评审的研究、临床决策支持工具以及匿名的患者数据,如病例研究、测试结果、扫描和确诊。通过以超高速度审查这些海量材料,算法学习模式。例如,癌症和良性肿瘤在病理切片上的外观是什么样的?心力衰竭的最早迹象是什么?如何区分CT扫描上的正常结肠和发炎结肠?当呈现一个新的临床场景时,AI模型会将传入的信息与其在训练期间吸收的内容进行比较,并提出可能的诊断。

在他们的分析中,研究人员测试了Llama在70个之前用于评估GPT-4性能的《新英格兰医学杂志》挑战性临床案例中的表现,这些案例在早前由Adam Rodman领导的一项研究中进行了描述。Rodman是哈佛医学院贝斯以色列女执事医疗中心的内科助理教授,也是这项新研究的共同作者。在新研究中,研究人员添加了22个在Llama训练期结束后发布的新案例,以防Llama在基础训练期间无意中遇到其中一些已发布的案例。

开源模型展示了真正的深度:Llama在70%的案例中做出了正确的诊断,而GPT-4为64%。它还将正确选择作为其第一建议的情况占41%,而GPT-4为37%。对于22个较新的案例子集,开源模型得分甚至更高,在73%的情况下做出了正确的判断,并在45%的情况下将其最终诊断作为首要建议。

“作为一名医生,我看到很多关于强大的大型语言模型的关注都集中在我们无法在本地运行的专有模型上,”Rodman说。“我们的研究表明,开源模型可能同样强大,这为医生和卫生系统提供了更多控制这些技术使用方式的能力。”

根据2023年的一份报告,每年在美国有大约795,000名患者因诊断错误而死亡或遭受永久性残疾。

除了对患者的直接伤害外,诊断错误和延误还会给医疗保健系统带来严重的财务负担。不准确或延迟的诊断可能导致不必要的检查、不适当的治疗,有时甚至会导致随着时间推移变得更加难以管理和昂贵的严重并发症。

“如果明智地使用并负责任地整合到当前的医疗基础设施中,AI工具可以成为忙碌的临床医生的重要副驾,并作为值得信赖的诊断助手,提高诊断的准确性和速度,”Manrai说。“但至关重要的是,医生应帮助推动这些努力,确保AI为他们服务。”

作者、资金、披露

其他作者还包括Byron Crowe和Raja-Elie E. Abdulnour。

该项目得到了美国国家心脏、肺和血液研究所颁发的K01HL138259奖和哈佛医学院院长创新奖的支持。

Crowe报告称在提交的工作之外从Solera Health获得了个人费用。Rodman报告称在提交的工作之外从戈登和贝蒂·摩尔基金会获得了资助。


(全文结束)

大健康
大健康