人工智能可以在许多方面改变医学,包括作为忙碌医生的可靠诊断助手。
在过去两年中,专有AI模型(也称为闭源模型)在解决需要复杂临床推理的疑难病例方面表现出色。值得注意的是,这些闭源AI模型的表现优于开源模型,后者因为其源代码公开且任何人都可以修改而得名。
开源AI赶上了吗?
答案似乎是肯定的,至少对于一个名为Llama 3.1 405B的开源AI模型来说是如此。根据一项由哈佛医学院研究人员领导的新研究发现,该研究得到了美国国立卫生研究院(NIH)的资助,并与哈佛附属贝斯以色列女执事医疗中心和布莱根妇女医院的临床医生合作进行。
研究结果于3月14日发表在《JAMA Health Forum》上,显示Llama 3.1 405B在92个复杂的临床案例中的表现与领先的专有闭源模型GPT-4相当。这些案例选自《新英格兰医学杂志》每周发布的诊断难题。
研究结果表明,开源AI工具正变得越来越有竞争力,可能成为专有模型的有价值的替代品。
“据我们所知,这是首次有一个开源AI模型在如此复杂的病例上与GPT-4的表现相当,”哈佛医学院Blavatnik研究所生物医学信息学助理教授Arjun Manrai说。“Llama模型能够如此迅速地赶上领先的专有模型,这真是令人震惊。患者、护理提供者和医院都将从这种竞争中受益。”
开源AI与闭源AI系统的优缺点
开源AI和闭源AI在几个重要方面有所不同。首先,开源模型可以在医院的私人计算机上下载和运行,从而将患者数据保留在内部。相比之下,闭源模型在外部服务器上运行,要求用户将私有数据传输到外部。
“开源模型可能对许多首席信息官、医院管理员和医生更具吸引力,因为将数据传送到外部实体,即使是一个值得信赖的实体,也有根本的不同,”该研究的主要作者、哈佛医学院生物医学信息学系新设的人工智能医学方向博士生Thomas Buckley说。
其次,医疗和IT专业人员可以调整开源模型以满足独特的临床和研究需求,而闭源工具通常更难定制。
“这一点非常重要,”Buckley说。“你可以使用本地数据来微调这些模型,无论是基本方式还是复杂方式,使它们适应你自己的医生、研究人员和患者的需求。”
第三,像OpenAI和Google这样的闭源AI开发商托管自己的模型并提供传统的客户支持,而开源模型则将模型设置和维护的责任放在用户身上。至少到目前为止,闭源模型更容易与电子健康记录和医院IT基础设施集成。
开源AI与闭源AI:解决复杂临床案例的得分表
开源和闭源AI算法都经过大量数据集的训练,这些数据集包括医学教科书、同行评审的研究、临床决策支持工具以及匿名患者数据,如病例研究、测试结果、扫描和确诊。通过超高速审查这些海量材料,算法学习模式。例如,病理切片上的癌性和良性肿瘤是什么样的?心力衰竭的最早征兆是什么?如何在CT扫描中区分正常和发炎的结肠?当呈现新的临床场景时,AI模型会将传入的信息与训练期间吸收的内容进行比较,并提出可能的诊断。
在他们的分析中,研究人员测试了Llama在70个之前用于评估GPT-4性能的具有挑战性的NEJM病例上的表现,这些病例在之前由Adam Rodman领导的一项研究中描述过。Adam Rodman是哈佛医学院贝斯以色列女执事医疗中心的内科助理教授,也是这项新研究的共同作者。在这项新研究中,研究人员增加了22个在Llama训练期结束后发布的新病例,以防止Llama在基础训练期间无意中遇到其中一些已发布的70个病例。
开源模型展现了真正的深度:Llama在70%的病例中做出了正确的诊断,而GPT-4为64%。它还将正确选择作为首要建议的比例为41%,而GPT-4为37%。对于22个较新的病例子集,开源模型的得分更高,在73%的情况下做出了正确的诊断,并在45%的情况下将最终诊断作为首要建议。
“作为一名医生,我看到很多关于强大语言模型的关注都集中在我们无法在本地运行的专有模型上,”Rodman说。“我们的研究表明,开源模型可能同样强大,给予医生和医疗系统更多控制这些技术使用的权力。”
根据2023年的一份报告,每年在美国有约795,000名患者因诊断错误而死亡或遭受永久性残疾。
除了对患者的直接伤害外,诊断错误和延误还会给医疗系统带来严重的财务负担。不准确或延迟的诊断可能导致不必要的检查、不当治疗,甚至在某些情况下导致严重并发症,这些并发症随着时间的推移变得更加难以管理和昂贵。
“如果明智地使用并负责任地整合到当前的医疗基础设施中,AI工具可以成为忙碌医生的宝贵副驾,并作为可靠的诊断助手,提高诊断的准确性和速度,”Manrai说。“但至关重要的是,医生应参与这些努力,确保AI为他们服务。”
(全文结束)


