医疗AI工具日益增多,但测试是否得当?Medical AI tools are growing, but are they being tested properly?

环球医讯 / AI与医疗健康来源:www.sciencenews.org美国 - 英语2025-03-08 03:00:00 - 阅读时长5分钟 - 2056字
随着医疗领域越来越多地应用人工智能工具,专家们质疑当前的测试方法是否能够准确评估这些工具在实际临床任务中的表现。
医疗AI工具测试评估大型语言模型(LLM)临床能力基准偏差评估方法政策框架模型使用建议
医疗AI工具日益增多,但测试是否得当?

人工智能算法正在被整合到几乎所有的医疗保健方面。它们被用于乳腺癌筛查、临床笔记记录、健康保险管理,甚至手机和电脑应用程序中,以创建虚拟护士并转录医生与患者的对话。公司声称这些工具将使医疗更加高效,并减轻医生和其他医疗工作者的负担。但一些专家质疑这些工具是否真的如公司所宣称的那样有效。

像大型语言模型(LLM)这样的AI工具,通过大量文本数据训练生成类似人类的文本,其性能取决于训练和测试的质量。然而,目前公开可用的医疗领域LLM能力评估大多基于医学学生考试,如MCAT。实际上,一项对医疗保健AI模型(特别是LLM)的研究评估发现,只有5%的研究使用了真实患者数据。此外,大多数研究通过提问来评估LLM的医学知识。很少有研究评估LLM编写处方、总结对话或与患者交谈的能力——这些都是LLM在现实世界中会执行的任务。

计算机科学家Deborah Raji及其同事在2月份的《新英格兰医学杂志AI》上指出,当前的基准测试具有误导性。这些测试无法衡量实际的临床能力;它们未能充分考虑需要细致决策的真实世界病例的复杂性。此外,这些测试不够灵活,无法评估不同类型的临床任务。由于这些测试基于医生的知识,因此没有适当反映护士或其他医务人员的信息。

“人们对这些系统的很多期望和乐观情绪都建立在这些医学考试测试基准上,”Raji说,她在加州大学伯克利分校研究AI审计和评估。“这种乐观情绪现在正转化为部署,人们试图将这些系统整合到现实世界中,并将其应用于真正的患者。”她和她的同事们认为,我们需要开发出评估LLM在应对复杂和多样化的临床任务时表现的方法。

Science News采访了Raji,讨论了当前医疗保健AI测试的状态、存在的问题以及改进评估的方法。本次采访经过编辑,以确保简洁明了。

SN: 为什么当前的基准测试存在不足?

Raji: 这些基准并不能代表人们希望实现的应用,所以整个领域不应该像现在这样过分关注这些基准。

这并不是一个新问题,也不仅限于医疗保健领域。这是贯穿机器学习的一个普遍问题,我们把各种基准放在一起,希望它们能代表我们在某个特定领域的通用智能或通用能力。但我们必须非常谨慎地对待这些数据集所代表的主张。

这些系统远非完美。有时它们会在某些人群上失败,有时因为它们错误地表示了任务,未能以揭示部署中某些失败的方式捕捉任务的复杂性。这种基准偏差问题,即我们根据不能代表部署情况的信息做出部署选择,导致了很多自大。

SN: 如何为医疗保健AI模型创建更好的评估方法?

Raji: 一种策略是采访领域专家,了解实际的工作流程,并收集与模型进行试点交互的自然数据集,以查看人们输入的不同类型和范围的查询以及不同的输出。还有一个由Roxana Daneshjou在其部分工作中提出的想法,即通过“红队”方法,主动召集一组人对抗性地提示模型。这些都是获取更接近人们实际与系统交互的现实提示集的不同方法。

我们还在尝试从实际医院获取使用数据,例如他们如何实际部署系统以及关于他们如何实际集成系统的流程信息,以及匿名的患者信息或上传到这些模型的匿名输入,这些可以为未来的基准测试和评估实践提供信息。

还有来自其他学科(如心理学)的方法,关于如何将你的评估基于现实观察来进行评估。同样的道理也适用于这里——我们当前的评估生态系统有多少是基于人们对现实的观察,以及人们在实际部署这些系统时真正欣赏或挣扎的内容。

SN: 模型基准测试应该有多专业?

Raji: 针对问答和知识回忆的基准与验证模型在总结医生笔记或上传数据上的问答能力的基准非常不同。我试图达到的是,在任务设计方面的这种细微差别。不是每个人都应该有自己的个性化基准,但我们共同的任务需要比多项选择题更加贴近现实。即使是对于真正的医生来说,这些多项选择题也不能代表他们的实际表现。

SN: 需要哪些政策或框架来创建这样的评估?

Raji: 这主要是呼吁研究人员更多地思考和构建不仅限于基准测试,还包括更贴近我们对这些系统部署后期望的评估。目前,评估很大程度上是一个事后的想法。我们认为在这个领域中,评估方法、基准设计方法以及整体评估方法都应该得到更多的关注。

其次,我们可以在机构层面要求更高的透明度,比如通过医院的人工智能清单,医院应公布其临床实践中使用的不同人工智能产品的完整列表。这种在医院层面的做法将有助于我们了解人们目前使用人工智能系统的目的。如果医院和其他机构发布有关其当前评估实践的信息——他们的当前基准依赖什么——这将帮助我们找出当前做法与更现实或更贴近实际情况之间的差距。

SN: 对于使用这些模型的人有什么建议?

Raji: 我们作为一个领域,应该更加深思熟虑地关注我们所关注的评估或过于依赖的评估。

编译和上传下载并运行这些数据集非常容易,即使它们完全不代表人们希望在部署这些模型时所做的事情。但我挑战这个领域,使其更加深思熟虑,并更多地关注真正构建出我们希望模型做什么以及我们对这些模型在部署后的期望的有效表示。


(全文结束)

大健康
大健康