自2022年ChatGPT推出以来,科技公司一直在竞相将生成式AI工具推向医疗市场。然而,医疗提供者面临着一个难题:如何选择合适的AI产品。随着谷歌、亚马逊、微软和OpenAI迅速扩展其人工智能产品线,提供者表示他们不知道如何比较产品的有效性或确定哪种工具最能满足他们的特定需求。
为了解决这一问题,由波士顿的马萨诸塞综合医院布里格姆(Mass General Brigham)领导的一组医疗系统启动了“医疗AI挑战协作”(Healthcare AI Challenge Collaborative)。该计划将允许参与的临床医生在模拟临床环境中测试最新的AI产品。临床医生将在头对头的竞争中评估这些模型,并在年底前公布商业工具的公共排名。
参与的医疗系统表示,直接比较AI产品的需求已经迫在眉睫。尽管AI在医疗领域的应用迅速增加,但行业在如何评估质量方面进展缓慢。行业组织曾尝试推出评估框架,但指南仍处于草案形式。缺乏标准化的评估指标使得即使是相似的工具也难以进行比较。
威斯康星大学医学院和公共卫生学院放射学副教授兼信息学副主席理查德·布鲁斯(Richard Bruce)表示:“是否有可以直接比较这些工具的通用指标?据我所知,除了用户调查和轶事外,工具之间没有直接的基准测试。目前没有简单的方法来进行一对一的比较。”
目前,埃默里医疗(Emory Healthcare)、威斯康星大学医学院和公共卫生学院放射科、华盛顿大学医学院放射科以及行业组织美国放射学会(American College of Radiology)都参与了这一合作项目。马萨诸塞综合医院布里格姆表示,他们计划扩大该项目的规模。
据马萨诸塞综合医院布里格姆的一位发言人称,医疗系统将初步测试九个模型,包括来自微软、谷歌、亚马逊网络服务、OpenAI和Harrison.AI的产品。临床医生将根据报告生成、关键发现、鉴别诊断等因素评估这些模型。布鲁斯表示,评估模型的指标正在“演变”,可能取决于工具的具体临床用途。例如,虽然模型准确性始终是高度权重的因素,但在某些情况下,如用于生成文本报告时,可读性可能更为重要。
“其中一些指标将非常主观,”布鲁斯说,“比如,我觉得这种文本呈现的风格更容易阅读或更便于患者理解吗?”
最终,医疗系统将创建一个“排行榜”(leaderboard),华盛顿大学放射学系教授兼主任杜希扬特·萨哈尼(Dushyant Sahani)表示。排行榜将用于向技术公司提供反馈,并帮助医疗系统选购技术。马萨诸塞综合医院布里格姆表示,未直接参与挑战的医疗系统也可以利用这些排名来决定购买哪些工具,这被视为促进健康公平的一个胜利。
在实施AI的竞赛中,专家们担心资源较少的小型医疗提供者可能因没有时间研究新工具而落后。“医疗系统可以利用透明的排名来指导决策并建立基准标准,”萨哈尼说,“联合体的见解和最佳实践可以被非参与的医疗系统采用。”
谷歌和微软拒绝就本文发表评论。
(全文结束)


