当人类放射科医生检查扫描图像时,他们透过数十年的培训经验来看待这些图像。从大学到医学院再到住院医师,最终由医生解读X光片的过程包括数千小时的学术和实践教育,从备考执照考试到多年住院医师经历。
目前,用于解读医学图像的人工智能(AI)的培训路径要直接得多:向AI展示大量带有感兴趣特征标签的医学图像,如癌症病灶,以便系统能够识别模式,从而“看到”未标记图像中的这些特征。
尽管过去十年发表了超过14,000篇关于AI和放射学的学术论文,但结果充其量只是平平。2018年,斯坦福大学的研究人员发现,他们训练的用于识别皮肤病变的AI错误地将含有尺子的图像标记为阳性,因为大多数恶性病变的图像中也包含尺子。
“神经网络很容易过度拟合于虚假相关性,”计算机与信息科学(CIS)助理教授马克·亚茨卡(Mark Yatskar)说,他指的是模仿生物神经元并支持从ChatGPT到图像识别软件等各种工具的AI架构。“它会走捷径,而不是像人类那样做决策。”
在一篇将在2024年NeurIPS会议上作为亮点分享的新论文中,亚茨卡与CIS教授克里斯·卡利森-伯奇(Chris Callison-Burch)及第一作者杨跃(Yue Yang,由卡利森-伯奇和亚茨卡指导的博士生)介绍了一种新的方法,通过模拟人类医生的培训路径来开发用于医学图像识别的神经网络。“通常情况下,AI系统的做法是向AI系统投入大量数据,让它自己去解决问题,”亚茨卡说。“这实际上与人类学习的方式非常不同,医生有一个多步骤的教育过程。”
该团队的新方法实际上是让AI进入医学院,通过提供来自教科书、国家医学图书馆的学术数据库PubMed以及在线公司StatPearls(提供执业医生练习考试题目的公司)的医学知识来培训AI。“医生在医学院学习多年,从教科书和课堂上学习,然后才开始正式的临床培训,”亚茨卡指出。“我们试图模仿这一过程。”
这种新方法被称为知识增强瓶颈(Knowledge-enhanced Bottlenecks,简称KnoBo),要求AI基于既定的医学知识做出决策。“在读取X光片时,医学生和医生会问,肺部是否清晰,心脏是否正常大小,”杨跃说。“模型将依赖于与人类决策相似的因素。”
结果是,使用KnoBo训练的模型不仅在识别基于肺部X光的COVID患者等任务上比当前最佳模型更准确,而且更具可解释性:临床医生可以理解模型为何做出特定的决策。“你会知道为什么系统预测这张X光片是COVID患者的,因为它在肺部有不透明区域,”杨跃说。
使用KnoBo训练的模型还更鲁棒,能够处理一些真实世界数据的复杂性。人类医生的最大优势之一是,无论在不同的医院还是面对不同的患者群体,他们的技能都能转移。相比之下,针对特定医院的特定患者群体训练的AI系统很少能在不同环境中表现良好。
为了评估KnoBo帮助模型关注重要信息的能力,研究人员在“混淆”数据集上测试了一系列神经网络,即在一组患者中训练模型,例如所有患病患者都是白人而健康患者是黑人,然后在具有相反特征的患者上测试模型。“以前的方法会灾难性地失败,”杨跃说。“使用我们的方法,我们将模型限制在从医学文献中学到的知识先验上。”即使在混淆数据上,使用KnoBo训练的模型平均准确率也比仅在医学图像上微调的神经网络高出32.4%。
鉴于美国医学院协会(AAMC)预计到2036年美国将短缺80,000名医生,研究人员认为他们的工作将为AI在医学中的安全应用打开大门。“你可以真正产生影响,让那些因缺乏合适资格的人而无法获得帮助的人得到帮助,”亚茨卡说。
其他合著者包括俄亥俄州立大学的莫娜·甘地(Mona Gandhi)、宾夕法尼亚大学工程学院的王宇飞(Yufei Wang)、Meta AI的吴一凡(Yifan Wu)以及宾夕法尼亚大学医学系的迈克尔·S·姚(Michael S. Yao)和詹姆斯·C·吉(James C. Gee)教授。
这项研究在宾夕法尼亚大学工程与应用科学学院进行,并部分由国家情报总监办公室(ODNI)、高级情报研究项目活动(IARPA)通过HIATUS计划合同#2022-22072200005资助。本文中的观点和结论均为作者的观点,不应被解释为必然代表ODNI、IARPA或美国政府的官方政策,无论明示或暗示。美国政府有权出于政府目的复制和分发重印本,无论其中是否有版权注释。
迈克尔·S·姚得到了美国国立卫生研究院(F30 MD020264)的支持。詹姆斯·C·吉还得到了美国国立卫生研究院(R01 EB031722)的支持。
(全文结束)


