与其它医疗AI系统相比,KnoBo在处理“混淆”数据时表现显著更好。图片来源:Yue Yang
当人类放射科医生检查扫描图像时,他们透过数十年培训的视角进行观察。从大学到医学院再到住院医师,最终由医生解读X光片的过程包括成千上万小时的学术和实践教育,从备考执照考试到作为住院医师度过多年的时间。
目前,AI解读医学图像的培训路径要直接得多:向AI展示大量带有感兴趣特征(如癌症病灶)标签的医学图像,使系统能够识别模式,从而在未标记的图像中“看到”这些特征。
尽管过去十年已发表了超过14,000篇关于AI和放射学的学术论文,但结果充其量是平平。2018年,斯坦福大学的研究人员发现,他们训练用于识别皮肤病变的AI错误地将含有尺子的图像标记为恶性,因为大多数恶性病变的图像中也含有尺子。
“神经网络容易过度拟合于虚假相关性,”计算机与信息科学(CIS)助理教授Mark Yatskar说,他指的是模仿生物神经元并支持各种工具(如ChatGPT和图像识别软件)的AI架构。“它会走捷径,而不是像人类那样做决定。”
在一篇将在NeurIPS 2024会议上作为亮点分享的新论文中,Yatskar与CIS教授Chris Callison-Burch以及第一作者、博士生Yue Yang(由Callison-Burch和Yatskar指导)介绍了一种开发用于医学图像识别的神经网络的新方法,该方法通过模拟医生的培训路径来实现。这篇论文发布在arXiv预印本服务器上。
“通常,对于AI系统,程序是向AI系统投入大量数据,然后它自己解决问题,”Yatskar说。“这实际上与人类学习的方式非常不同——医生有一个多步骤的教育过程。”
研究团队的新方法实际上将AI带入了医学院,提供了一套来自教科书、PubMed(美国国家医学图书馆的学术数据库)和StatPearls(一家为医疗从业者提供执业考试练习题的在线公司)的验证过的医学知识。
“医生在开始临床培训之前,在医学院花费多年时间从教科书和课堂中学习,”Yatskar指出。“我们试图模拟这一过程。”
经过验证的医学知识培训,KnoBo具有可解释性,这意味着它可以做出人类可以理解的医学图像决策。图片来源:Yue Yang
新方法称为知识增强瓶颈(KnoBo),基本上要求AI基于既定的医学知识做出决策。
“在读取X光片时,医学生和医生会问,肺部是否清晰,心脏是否正常大小,”Yang说。“模型将依赖于人类在做决策时使用的相似因素。”
结果是,使用KnoBo训练的模型不仅在基于肺部X光片识别COVID患者等任务上比当前最佳模型更准确,而且更具可解释性:临床医生可以理解模型为何做出特定决策。
“你会知道系统为什么预测这张X光片是COVID患者——因为它在肺部有不透明区域,”Yang说。
使用KnoBo训练的模型也更稳健,能够处理一些现实世界数据的混乱。人类医生的一大优势在于,你可以将他们置于许多不同的环境中——不同的医院和不同的患者群体——并期望他们的技能能够转移。相比之下,针对特定医院的特定患者群体训练的AI系统很少在不同环境中表现良好。
为了评估KnoBo帮助模型关注重要信息的能力,研究人员在“混淆”数据集上测试了一系列神经网络。本质上,是在一组患者上训练模型,例如,所有生病的患者都是白人,而健康的患者是黑人,然后在具有相反特征的患者上测试模型。
“以前的方法灾难性地失败了,”Yang说。“使用我们的方法,我们约束模型基于从医学文献中学到的知识先验进行推理。”即使在混淆数据上,使用KnoBo训练的模型平均准确率也比仅在医学图像上微调的神经网络高出32.4%。
鉴于美国医学院协会(AAMC)预计到2036年美国将出现80,000名医生短缺,研究人员希望他们的工作能够为医学领域安全应用AI打开大门。
“你真的可以在帮助那些无法获得适当资格的人提供帮助方面产生影响,”Yatskar说。
更多信息:Yue Yang等人,《解决领域偏移的教科书疗法:医学图像分析的知识先验》,arXiv (2024)。DOI: 10.48550/arxiv.2405.14839
(全文结束)


