微软推出用于医学图像分析的BiomedParse AI模型Microsoft Unveils BiomedParse AI Model for Medical Image Analysis

环球医讯 / AI与医疗健康来源:winbuzzer.com美国 - 英语2024-11-18 19:00:00 - 阅读时长4分钟 - 1603字
微软与华盛顿大学和Providence合作推出了新的AI模型BiomedParse,该模型通过统一识别、检测和分割功能,简化了医学图像分析流程
微软BiomedParseAI模型医学图像分析医疗保健对象识别数据合成GPT-4精准医学临床部署
微软推出用于医学图像分析的BiomedParse AI模型

微软研究部门与华盛顿大学保罗·G·艾伦计算机科学与工程学院及Providence合作,推出了一款名为BiomedParse的新AI模型,旨在改进医学图像的分析方法。BiomedParse集成了对象识别、检测和分割功能,使医疗专业人员能够更高效地进行分析,减少手动操作步骤。这一创新举措是微软扩展AI驱动的医疗保健计划的最新一步。

桥接识别与分割之间的差距

2000年代中期,研究人员提出了一种将识别、检测和分割结合的统一图像分析方法。然而,技术限制使得这一理念主要停留在理论层面。BiomedParse通过允许用户输入简单的自然语言提示来直接在图像上标注和勾勒对象,使这一概念得以实现。与仅限于分割任务的早期模型(如MedSAM)不同,BiomedParse在一个工作流中处理所有任务,简化了复杂的医学图像分析过程。

MedSAM,即医学分割任何模型,是一种基于深度学习的基础模型,专门用于医学图像分割。它基于Meta AI的通用分割任何模型(SAM),并适应医疗领域的需求,以实现各种医学成像模态的准确和多用途分割。

BiomedParse可以集成到高级多模态框架中,例如微软的LLaVA-Med(大型语言和视觉辅助工具用于生物医学),这是一种多模态AI模型,旨在协助生物医学视觉和语言任务,从而促进对话式图像分析。

使用GPT-4生成数据

开发全面的图像分析工具的主要挑战之一是缺乏涵盖各种任务的广泛数据集。为了解决这一问题,微软使用OpenAI的GPT-4从45个现有的分割数据集中合成了数据。这产生了超过六百万组带有注释的图像、掩码和文本描述,涵盖了九种成像方法下的64种主要对象类型和82个子类别。这一庞大的数据集增强了BiomedParse处理多样医学图像分析场景的能力。

超越竞争对手

BiomedParse在超过102,000个图像-掩码-标签组合上进行了测试,始终优于现有的模型,如MedSAM和SAM,即使这些模型与先进的目标检测器(如Grounding DINO)结合使用。该模型在Dice得分这一衡量分割精度的关键指标上表现出75-85分的优势。特别是在处理具有复杂不规则形状的对象时,这种优势尤为明显,展示了集成学习的好处。

背景:GigaPath用于病理学分析

2024年初,微软已经展示了其在推进医学成像方面的兴趣,推出了GigaPath。该模型于5月发布,旨在分析千兆像素的病理图像,这对于详细组织样本的研究至关重要。数字病理学涉及将玻璃载片转换为数字图像,使分析更加可扩展。GigaPath采用了带有扩张自注意力机制的视觉变换器(ViT)架构,能够高效处理大规模图像,并由Providence卫生系统和华盛顿大学共同开发。

GigaPath的训练数据包括来自超过170,000张全切片图像的数据,并采用了两阶段课程:Meta的自监督视觉变换器模型DINOv2用于切片级别的预训练,而微软的LongNet用于幻灯片级别的建模。这种方法使GigaPath在26项与癌症亚型和病理组学相关的任务中表现出色,其中18项任务表现优异。病理组学侧重于肿瘤的遗传标志物。

对精准医学的影响

BiomedParse和GigaPath支持精准医学,即根据个体的基因谱定制治疗方案。GigaPath通过解释病理切片用于癌症亚型分析奠定了基础,而BiomedParse通过整合不同的图像模态进一步扩展了这一能力。尽管这些模型前景广阔,但在临床环境中部署它们仍面临数据隐私、模型在不同条件下的准确性以及遵守监管标准等障碍。

BiomedParse的模块化架构暗示了未来可能更新,涵盖更多的成像类型,并与LLaVA-Med等工具集成,后者允许交互式分析医学图像。微软以Apache 2.0许可证开源发布了BiomedParse,并在Azure AI上部署,使其可供医学研究人员使用。


(全文结束)

大健康
大健康