多模态AI模型利用来自各种格式的数据,如文本、图像和音频,以使用户更全面地了解医疗情况。这些模型由于能够处理和整合多种数据类型而迅速普及,比任何单一数据类型都能提供更全面的健康状况图景。随着变换器架构和大型语言模型(LLMs)的发展,这些模型在数据模态上具有广泛的通用性,开发人员获得了新的工具来合成这些数据格式。谷歌的Gemini多模态AI和其他前沿生成式AI模型能够无缝理解和合成文本、视频、图像、音频和代码(基因或计算)等数据格式。尽管过去几年医疗AI取得了令人兴奋的进展,但其采用速度较慢,现有应用往往针对非常具体和狭窄的用例。医疗AI的未来在于多模态应用,因为它们反映了医生在评估患者时必须考虑多个因素和数据来源的临床过程。能够在这一巨大潜力领域执行的开发人员和公司将占据未来AI辅助医学的重要位置。
多模态数据的优势
医疗数据本质上是多模态的,AI系统应该反映这一现实。医生在评估患者时会利用各种数据源,如患者笔记、医学影像、音频记录和基因序列。传统上,AI应用程序被设计为处理这些个别数据类型中特定且 narrowly 定义的任务。例如,一个AI系统可能在CT扫描中识别肺结节方面表现出色,但它无法将这些数据与患者的报告症状、家族史和基因信息结合起来,以帮助医生诊断肺癌。相比之下,多模态AI应用程序可以整合不同的数据类型,结合LLMs的灵活性和专业AI系统的专业知识。这些系统在传统的AI任务上也优于单模态AI系统,研究显示多模态系统的准确性提高了6%到33%。多模态AI模型还致力于打破医学专业之间的壁垒。医学的发展,由日益专业化和激增的研究和数据驱动,创造了一个碎片化的格局,不同的领域如放射学、内科和肿瘤学可能各自为政。照顾患有复杂疾病的患者通常需要一个大型专家团队的合作,关键的见解可能会因沟通不畅而丢失。多模态AI模型通过从各专业捕捉知识来弥合这些差距,确保患者受益于所有相关领域的最新医学知识。
不同医疗数据模态的概述
医疗数据占全球生产的所有数据的30%以上,有多种形式。以下列出了一些最突出的形式(非详尽):
- 医学影像
医学影像在医疗诊断和治疗计划中起着至关重要的作用,因此它有一个专门的领域(放射学)。CT扫描和X射线常用于可视化骨骼结构和检测骨折或肿瘤,而超声波对于监测胎儿发育和检查软组织至关重要。病理切片图像用于分析癌症等疾病的组织样本。卷积神经网络(CNNs)等AI算法通过处理大量标注图像学习识别模式和异常。这些工具帮助放射科医生和其他医生更快、更准确地解释图像。
- 组学
随着测序成本的下降,组学数据(包括基因组学、转录组学和蛋白质组学)近年来激增,为个性化医疗提供了对疾病分子基础的洞察。在多模态医疗AI系统中,组学数据可用于更好地理解患者对某些疾病的易感性和潜在的治疗反应。例如,BRCA基因中的特定突变表明患者患某些形式癌症的风险显著增加。
- 患者和EHR笔记
传统上,患者笔记(临床观察、治疗计划等)由于缺乏结构而难以分析。然而,LLMs可以使用这些笔记提取见解、识别模式,并支持以前不可能进行的大规模数据分析。例如,LLMs可以阅读潜在临床试验参与者的笔记,识别符合资格要求的参与者——这是一项之前劳动密集型的任务。
- 可穿戴设备数据
健康监测传感器,如可穿戴健身追踪器,测量心率、血压、睡眠模式和血糖水平等生命体征。AI应用程序可以分析这些时间序列数据,检测趋势并预测健康事件。这些应用程序通过提供个性化的健康建议帮助患者,并帮助医生在医院外监测患者的状况。
- 音频记录
心脏和肺部听诊等音频记录常用于诊断某些疾病。医生使用心脏听诊标记心杂音的范围和强度,而肺部听诊可以帮助识别肺炎等疾病。AI系统可以分析这些音频记录,检测异常并协助快速且廉价的诊断。
- 病理学
来自组织样本和显微镜图像的病理学数据在诊断癌症等疾病中起着关键作用。AI算法可以分析这些数据源,识别异常细胞结构、分类组织类型并检测疾病特征的模式。通过处理大量的病理学数据,AI可以帮助病理学家做出更准确的诊断,标记潜在的关注区域,甚至预测疾病进展。事实上,哈佛医学院和麻省理工学院的一组研究人员最近推出了一种多模态生成式AI辅助工具,用于协助病理学家完成常见的医疗任务。
多模态AI模型的应用
多模态算法有潜力解锁AI驱动医疗应用的新范式。一个多模态AI的一个有前景的应用是个性化医疗,该系统利用患者的状态、病史、生活方式和基因组等数据,预测最适合特定患者的治疗方法。考虑一个旨在确定肺癌患者最有效治疗方案的应用程序。该应用程序可以考虑患者的基因谱、病理(组织样本)图像和笔记、放射学图像(肺部CT扫描)和笔记以及病史临床笔记(收集吸烟史和环境影响等因素)。使用所有这些数据源,该应用程序可以推荐对患者独特状况最有效的治疗方案。这种方法已经在黄等人的一项研究中显示出有希望的结果,研究人员能够基于患者的基因表达谱以超过80%的准确性预测他们对标准护理化疗药物的反应。这种方法将有助于最大化治疗效果,减少寻找合适的药物或干预措施时常见的试错方法。
另一个关键用例是提高诊断和预后的速度和准确性。通过整合医学影像、实验室结果和患者笔记等数据源,多模态医疗AI系统可以为医生提供整体性的见解。例如,Tempus Next 利用心电图和超声心动图的波形数据、电子健康记录(EHR)文本数据和腹部影像(CT扫描、超声波),帮助心脏病专家诊断和预测患者的心脏问题,如腹主动脉瘤和心房颤动。Optellum的虚拟结节诊所采取类似的方法,使用CT扫描和临床笔记协助诊断肺癌。这些应用不仅提高了诊断的准确性,还节省了医生的时间,从而有助于解决持续的医生短缺问题并降低医疗成本。
多模态AI还将通过整合可穿戴设备、家庭监测系统和患者自我报告的笔记中的数据,实现远程患者监测和远程医疗的重大进步,提供对患者健康状况的连续、实时洞察。这种能力对于管理慢性疾病特别有价值,持续监测可以及早发现恶化的迹象并及时干预。例如,AI系统可以监测患者从Eight Sleep Pod获得的睡眠数据和从Levels(连续血糖监测)获得的血糖数据,以识别患有前期糖尿病的患者的恶化情况。医生可以利用这一早期预警,提出积极的建议,帮助患者避免进一步恶化。这项技术将减少住院再入院次数,改善慢性疾病的总体管理,使医疗保健更加便捷并减轻医疗系统的负担。
构建多模态AI模型的方法
研究人员目前正在尝试构建多模态医疗AI系统的方法,研究仍处于初步阶段。谷歌团队探索了三种主要的开发方法:
- 工具使用
在这种方法中,主LLM将不同数据源的分析外包给专门训练于该数据形式的软件子系统。例如,LLM可能会将胸部X光发送给放射学AI系统,将心电图分析发送给专门的波形分析系统,然后将响应与患者笔记整合以评估心脏健康。这种方法允许子系统之间的灵活性和独立性,使每个特定任务都能使用最佳工具。
- 模型嫁接
这种方法涉及为每个相关领域调整专门的神经网络,并直接将其集成到LLM中。例如,一个训练用于解释医学图像的神经网络可以通过将其输出直接映射到LLM的输入空间来嫁接到LLM上。这种方法利用现有的优化模型,允许模块化开发,但需要为每个特定模型和领域创建适配器。
- 通用系统
最雄心勃勃的方法是构建一个能够本机处理所有数据模态的单一集成系统。这种方法使用统一模型,如Med-PaLM M,将语言模型与视觉编码器结合以处理多样化的数据类型。虽然这种方法最大限度地提高了灵活性和信息传递,但也带来了更高的计算成本和潜在的领域专业化和系统调试挑战。
实施多模态AI模型的挑战
虽然构建多模态AI模型具有巨大的前景,但在实施工作系统时存在多个挑战。一些挑战包括:
- 数据标注
为了实现监督学习,机器学习算法需要由专家人工标注者标注的数据,正确识别出特征。在不同领域找到专家来标注不同类型的数据模态可能具有挑战性。模型构建者应考虑与在多个模态领域具有专长的专用数据标注提供商合作,如Centaur Labs。
- 避免偏见
在医疗环境中部署AI系统的一个最大风险是它们可能加剧现有的医疗保健偏见和不平等。多模态系统可能会进一步固化偏见,因为代表性不足的人群在系统构建所需的一个或多个模态中更容易缺失数据。为了避免偏见,模型构建者应考虑在AI应用中最小化偏见的技术。
- 法规
如HIPAA等数据隐私法规对患者数据的共享和使用施加了严格控制,使得开发人员在不同模态之间集成和关联数据变得困难。这需要额外的开发努力以确保合规性。
- 采用和信任
许多传统AI系统面临的最大障碍是推动在医疗用户社区中的采用和信任。医生担心AI输出的准确性和一致性,不想在使用这些系统指导患者护理之前冒险患者健康。多模态AI模型在采用方面也将面临类似的障碍。开发人员必须与这些系统的最终用户密切合作,建立信任并确保系统符合现有的临床工作流程。
- 缺乏数据格式共享标准化
对于许多数据格式(如组织图像),目前没有标准化的协议在不同提供商之间共享数据。这种互操作性的缺乏可能会阻碍开发稳健AI模型所需的数据源的整合。为了加快在(目前)未标准化的医疗数据领域中AI系统的开发和采用,研究和开发社区应制定通用标准/框架以确保机构间的合规性。
结论
多模态AI代表了医疗应用的未来,通过综合和整体使用数据,有望通过扩展应用的灵活性、准确性和能力来彻底改变医疗保健。如果这些应用得到有效开发和部署,它们有望降低医疗成本、扩大可及性并提供更高品质的患者护理和结果。最伟大的知识和技术进步往往来自于不同领域的见解的融合。以达芬奇为例,他利用绘画和流体力学的知识来研究心脏和生理学。医疗AI也不例外。通过将计算机科学的发现整合到医学中,开发人员引发了第一波突破。现在,整合多种数据模态的前景将引发由越来越智能的AI系统推动的第二波创新。
(全文结束)


