AI在医学中的崛起
自人工智能诞生以来,将AI应用于医学以改善医疗保健一直是一个未来主义梦想。在2000年代机器学习时代之前,人们曾多次尝试应用技术编码医学知识。然而与一般专家系统类似,基于规则的医疗决策系统存在局限性且难以扩展。
随着2000年代机器学习技术逐渐成熟,利用大型数据集开发复杂模型的机遇开始应用于医疗领域。研究人员构建了分析电子健康记录(EHRs)或医学图像的机器学习模型,以生成实用的分类系统。
深度学习的兴起和2012年AlexNet的突破,使AI在诊断领域获得更广泛应用,特别是在辅助放射科医生通过分析MRI和CT扫描图像进行疾病检测方面。到2015年,深度学习模型在特定医学影像任务上已开始超越人类专家。
IBM的沃森在2011年通过赢得《危险边缘》(Jeopardy!)节目引发广泛关注。IBM借此宣布将沃森用于医疗领域,特别是癌症诊断。然而"沃森肿瘤学"(Watson Oncology)系统未能实现其雄心勃勃的目标。到2017年,业界普遍结论是"IBM的傲慢和炒作撞上了现实"。
IBM的AI营销过度超前于技术实力。沃森是深度学习时代前的自然语言处理问答系统,需依赖人工训练和特征工程得出结论,其技术根本无法胜任医疗诊断任务。该公司最终将沃森健康部门出售给私募股权公司,原沃森健康业务现已更名为Merative。
图1. AI医生即将接诊……虽尚未完全实现,但为期不远
随着2010年代自然语言处理(NLP)技术的改进,基于NLP的聊天机器人开始应用于医疗场景,例如2015年的Pharmabot(儿科药物咨询机器人)。随着图像和文本分类技术的进步,AI系统在多项医疗任务中展现出媲美甚至超越人类专家的性能。
例如,Arterys开发的CardioAI能在数秒内分析心脏磁共振图像,提供心脏射血分数等关键指标。该系统于2017年成为美国食品药品监督管理局(FDA)批准的首个临床云深度学习医疗应用。同样在2018年,FDA批准了IDx-DR——首个用于检测糖尿病视网膜病变的AI医疗设备。
2020年发表的综述《医学中人工智能的历史》表明,医疗AI已从基础原型发展为成熟实用的系统,显著提升诊断准确性、工作流程效率和患者预后。然而当时AI的大部分潜力仍处于未来展望阶段。
医疗保健中的AI算法
该综述论文明确指出:
"AI算法及其应用需进一步研究验证。此外还需更多临床数据证明其有效性、价值及对患者护理的实际影响。最后必须开发具有成本效益的AI模型与产品,使医疗机构能将其融入日常临床实践。"
因此医疗应用场景需要三大要素:切实有效的算法模型、充分的临床训练数据,以及便于医护人员日常使用的经济型AI应用。
在ChatGPT问世前的AI时代,三类算法构成医疗AI应用的基础:
- 基于自然语言处理(NLP)的应用:用于聊天机器人、虚拟助手、电子健康记录分析工具及文本分类系统
- 图像处理工具:基于CNNs(卷积神经网络)的系统,通过图像识别检测疾病或预测病情进展,广泛应用于放射学领域
- 基于强化学习(RL)的应用:涵盖手术机器人、AlphaFold等药物发现系统、个性化药物设计及败血症等疾病的治疗方案优化
图2. 1950-2020年医学AI发展历程(源自《医学中人工智能的历史》)
图3. AI与机器学习在医疗基础设施中的应用(摘自《医疗基础设施中AI/ML干预:综述与未来趋势》,《Healthcare》2023年)
通过大语言模型加速医疗AI发展
ChatGPT的出现开启了医学AI的新纪元,使我们能更便捷地利用大型语言模型(LLMs)理解和推理医学信息。
这一进步可通过AI模型在通过美国医师执照考试(USMLE)方面的提升得以印证。图表显示从早期BERT问答系统到谷歌Med-PaLM系列的发展轨迹,后者在MedQA数据集上取得86.5%的优异成绩。
图4. 医学相关LLMs在美国医师执照考试中的得分趋势(Isaac Cohane演示文稿)
2022年研究确认"大型语言模型是少样本临床信息提取器"。GPT-3无需重新训练或大量示例即可准确响应多种临床文本查询,使此前需要复杂定制方案的医疗任务变得可行。
图5. LLMs在五类临床信息提取任务中的表现(涵盖问答与分类任务)
鉴于LLMs在医学领域的潜力,研究人员正致力于:优化MedQA等数据集的模型表现、开发更具临床相关性的训练数据集与评估基准。2024年6月发表的《OpenMedLM:提示工程在开源大模型医学问答中优于微调》论文,在Yi34B开源模型基础上开发的系统通过零样本/少样本提示策略,在MedQA和MMLU医学子集分别取得72.6%和81.7%的准确率,超越此前开源医疗LLM标杆MEDITRON-70B。
图6. 开源LLMs在MedQA得分提升轨迹(较闭源模型稍滞后)
《为临床任务调整大型语言模型》提出'expand-guess-refine'提示策略,使ChatGPT在USMLE问题解答准确率达70.63%。《Gemini进入医学院》研究发现Gemini 1.0在MedQA任务中表现落后于GPT-4V和Med-PaLM2。
最新研究《o1在医学中的初步研究:我们是否更接近AI医生?》评估了OpenAI新型o1模型在19个临床相关基准的表现,其平均准确率较GPT-4提升6.2%,研究者据此确认AI医生时代正在来临。
图7. o1模型在医疗推理基准测试中全面超越GPT-4及先前LLMs
尽管o1代表当前最佳水平,仍有提升空间:若将顶尖通用推理LLM与专业微调技术(如Med-PaLM2方案)结合,或引入检索增强生成(RAG)系统,性能有望进一步突破。
医疗保健中的AI才刚刚起步
总结而言:LLMs在推理、知识检索及医学信息理解方面取得显著进步,o1等模型在解答医学问题时已接近人类水平。
LLMs的发展为临床应用创造了新机遇:错误检查、病历摘要、风险预测等文本类医疗任务,已从"不可能"变为"可实现";部分任务甚至从"困难"转为"简易"。
正如好医生远不止于通过医学考试的学生,医疗AI的价值也远超解答考试题目的能力。 将AI转化为真实临床环境中的实用工具是个漫长过程,多数医疗AI应用仍处于起步阶段。
医疗保健是庞大复杂的体系,涵盖众多医学专科与诊疗流程。面对如此广阔的应用前景,AI有潜力彻底革新医疗体系,但其深远影响尚未完全显现。
目前AI已应用于多个医疗领域:生物医学研究、医患互动分析、影像与数据自动诊断、精准医学、患者管理、医患沟通聊天机器人、药物研发及药物相互作用评估等。医疗AI应用正快速扩展,下期将深入探讨这些前沿实践。
【全文结束】


