编辑注:本文由Neema Tavakolian撰写,首次发表在Tech Square ATL网站上。
人工智能正日益进入医学领域。大型语言模型(LLMs)可以总结临床笔记、回答健康问题,并协助医生诊断疾病。在医生稀缺、医疗基础设施有限的地区,这些工具有望扩大医疗服务的可及性。
但数据中隐藏着一个问题。
大多数医疗AI系统从主要来自西方国家的训练材料中学习。它们的医学知识通常反映了美国或欧洲的临床实践、用英语编写的数据库以及嵌入在这些系统中的文化假设。当这些模型遇到该环境之外的患者、疾病或治疗传统时,其性能可能会以意想不到的方式发生变化。
对于佐治亚理工学院(Georgia Tech)博士生Charles Nimo(计算学院,人与技术研究所)来说,这提出了一个核心问题:当基于西方医学训练的AI遇到非洲医疗保健的现实时,会发生什么?
他的研究探讨了这种紧张关系。通过构建新数据集并用这些数据集评估现代语言模型,Nimo和他的合作者正在揭示医疗AI在哪些方面成功、在哪些方面失败,以及要使这些系统跨文化工作需要什么。
从企业系统到全球健康AI
Nimo的职业生涯并非一开始就专注于医疗保健。
他在弗吉尼亚联邦大学学习电气工程,后来在戴尔公司担任软件工程师,帮助构建用于监控大规模计算基础设施的企业系统。这项工作专注于现代数据中心的技术骨干。
"我花了多年时间构建大型计算系统,"Nimo说,"但我开始对这些系统在现实世界中实际能做什么更感兴趣。"
大约在2020年,他决定重返校园,加深对人工智能和机器学习的理解。
在德克萨斯大学奥斯汀分校,他加入了一个由丁颖教授领导的实验室,该实验室探索AI在医疗保健中的应用。该实验室专注于开发能够在资源受限环境中运行的高效机器学习模型。在他的硕士论文中,Nimo开始将这项工作应用于非洲背景下的医疗挑战。
这段经历重塑了他想要探索的问题。
"根据你所处的世界位置,医疗保健看起来非常不同,"Nimo说。
完成硕士学位后,他搬到亚特兰大,在佐治亚理工学院攻读计算机科学博士学位。在那里,他开始与包括Michael Best教授和Irfan Essa教授在内的研究人员合作,探索AI系统在非洲背景下的表现。
构建非洲大陆医疗AI的基准
Nimo遇到的第一个问题出人意料地简单。
大多数医疗AI系统从未在非洲临床知识上进行过严格的测试。
"如果你看看我们今天如何评估医疗AI,几乎所有基准都来自西方考试,"Nimo说。
许多这些基准依赖于源自医学执照考试的数据集,例如美国医学执照考试。这些集合包含数千个关于诊断、治疗和临床推理的问题。在这些问题上表现良好的模型通常被认为具有医疗能力。
但在美国考试中的成功并不一定适用于其他地区。
Nimo与来自多个机构的合作者一起,帮助开发了一个名为AfriMed-QA的新基准。该数据集汇集了来自非洲大陆的15,000多个医疗问题,包括来自60多所医学院的材料,涵盖32个专业领域。
这些问题范围从临床医生编写的考试问题到消费者健康查询,反映了患者可能如何询问症状或治疗方法。
为了组装这个数据集,研究团队与多个非洲国家的临床医生、培训人员和贡献者合作,在包括谷歌、盖茨基金会和PATH在内的多个组织的支持下,创建了关于非洲医疗保健中LLMs的最大研究。目标是捕捉整个大陆上存在的医学知识、健康状况和患者体验的多样性。
当研究人员用这个数据集测试现代西方LLMs时,出现了一个明显的模式。许多在西方医疗基准上表现良好的模型,在回答与非洲大陆医疗实践相关的医疗问题时,准确性明显下降。
"医学不是在真空中实践的,"Nimo说,"疾病模式、可用的治疗方法,甚至患者何时前来就医,都可能因你所在的位置而大不相同。"
这种准确性差距凸显了一个重要现实:医学知识可能是全球性的,但其实践的背景却不是。
例如,一些问题需要熟悉热带气候中更常见的疾病。其他问题则反映了医疗保健获取、诊断资源或治疗时机的差异。
主要基于西方数据训练的模型难以应对这些差异。
医学的文化层面
如果AfriMed-QA项目暴露了性能差距,Nimo的第二项主要研究则深入探讨了这些差距出现的原因。
这项题为"Africa Health Check"的研究,考察了医疗语言模型内部的文化偏见。该研究关注当AI系统面对源自非洲各地的传统医疗实践时的反应。
在整个非洲大陆,传统草药医学仍然是医疗保健的核心组成部分。据估计,非洲约80%的人口依靠这些疗法进行初级保健。
然而,大多数现代医疗AI系统很少提及它们。
"许多人认为医学是普遍适用的,"Nimo说,"但文化塑造了人们理解疾病和治疗的方式。"
为了研究这种动态,Nimo和他的合作者构建了一个将非洲药用植物与其治疗的健康状况配对的数据集。该数据集包括100多种疗法和来自同行评审文献的130多个特定国家的治疗配对。
研究人员随后要求语言模型在不同的治疗方案之间进行选择,或完成描述医疗场景的提示。
结果揭示了一个一致的模式。当提供的背景信息很少时,模型往往默认采用传统的西方治疗方法,即使传统疗法在当地的医疗系统中是相关且广泛使用的。
该研究还引入了新的技术来分析模型为何做出这些选择。一种方法衡量模型对一种治疗比另一种治疗的偏好程度。另一种方法追踪提示中的哪些词影响了模型的响应。
这些工具共同使研究人员能够看到模型推荐什么以及它是如何得出该决定的。
研究结果表明,偏见并不总是来自明显的错误。它通常悄悄地从训练数据的分布中产生。如果一个模型主要从以西方为中心的医学文献中学习,它自然会优先考虑它最常遇到的治疗方法。
迈向情境感知的健康AI
对Nimo来说,这些研究不仅仅是识别局限性,也是为了构建更好的工具。
中低收入国家的医疗保健系统面临着医生和专科医生的持续短缺。AI系统有潜力协助临床医生、提供决策支持,并在医学专业知识稀缺的环境中回答患者问题。
但这些工具必须反映它们服务的社区。
AfriMed-QA数据集的未来版本旨在扩展到英语之外,并包括非洲各地使用的其他语言。研究团队还希望整合多模态数据,如医学图像和可听语音。
这些补充很重要,因为医疗保健知识不仅写在教科书中。它存在于对话、本地语言、临床图像和文化实践中。为全球使用而设计的AI系统必须学会理解所有这些。
Nimo正在考虑的挑战位于技术和健康公平的交汇处。AI可能会改变医疗保健,但前提是它能认识到全球医疗实践的多样性。
【全文结束】

