人工智能(AI)——因ChatGPT而广为人知——正日益应用于医学领域以提升疾病诊断治疗水平,并避免患者接受不必要的筛查。但根据包含罗切斯特大学医学中心生物伦理学家的国际工作组观点,若设计、测试和使用不当,AI医疗器械可能损害患者并加剧健康不平等。
乔纳森·赫林顿博士是核医学与医学成像学会AI工作组成员,该工作组在《核医学杂志》发表的两篇论文中提出伦理开发与使用AI医疗器械的建议。简言之,工作组呼吁提高AI准确性和局限性的透明度,并制定确保所有人(无论种族、民族、性别或财富差异)都能获得适用AI医疗器械的方案。
赫林顿指出,虽然正确设计和测试的责任在于AI开发者,但医疗提供者最终需对AI的恰当使用负责,在医疗决策中不应过度依赖AI预测。"人类必须始终参与其中,"这位罗切斯特大学健康人文与生物伦理学助理教授表示,"临床医生应将AI作为自身决策的输入依据,而非替代决策过程。"
这要求医生必须透彻理解特定AI医疗器械的预期用途、任务执行效果及任何局限性,并将这些知识传递给患者。医生需权衡特定情境下假阳性与假阴性的相对风险,同时考虑结构性不平等问题。例如在使用AI系统识别PET扫描中的疑似肿瘤时,医疗提供者必须知晓该系统在识别与当前患者相同性别、种族、民族等特征的患者肿瘤时的性能表现。
"这意味着系统开发者必须高度透明,"赫林顿强调。工作组认为,AI开发者有责任向用户充分提供医疗器械预期用途、临床表现和局限性的准确信息。建议方式之一是在设备中嵌入直接提示,向用户说明AI预测的不确定性程度,例如在癌症扫描中用热力图显示区域癌变可能性高低。
为降低不确定性,开发者必须精确定义用于训练测试AI模型的数据集,并采用临床相关标准评估模型性能。仅验证设备算法并不足够,AI医疗器械应在"静默试验"中测试——即研究人员在真实患者身上实时评估其性能,但预测结果不向医疗提供者公开,也不用于临床决策。
开发者还应确保AI模型在所有部署环境中保持有效性和准确性。赫林顿警告:"担忧在于这些高端昂贵系统可能仅部署在资源丰富的医院,改善相对优势患者的预后,而资源匮乏或乡村医院的患者既无法获得这些系统,或被迫使用专为其他群体设计的系统导致医疗质量下降。"
当前AI医疗器械的训练数据中拉丁裔和黑人患者样本不足,导致对这些群体的预测准确性降低。为避免加深健康不平等,开发者必须通过覆盖目标服务人群的多元化数据集训练模型,确保AI对所有种族和性别群体均经过校准。
尽管这些建议聚焦核医学与医学成像领域,赫林顿认为其应广泛适用于各类AI医疗器械。"系统正持续增强能力且领域快速迭代,"他警示,"我们正面临迅速收窄的时间窗口,必须为这些技术确立伦理与监管框架。"
【全文结束】

