一篇2025年9月发表在《npj Digital Medicine》上的论文声称,"目前没有关于如何实施基于LLM的机器辅助翻译(MAT)的详细联邦或专业机构指导"。作者将AI翻译称为"基于大型语言模型的机器辅助翻译(MAT)",并提出在医疗环境中实施该技术的"实用路线图"。
作为其研究依据,哈佛大学和斯坦福大学的研究人员指出,美国2500多万英语能力有限(LEP)患者(论文中称为"非英语语言偏好"患者)因语言访问不良可能导致负面健康结果。
研究人员指出,这些患者"因出院指示和其他材料很少能及时翻译而面临不安全的护理"。他们还引用了美国《平价医疗法案》(ACA)第1557节,该条款要求某些机器翻译必须经过人工审核。研究人员声称,这一"高层次"指令是联邦层面关于该主题的唯一指导。
常见问题
研究人员在路线图的五个部分中的第一部分讨论了影响AI翻译在医疗环境中"采用、实施和可持续性"的各个方面。一些主要问题包括患者隐私、运营成本以及AI工具的局限性,这与其他研究和机构之前表达的观点一致。
"[患者]因出院指示和其他材料很少能及时翻译而面临不安全的护理。" — Lopez等人
研究人员针对维护受保护健康信息(PHI)的机密性提出了具体建议,表示机构应使用零数据保留(ZDR)端点,特别是在采用第三方闭源大型语言模型(LLM)进行AI翻译时。
他们还建议培训翻译人员识别模型的典型局限性,如AI幻觉、上下文丢失和偏见。此外,为了防止翻译人员过度依赖AI并可能无法准确评估模型的输出,研究人员强调了在翻译工作流程中需要设置保障措施。具体建议是间歇性地要求翻译人员证明他们选择不编辑AI翻译的某一段落的理由。
作者还强调了医疗机构透明度的重要性,以确保患者了解AI翻译的使用方式,并且他们的反馈被用于改进翻译工作流程。
关于个体临床医生的角色,作者承认编写不佳的源文本可能导致翻译错误,并建议鼓励临床医生优先考虑"用简单语言书写的结构良好"的笔记。
同时,他们提供了一种"双提示方法"作为替代方案。在这种情况下,临床医生的笔记在被LLM翻译之前,先使用"准备"提示进行优化。值得注意的是,尽管在论文其他地方承认了AI幻觉的风险,但他们建议在准备步骤中使用"LLM的零样本能力"。
作者还认识到,质量不佳的AI翻译可能需要翻译人员比传统翻译付出更多的编辑工作。
为解决这一风险,他们建议组织首先确定AI翻译"处理得一直很好"的文件类型和语言对,并在实施的早期阶段将使用限制在这些用例上。例如,他们建议"常规出院摘要"的西班牙语翻译可能可以由AI翻译处理,而手术同意书的韩语翻译可能不适合。
回顾性与前瞻性测试
研究人员提出,在部署任何AI翻译工具之前的"关键第一步"是"回顾性测试",即在安全环境中使用历史数据评估模型翻译相关医疗文件的能力。
接下来是"前瞻性测试",即在小规模试点测试中使用AI翻译,跟踪一段时间内的翻译质量和影响。
研究人员认为,医疗系统随后可以利用翻译人员批准的AI翻译作为"黄金标准数据",随着时间的推移迭代微调模型,提高其在不同文件类型和语言对上的性能。
为了全面验证AI翻译在医疗环境中的性能,作者还提出将翻译质量评估与更广泛的运营和临床结果指标相结合。
对于语言评估,他们建议机构的翻译团队使用多维质量指标(MQM)框架定期手动评估代表性翻译样本,同时使用自动化的chrF++和COMET指标进行更频繁的常规监控。
为了评估随时间推移的运营结果,研究人员建议跟踪翻译周转时间和收到"语言一致的出院指示"的LEP患者比例,以跟踪效率。然而,他们并未提出收集这些数据的方法。
同时,他们还认为可以跟踪再入院率和死亡率等临床结果,以"衡量MAT对护理质量的实际影响"。
作者:Ivan Lopez, David E. Velasquez, Jonathan H. Chen & Jorge A. Rodriguez
【全文结束】


