新的国家标准确保医疗保健中安全、可扩展的人工智能

A new national standard for safe, scalable AI in health care

美国英语科技与健康
新闻源:Medical Xpress
2025-06-24 02:00:00阅读时长2分钟802字
医疗保健人工智能评估框架临床环境安全可靠性护理质量SCRIBEEpic电子病历平台持续评估

杜克大学医学院的研究人员开发了两个开创性的框架,旨在评估大型语言模型在医疗保健中的性能、安全性和可靠性。

这两项研究分别发表在《npj数字医学》和《美国医学信息学协会杂志》(JAMIA)上,提供了一种新的方法,以确保用于临床环境的AI系统达到最高质量和责任标准。

随着大型语言模型越来越多地嵌入到医疗实践中——生成临床记录、总结对话并协助患者沟通——医疗系统正在努力寻找既严格又可扩展的方法来评估这些技术。由杜克大学生物统计学和生物信息学助理教授Chuan Hong博士领导的研究旨在填补这一空白。

在《npj数字医学》上发表的研究介绍了SCRIBE,这是一个针对环境数字记录工具的结构化评估框架。这些AI系统从实时医患对话中生成临床文档。SCRIBE利用专家临床评审、自动化评分方法和模拟边缘案例测试来评估这些工具在准确性、公平性、连贯性和韧性等方面的性能。

“环境AI在减轻临床医生文档工作量方面具有真正的潜力,”Hong说。“但仔细评估是必不可少的。没有它,我们可能会实施一些无意中引入偏见、遗漏关键信息或降低护理质量的工具。SCRIBE的设计就是为了防止这种情况。”

另一项相关研究发表在《JAMIA》上,应用了一个互补的框架来评估Epic电子病历平台用于起草回复患者消息的大型语言模型。该研究将临床医生的反馈与自动化指标进行比较,以评估清晰度、完整性和安全性等方面。

虽然研究发现这些工具在语气和可读性方面表现良好,但也揭示了回复完整性方面的差距——强调了在实际应用中持续评估的重要性。

“这项工作有助于缩小创新算法与实际临床价值之间的距离,”杜克健康首席数据科学家Michael Pencina博士说,他是两项研究的共同作者。“我们展示了负责任地实施AI所需的工作,并且严格的评估必须是技术生命周期的一部分,而不是事后的想法。”

这些框架共同为医疗保健中负责任地采用AI奠定了基础。它们为临床领导者、开发者和监管机构提供了评估AI模型并在部署前和随时间监测其性能的工具——确保它们支持护理交付而不损害安全或信任。


(全文结束)

声明:本文仅代表作者观点,不代表本站立场,如有侵权请联系我们删除。

本页内容撰写过程部分涉及AI生成(包括且不限于题材,素材,提纲的搜集与整理),请注意甄别。