杜克大学的研究人员正在提出一种新的框架,用于通过结合人工审查和技术评估来评价人工智能病历记录工具。尽管这些工具已被广泛部署,但尚无统一的评估框架。
在六月,多家AI病历记录公司宣布了令人瞩目的融资轮次。法国公司Nabla完成了7000万美元的C轮融资;Abridge筹集了3亿美元的E轮融资,Commure则宣布获得了2亿美元的融资。另外两家AI病历记录初创公司Ambience和Suki在2024年分别筹集了7000万美元。
尽管大量风险投资资金涌入这一承诺缓解医护人员职业倦怠的技术领域,但医疗机构仍缺乏对这些技术进行标准化评估和监督的方法。
杜克大学研究人员在《NPJ数字医学》上发表的一篇论文中写道,大多数医疗交付机构依赖人工审查员来评估AI病历记录工具的表现。人工审查对于理解临床工作流程和护理交付的细微差别至关重要,但这种方法耗时、昂贵且主观性强。
一些系统还使用自动化评估来测试语音识别的准确性,并将计算机生成的文本与人工生成的文本进行比较。
现有的针对AI病历记录工具的自动化评估方法包括ROUGE(用于比较自动生成文本与参考文本)、词错误率(WER,用于测试自动语音识别技术的准确性)以及F1分数(衡量精确度和召回率的指标)。
然而,论文指出,这些测试虽然有用,但并未针对算法在临床工作流程背景下的表现进行优化,而且与人工审查员得出的结论关联性较低。
为了解决这些问题,杜克大学的研究人员结合了多种方法,并加入了一些其他技术,创建了一个名为SCRIBE的评估和治理方法。他们希望该方法能够帮助医院和卫生系统更轻松地比较商业化的AI病历记录工具,并有效评估其长期表现。
论文指出:“该设计的核心原则是,没有任何单一方法能够全面捕捉所有性能维度。”
为了测试SCRIBE评估框架的有效性,研究人员自行开发了一款环境听写记录(ADS)工具,并在40次临床访问中进行了部署。这款AI病历记录工具基于公开可用的模型Whisper Large Turbo 3和GPT-4o构建,以确保模型对研究人员透明,并可在未来作为测试商业产品的基准。
研究团队使用AI病历记录工具转录了40次关于孕期女性戒烟的医患互动,并生成了SOAP笔记。随后,研究人员采用了四种技术来评估笔记的质量。
人工审查员将AI生成的转录内容与会话音频进行对比,重点关注误听的单词以及遗漏或多余的信息。在评估SOAP笔记时,评估人员使用了一套标准评分表,涵盖了多个维度。
研究指出,人工审查员倾向于关注事实性和谨慎性。两位人工审查员在笔记质量上的意见一致率为53%,考虑到案例的复杂性,这一结果在意料之中。
研究还探讨了使用大型语言模型(LLM)减少人工审查员工作量的可能性。在评估笔记质量维度时,LLM与人工审查员在相关性、完整性和理解力方面表现出强相关性,但在连贯性和理解力上的共识较少。
论文描述了一种利用LLM减少人工劳动的方式:“我们没有让人工评估员手动提取并验证所有事实,而是使用GPT-4o从转录文本、参考医疗笔记和AI生成的笔记中自动提取关键事实。然后,我们再次使用GPT-4o确定哪些关键事实在参考笔记和生成笔记中都出现(LINK),并判断这些链接的事实是否保留了其预期含义(CORRECT)。”
在转录准确性和说话人分离准确性方面,研究人员使用了一系列扩展的自动评估技术,包括ROUGE、WER和F1分数。
为了评估医疗笔记的准确性,研究人员结合了人工审查、自动评估、训练后的自动评估和LLM。他们还使用综合方法评估了AI生成医疗笔记的流畅性、连贯性、清晰度、简洁性、结构化、相关性、完整性和事实性。
模拟审查使团队能够测试自然数据集中代表性不足的边缘案例场景。论文中提到的例子包括罕见疾病的诊断或新开发的药物产品。
在60%的案例中,研究人员发现AI病历记录工具未标记无意义信息并将其录入笔记。在某些情况下,工具自动修改了数值使其合理化,但未提醒最终用户。在4%的案例中,工具标记了无意义的值。
审查员使用模拟评估了刻板印象偏见、公平性和对抗性问题。
论文总结道:“通过使用SCRIBE,我们发现内部开发的ADS工具在多项指标和人工评估中总体表现良好,特别是在清晰度、完整性和相关性方面表现突出。”
研究人员强调,在评估ADS工具的表现时,必须保持人工参与。论文还指出,该框架是根据健康AI联盟(CHAI)制定的原则开发的。
许多研究人员参与了这家非营利AI组织的工作。CHAI设有专门针对AI病历记录工具的工作组,并可能将其作为即将推出的成果网站的第一个用例,供卫生系统对AI供应商的产品提供反馈。
未来,研究人员希望在一款商业化ADS工具上测试该框架,并与AI病历记录供应商合作。他们还计划开展一项多站点研究,系统性比较几款ADS产品,并评估它们对患者护理的影响。
论文指出:“根据人工评估、自动评估和LLM评估的结果,基于GPT的笔记表现优于LLaMA生成的笔记,这凸显了所提出的评估框架在检测ADS产品差异方面的能力。”
论文声称,卫生系统可以使用该框架对市场上50多家AI病历记录供应商进行直接比较。
(全文结束)


