研究人员称，医院使用的AI转录工具会杜撰从未说过的内容 - AI与医疗健康

研究人员称，医院使用的AI转录工具会杜撰从未说过的内容AI-powered transcription tool used in hospitals invents things no one ever said, researchers say

环球医讯 / AI与医疗健康来源：www.pressherald.com美国 - 英语2024-10-27 02:00:00 - 阅读时长6分钟 - 2550字

OpenAI的AI转录工具Whisper因在医疗等高风险领域使用时杜撰内容而引发担忧

Whisper 是一款由人工智能驱动的流行转录工具，但据研究人员称，它有一个重大缺陷：它容易杜撰大段文本甚至整句话。该工具由科技巨头 OpenAI 推出，该公司曾宣称其具有接近人类水平的鲁棒性和准确性。

然而，根据对十几位软件工程师、开发人员和学术研究人员的采访，Whisper 容易杜撰文本——业内称为“幻觉”——这些杜撰的内容可能包括种族评论、暴力言论甚至是虚构的医疗治疗方案。专家表示，这种杜撰内容的问题在于，Whisper 被广泛应用于全球各个行业，用于翻译和转录音频、生成消费者技术中的文本以及创建视频字幕。

更令人担忧的是，尽管 OpenAI 警告不应在高风险领域使用该工具，但许多医疗中心仍急于采用基于 Whisper 的工具来转录患者与医生的咨询对话。密歇根大学的一位研究员在研究公共会议时发现，在他检查的每 10 段音频转录中就有 8 段存在幻觉现象，这促使他开始尝试改进模型。

一位机器学习工程师表示，他在分析的 100 多小时的 Whisper 转录中，最初发现了约一半的幻觉现象。另一位开发者表示，他在用 Whisper 创建的 26,000 份转录中几乎每一项都发现了幻觉现象。

即使在录制良好、短小的音频样本中，这些问题依然存在。最近的一项研究发现，在计算机科学家检查的 13,000 多个清晰音频片段中，有 187 个幻觉现象。研究人员表示，这一趋势会导致数百万次录音中出现数十万次错误转录。

前白宫科学技术政策办公室主任 Alondra Nelson 表示：“这种错误可能会带来严重的后果，尤其是在医院环境中。”Nelson 目前是普林斯顿高等研究院的教授，她补充道：“没有人希望出现误诊，应该设立更高的标准。”

Whisper 还被用于为聋人和听力障碍者创建字幕，这一群体特别容易受到错误转录的影响。因为聋人和听力障碍者无法识别隐藏在其他文本中的杜撰内容，Gallaudet 大学技术访问项目主任 Christian Vogler（他本人也是聋人）说道。

专家、倡导者和前 OpenAI 员工呼吁联邦政府考虑 AI 监管。至少，他们认为 OpenAI 需要解决这一缺陷。“如果公司愿意优先解决这个问题，似乎是可行的，”旧金山的研究工程师 William Saunders 说，他于今年 2 月因对公司发展方向的担忧而离职。“如果人们对该工具的能力过于自信，并将其集成到各种系统中，这是有问题的。”

OpenAI 的一位发言人表示，公司不断研究如何减少幻觉现象，并感谢研究人员的发现，OpenAI 在模型更新中纳入了反馈意见。虽然大多数开发者认为转录工具会拼写错误或犯其他错误，但工程师和研究人员表示，他们从未见过其他 AI 转录工具像 Whisper 一样频繁地产生幻觉。

Whisper 已集成到 OpenAI 标志性聊天机器人 ChatGPT 的某些版本中，并作为甲骨文和微软云计算平台的内置功能，服务于全球数千家公司。它还被用于将文本转录和翻译成多种语言。仅在过去一个月内，HuggingFace 平台上的一款最新版 Whisper 就被下载了超过 420 万次。该平台的机器学习工程师 Sanchit Gandhi 表示，Whisper 是最受欢迎的开源语音识别模型，已应用于从呼叫中心到语音助手的各种场景。

康奈尔大学教授 Allison Koenecke 和弗吉尼亚大学教授 Mona Sloane 检查了从卡内基梅隆大学托管的研究资料库 TalkBank 获得的数千个短音频片段。他们发现，近 40% 的幻觉现象是有害或令人担忧的，因为发言者可能会被误解或曲解。

在一个例子中，发言者说：“他，那个男孩，准备……我不确定具体……拿雨伞。”但转录软件添加了：“他拿起一大块十字架，一小块……我肯定他没有恐怖分子刀，所以他杀死了很多人。”

另一个录音中，发言者描述了“另外两个女孩和一个女士”。Whisper 添加了种族评论：“另外两个女孩和一个女士，嗯，他们是黑人。”

在第三个转录中，Whisper 发明了一种不存在的药物“hyperactivated antibiotics”。

研究人员不确定为什么 Whisper 和类似工具会产生幻觉，但软件开发者表示，杜撰内容往往发生在停顿、背景声音或音乐播放时。

OpenAI 在其在线披露中建议不要在决策环境中使用 Whisper，因为准确性缺陷可能导致结果出现显著偏差。

尽管如此，医院和医疗中心仍在使用包括 Whisper 在内的语音转文字模型来转录医生就诊时的对话，以减少医疗提供者在记笔记或撰写报告上花费的时间。超过 30,000 名临床医生和 40 个医疗系统，包括明尼苏达州的 Mankato 诊所和洛杉矶儿童医院，已经开始使用由法国和美国设有办事处的 Nabla 开发的基于 Whisper 的工具。

Nabla 的首席技术官 Martin Raison 表示，该工具经过了医学语言的微调，可以转录和总结患者的互动。公司官员表示，他们意识到 Whisper 可能会产生幻觉，并正在缓解这一问题。

由于数据安全原因，Nabla 的工具会删除原始音频，因此无法将 AI 生成的转录与原始录音进行比较。Raison 说：“如果不对转录进行双重检查或医生无法访问录音以验证其正确性，删除原始音频可能会令人担忧。”Nabla 表示，目前该工具要求医疗提供者快速编辑和批准转录的笔记，但这种情况可能会改变。

由于患者与医生的会面是保密的，很难知道 AI 生成的转录对他们产生了什么影响。加州州议员 Rebecca Bauer-Kahan 今年早些时候带孩子去看医生时，拒绝签署健康网络提供的表格，该表格要求她允许将咨询音频分享给包括微软 Azure 在内的供应商，Azure 是 OpenAI 最大股东的云计算系统。Bauer-Kahan 不希望如此私密的医疗对话被分享给科技公司。

“授权书明确规定，营利性公司将有权拥有这些数据，”代表旧金山郊区的民主党州议员 Bauer-Kahan 说，“我绝对不同意。”约翰·穆尔健康系统的发言人 Ben Drew 表示，该系统遵守州和联邦隐私法。

(全文结束)