研究者称医院使用的AI转录工具会杜撰从未说过的话 - AI与医疗健康

研究人员表示，一种在医院中广泛使用的由人工智能驱动的转录工具存在一个重大缺陷：它会杜撰从未说过的内容。

加州大学伯克利分校的信息科学助理教授Allison Koenecke是这项研究的作者之一。她与其他十几位软件工程师、开发者和学术研究人员进行了访谈，发现这款名为Whisper的转录工具容易生成大量虚构的文本或整个句子。这些虚构内容在业内被称为“幻觉”，可能包括种族评论、暴力言论甚至想象中的医疗治疗。

专家们表示，这些虚构内容非常令人担忧，因为Whisper正在全球多个行业中被用于翻译和转录采访、生成流行消费技术中的文本以及创建视频字幕。更令人担忧的是，尽管OpenAI警告不应在高风险领域使用该工具，但许多医疗机构仍在急于采用基于Whisper的工具来转录患者与医生的咨询。

问题的严重程度难以确定，但研究人员和工程师表示，他们在工作中经常遇到Whisper的“幻觉”。例如，密歇根大学的一位研究人员在研究公共会议时发现，在他检查的每10个音频转录中有8个都存在幻觉，直到他开始尝试改进模型。

一位机器学习工程师表示，他在分析的超过100小时的Whisper转录中，最初发现了约一半的幻觉。另一位开发者表示，他在用Whisper创建的26,000份转录中几乎每一份都发现了幻觉。

即使在录制良好、短小的音频样本中，问题依然存在。最近的一项计算机科学研究发现，在他们检查的13,000多个清晰的音频片段中，有187个存在幻觉。研究人员表示，这一趋势会导致数百万录音中出现数万次错误的转录。

普林斯顿高等研究院的教授Alondra Nelson曾领导拜登政府的白宫科学技术政策办公室，她说：“这种错误可能会产生严重的后果，特别是在医院环境中。”“没有人希望出现误诊。”她补充道，“应该有更高的标准。”

Whisper还用于为聋人和听力障碍者创建字幕，这一群体特别容易受到错误转录的影响。加劳德特大学技术访问项目主任Christian Vogler（他本人也是聋人）说：“聋人和听力障碍者无法识别隐藏在所有这些文本中的虚构内容。”

这种幻觉的普遍存在导致专家、倡导者和前OpenAI员工呼吁联邦政府考虑对AI进行监管。至少，他们表示，OpenAI需要解决这一缺陷。“如果公司愿意优先处理这个问题，这似乎是可解决的，”旧金山的研究工程师William Saunders说，他于今年2月因对公司发展方向的担忧而离开OpenAI。“如果你推出这个工具，人们对其功能过于自信，并将其集成到其他系统中，这是有问题的。”

OpenAI的一位发言人表示，公司不断研究如何减少幻觉，并感谢研究人员的发现，同时表示OpenAI会在模型更新中纳入反馈。

虽然大多数开发者认为转录工具会拼写错误或其他错误，但工程师和研究人员表示，他们从未见过其他任何AI驱动的转录工具像Whisper那样频繁地产生幻觉。

该工具已集成到OpenAI的旗舰聊天机器人ChatGPT的一些版本中，并作为甲骨文和微软云计算平台的内置功能，服务全球数千家公司。它还用于将文本转录和翻译成多种语言。仅在过去一个月，HuggingFace这一开源AI平台上的一个最新版本的Whisper就被下载了超过420万次。HuggingFace的机器学习工程师Sanchit Gandhi表示，Whisper是最受欢迎的开源语音识别模型，已集成到从呼叫中心到语音助手的各种应用中。

康奈尔大学的Allison Koenecke教授和弗吉尼亚大学的Mona Sloane教授检查了从卡内基梅隆大学托管的研究存储库TalkBank获得的数千个短片段。他们确定，近40%的幻觉是有害或令人担忧的，因为发言者的意图可能会被误解或歪曲。

在一个例子中，发言者说：“他，那个男孩，打算，我不太确定，拿雨伞。”但转录软件添加了：“他拿了一大块十字架，一小块……我肯定他没有恐怖分子刀，所以他杀死了几个人。”

另一个录音中的发言者描述了“另外两个女孩和一个女士。”Whisper却添加了种族评论：“另外两个女孩和一个女士，嗯，她们是黑人。”

在第三个转录中，Whisper虚构了一种不存在的药物“hyperactivated antibiotics”。

研究人员不确定为什么Whisper和其他类似工具会产生幻觉，但软件开发者表示，这些虚构内容往往发生在停顿、背景声音或播放音乐时。

OpenAI在其在线披露中建议不要在决策环境中使用Whisper，因为准确性缺陷可能导致结果的重大偏差。然而，这一警告并未阻止医院或医疗中心使用语音转文本模型（包括Whisper）来转录医生就诊期间的对话，以减少医务人员在记录和报告撰写上的时间。超过30,000名临床医生和40个医疗系统，包括明尼苏达州的曼卡托诊所和洛杉矶儿童医院，已经开始使用Nabla公司开发的基于Whisper的工具。Nabla公司在法国和美国设有办事处。

Nabla的首席技术官Martin Raison表示，该工具经过优化，可以转录和总结患者的互动。公司官员表示，他们意识到Whisper可能会产生幻觉，并正在采取措施缓解这一问题。

由于数据安全原因，Nabla的工具会删除原始音频，因此无法将AI生成的转录与原始录音进行比较。前OpenAI工程师Saunders表示，如果不对转录进行双重检查或临床医生无法访问录音以验证其正确性，删除原始音频可能会带来问题。“如果没有事实依据，你就无法发现错误，”他说。

Nabla表示，没有模型是完美的，目前他们的模型仍需要医疗提供者快速编辑和批准转录的笔记，但这种情况可能会改变。

由于患者与医生的会议是保密的，很难知道AI生成的转录对他们产生了什么影响。加州州议员Rebecca Bauer-Kahan表示，她今年早些时候带孩子去看医生时，拒绝签署健康网络提供的表格，该表格要求她同意将咨询音频与包括微软Azure在内的供应商共享，而微软Azure是OpenAI的最大投资者。Bauer-Kahan不想让如此私密的医疗对话被科技公司分享。“授权书中明确规定，营利性公司有权拥有这些信息，”Bauer-Kahan说，她是代表旧金山郊区的民主党州议员。“我当时就说绝对不行。”

John Muir Health的发言人Ben Drew表示，该健康系统遵守州和联邦隐私法。

Schellmann从纽约报道。

这篇报道是由普利策中心的AI问责网络合作制作的，该网络部分支持了这项学术研究。

美联社从Omidyar Network获得了财政援助，以支持其对人工智能及其社会影响的报道。AP对其所有内容负全责。有关AP与慈善机构合作的标准、支持者名单和资助覆盖领域的更多信息，请访问AP.org。

美联社与OpenAI达成了一项许可和技术协议，允许OpenAI访问AP的部分文本档案。

(全文结束)

研究者称医院使用的AI转录工具会杜撰从未说过的话Researchers say an AI-powered transcription tool used in hospitals invents things no one ever said