Whisper 是一款由人工智能驱动的流行转录工具,但据十几位软件工程师、开发人员和学术研究人员的采访显示,它有一个重大缺陷:容易编造大段文字甚至整句内容。这些专家表示,一些编造的内容(业内称为“幻觉”)可能包括种族评论、暴力言论甚至是虚构的医疗治疗方案。
专家们认为,这种编造内容的问题非常严重,因为Whisper正在全球多个行业中被用来翻译和转录音频、生成流行消费技术中的文本以及为视频创建字幕。更令人担忧的是,尽管OpenAI警告不要在高风险领域使用该工具,但许多医疗中心仍在急于采用基于Whisper的工具来转录患者与医生的咨询。
问题的严重程度难以完全衡量,但研究人员和工程师表示,在他们的工作中经常遇到Whisper的“幻觉”。例如,密歇根大学的一位研究员在研究公共会议时发现,他在检查的每10个音频转录中有8个存在“幻觉”,这在他开始尝试改进模型之前。一位机器学习工程师表示,他在分析的超过100小时的Whisper转录中,最初发现了大约一半的“幻觉”。另一位开发者表示,在他用Whisper创建的26,000份转录中,几乎每一项都存在“幻觉”。
即使在录制良好、短小的音频样本中,问题依然存在。最近的一项计算机科学研究发现,在他们检查的13,000多个清晰的音频片段中,有187个“幻觉”。研究人员表示,这一趋势将导致数百万次录音中出现数万次错误转录。
“这样的错误可能会产生非常严重的后果,特别是在医院环境中。”前白宫科学技术政策办公室主任阿隆德拉·尼尔森(Alondra Nelson)说,她一直担任普林斯顿高等研究院的教授。“没有人希望出现误诊。应该设立更高的标准。”
Whisper还被用于为聋人和听力障碍者创建字幕,这是一个特别容易受到错误转录影响的群体。因为聋人和听力障碍者无法识别隐藏在其他文本中的虚构内容,加劳德特大学技术访问项目主任克里斯蒂安·沃格勒(Christian Vogler)说,他自己也是聋人。
这种“幻觉”的普遍存在导致专家、倡导者和前OpenAI员工呼吁联邦政府考虑AI法规。至少,他们认为OpenAI需要解决这一缺陷。“如果公司愿意优先处理这个问题,似乎是可以解决的。”旧金山的研究工程师威廉·桑德斯(William Saunders)说,他于今年2月因对公司方向的担忧而离开OpenAI。“如果将其推出并且人们对其能力过于自信,将其集成到所有其他系统中,这是有问题的。”
OpenAI的一位发言人表示,公司一直在研究如何减少“幻觉”,并对研究人员的发现表示感谢,OpenAI会在模型更新中纳入反馈。尽管大多数开发人员认为转录工具会拼写错误或犯其他错误,但工程师和研究人员表示,他们从未见过其他AI转录工具像Whisper那样频繁地“幻觉”。
该工具已集成到OpenAI旗舰聊天机器人ChatGPT的一些版本中,并作为内置选项出现在Oracle和Microsoft的云计算平台中,这些平台服务于全球数千家公司。仅在过去一个月内,HuggingFace开源AI平台上的一款最新版本的Whisper就被下载了超过420万次。HuggingFace的机器学习工程师桑奇特·甘地(Sanchit Gandhi)表示,Whisper是最受欢迎的开源语音识别模型,被广泛应用于呼叫中心和语音助手等各种场景。
康奈尔大学的艾莉森·科恩克(Allison Koenecke)教授和弗吉尼亚大学的莫娜·斯洛恩(Mona Sloane)教授检查了从卡内基梅隆大学托管的研究存储库TalkBank获得的数千个短片段。他们确定,近40%的“幻觉”是有害或令人担忧的,因为说话者可能会被误解或曲解。
在一个例子中,说话者说:“他,那个男孩,打算……我不太确定,拿伞。”但转录软件添加了:“他拿起了一块很大的十字架,一小块……我肯定他没有恐怖分子刀子,所以杀死了几个人。”
另一个录音中的说话者描述了“另外两个女孩和一个女士。”Whisper却加上了种族评论:“另外两个女孩和一个女士,嗯,她们是黑人。”
在第三个转录中,Whisper编造了一种不存在的药物,称为“超激活抗生素”。
研究人员不确定为什么Whisper和其他类似工具会出现“幻觉”,但软件开发人员表示,这些虚构内容往往发生在停顿、背景声音或音乐播放期间。
OpenAI在其在线披露中建议不要在决策环境中使用Whisper,因为准确性缺陷可能导致结果的重大偏差。然而,这一警告并未阻止医院或医疗中心使用语音转文字模型(包括Whisper)来转录医生就诊时的对话,以减少医疗提供者在记笔记或撰写报告上花费的时间。超过30,000名临床医生和40个卫生系统,包括明尼苏达州的曼卡托诊所和洛杉矶儿童医院,已经开始使用Nabla开发的基于Whisper的工具,Nabla在法国和美国设有办事处。
Nabla的首席技术官马丁·雷松(Martin Raison)表示,该工具经过了医学语言的微调,可以转录和总结患者的互动。公司官员表示,他们意识到Whisper可能会“幻觉”,并正在解决这一问题。
由于Nabla的工具出于数据安全原因删除了原始音频,因此无法将AI生成的转录与原始录音进行比较,雷松说。Nabla表示,该工具已用于转录约700万次医疗就诊。
前OpenAI工程师威廉·桑德斯表示,删除原始音频可能会令人担忧,如果转录未经双重检查或临床医生无法访问录音以验证其正确性的话。“如果你拿走了真实情况,你就无法发现错误。”他说。
Nabla表示,没有模型是完美的,目前他们的模型仍需要医疗提供者快速编辑和批准转录音频,但这可能会改变。
由于患者与医生的会面是保密的,很难知道AI生成的转录如何影响这些会面。加州州议员丽贝卡·鲍尔-卡汉(Rebecca Bauer-Kahan)表示,她今年早些时候带孩子去看医生时,拒绝签署健康网络提供的表格,该表格寻求她的许可,将咨询音频分享给包括微软Azure在内的供应商,微软Azure是由OpenAI的最大投资者运行的云计算系统。鲍尔-卡汉不希望如此私密的医疗对话被分享给科技公司。“授权书中明确规定,营利性公司有权拥有这些内容。”鲍尔-卡汉说,她是代表旧金山郊区部分地区的民主党州议员。“我绝对不同意。”
约翰·穆尔健康系统的发言人本·德鲁(Ben Drew)表示,该健康系统遵守州和联邦隐私法。
(全文结束)


