OpenAI的Whisper转录工具在医院中虚构从未说过的话,研究人员称OpenAI’s Whisper transcription tool used in hospitals invents things no one ever said, researchers claim

环球医讯 / AI与医疗健康来源:www.thehindu.com美国 - 英语2024-10-28 06:00:00 - 阅读时长5分钟 - 2386字
OpenAI的Whisper转录工具因其在医疗领域的广泛使用而引发关注,但该工具存在虚构文本的问题,可能导致严重后果。
OpenAIWhisper转录工具医院医疗会诊幻觉人工智能监管患者隐私误诊聋人
OpenAI的Whisper转录工具在医院中虚构从未说过的话,研究人员称

据多位软件工程师、开发人员和学术研究人员表示,OpenAI的人工智能驱动转录工具Whisper虽然备受推崇,但有一个重大缺陷:它容易编造大段文本甚至整个句子。这些虚构的文本(业内称为“幻觉”)可能包括种族评论、暴力言论甚至想象中的医疗治疗。

专家们表示,这种虚构内容是一个严重问题,因为Whisper正在全球多个行业中被广泛应用,用于翻译和转录音频、生成流行消费技术中的文本以及创建视频字幕。更令人担忧的是,尽管OpenAI警告不应在高风险领域使用该工具,但许多医疗中心仍在急于采用基于Whisper的工具来转录患者与医生的会诊。

这一问题的严重程度难以确定,但研究人员和工程师表示,在他们的工作中经常遇到Whisper的“幻觉”。例如,密歇根大学的一位研究员在研究公共会议时发现,他检查的每10个音频转录中有8个存在幻觉,这促使他开始尝试改进模型。一位机器学习工程师表示,他在分析的100多小时Whisper转录中,最初发现了约一半的幻觉。另一位开发者表示,他在用Whisper创建的26,000份转录中几乎每一份都发现了幻觉。

即使在录制良好、短小的音频样本中,这些问题仍然存在。最近的一项计算机科学研究发现,在他们检查的13,000多个清晰音频片段中,有187个幻觉。研究人员表示,这一趋势将导致数百万次录音中出现数万次错误转录。

特别是在医院环境中,这些错误可能会产生严重的后果。“没有人希望出现误诊,”前白宫科学技术政策办公室主任阿隆德拉·尼尔森(Alondra Nelson)说。她目前是新泽西州普林斯顿高等研究院的教授。“应该有更高的标准。”

Whisper还用于为聋人和听力障碍者创建字幕,这是一个特别容易受到错误转录影响的群体。因为聋人和听力障碍者无法识别隐藏在其他文本中的虚构内容,加劳德特大学技术访问项目主任克里斯蒂安·沃格尔(Christian Vogler)说,他是聋人。

这种幻觉的普遍存在已导致专家、倡导者和前OpenAI员工呼吁联邦政府考虑对人工智能进行监管。至少,他们表示,OpenAI需要解决这一缺陷。“如果公司愿意优先处理这个问题,似乎是可解决的,”旧金山的研究工程师威廉·桑德斯(William Saunders)说,他于今年2月因对公司方向的担忧而离开OpenAI。“如果将此工具推出,人们对其能力过于自信,并将其集成到所有这些系统中,这是有问题的。”

大多数开发者认为转录工具会拼写错误或犯其他错误,但工程师和研究人员表示,他们从未见过其他人工智能驱动的转录工具像Whisper那样频繁地产生幻觉。该工具已集成到OpenAI旗舰聊天机器人ChatGPT的一些版本中,并作为甲骨文和微软云计算平台的内置服务,为全球数千家公司提供服务。它还用于将文本转录和翻译成多种语言。

仅在过去一个月内,最新版本的Whisper就在开源AI平台HuggingFace上被下载超过420万次。HuggingFace的机器学习工程师桑奇特·甘地(Sanchit Gandhi)表示,Whisper是最受欢迎的开源语音识别模型,已应用于从呼叫中心到语音助手的各种场景。康奈尔大学的艾莉森·科恩克(Allison Koenecke)教授和弗吉尼亚大学的莫娜·斯洛恩(Mona Sloane)教授检查了从卡内基梅隆大学托管的研究存储库TalkBank获得的数千个短片段,发现近40%的幻觉是有害或令人担忧的,因为说话者可能被误解或歪曲。

在一个例子中,说话者说:“他,那个男孩,打算,我不太确定,拿伞。”但转录软件添加了:“他拿了一块很大的十字架,一小块……我肯定他没有恐怖刀,所以他杀了几个人。”另一个录音中,说话者描述了“另外两个女孩和一个女士。”Whisper虚构了关于种族的额外评论,添加了“另外两个女孩和一个女士,嗯,她们是黑人。”在第三个转录中,Whisper虚构了一种不存在的药物,称为“超激活抗生素”。

OpenAI在其在线披露中建议不要在决策环境中使用Whisper,因为在准确性上的缺陷会导致结果出现明显缺陷。然而,这一警告并未阻止医院或医疗中心使用包括Whisper在内的语音转文本模型来转录医生会诊期间的对话,以减少医务人员在记录和报告撰写上的时间。超过30,000名临床医生和40个卫生系统,包括明尼苏达州的曼卡托诊所和洛杉矶儿童医院,已经开始使用Nabla构建的基于Whisper的工具。Nabla在美国和法国设有办事处。

Nabla的首席技术官马丁·雷松(Martin Raison)表示,该工具经过优化,可以转录和总结患者的互动。公司官员表示,他们意识到Whisper会产生幻觉,并正在解决这一问题。由于数据安全的原因,Nabla的工具会删除原始音频,因此无法将AI生成的转录与原始录音进行比较。雷松说,Nabla的工具已用于转录估计700万次医疗会诊。

前OpenAI工程师桑德斯表示,删除原始音频可能会令人担忧,如果转录未经过双重检查或医务人员无法访问录音以验证其正确性。“如果你拿走事实依据,就无法发现错误,”他说。

由于患者与医生的会诊是保密的,很难知道AI生成的转录如何影响他们。加州州议员丽贝卡·鲍尔-卡汉(Rebecca Bauer-Kahan)表示,她今年早些时候带孩子去看医生时,拒绝签署健康网络提供的表格,该表格要求她允许与包括微软Azure在内的供应商分享咨询音频。微软Azure是由OpenAI的最大投资者运营的云计算系统。鲍尔-卡汉不希望如此私密的医疗对话被分享给科技公司。“授权书明确规定,营利性公司有权拥有这些信息,”代表旧金山郊区的民主党州议员鲍尔-卡汉说。“我当时就想,绝对不行。”

约翰·缪尔健康系统的发言人本·德鲁(Ben Drew)表示,该系统遵守州和联邦隐私法律。


(全文结束)

大健康
大健康