医院的AI转录工具编造了从未说过的话,研究人员说
Hospitals' AI Transcription Tool Invents Things No One Ever Said, Researchers Say
科技巨头OpenAI吹嘘其基于人工智能的转录工具Whisper具有接近“人类水平的稳健性和准确性”。但据十几位软件工程师、开发者和学术研究人员的采访,Whisper有一个重大缺陷:它容易编造大段文本甚至整句句子。这些专家表示,一些编造的文本——在行业中称为幻觉——可能包括种族评论、暴力言论,甚至虚构的医疗治疗。
专家们表示,这种编造的问题在于,Whisper被用于全球多个行业的翻译和转录访谈、生成流行消费技术中的文本,以及为视频创建字幕。更令人担忧的是,尽管OpenAI警告不应在“高风险领域”使用该工具,但医疗机构仍在争相利用基于Whisper的工具来转录患者与医生的咨询。
问题的全部范围难以确定,但研究人员和工程师表示,他们在工作中经常遇到Whisper的幻觉。例如,密歇根大学的一位研究员在研究公共会议时发现,在他检查的每10个音频转录中有8个存在幻觉,这在他开始尝试改进模型之前。一位机器学习工程师表示,他在分析的超过100小时的Whisper转录中最初发现了大约一半的幻觉。第三位开发者表示,他在用Whisper创建的26,000份转录中几乎每一份都发现了幻觉。
即使在录音质量良好、时间较短的音频样本中,这些问题仍然存在。最近的一项计算机科学研究发现,在他们检查的13,000多个清晰音频片段中发现了187个幻觉。研究人员表示,这一趋势将导致数百万录音中出现数万个错误转录。
普林斯顿高等研究院的教授Alondra Nelson博士表示,特别是在医院环境中,这些错误可能会有“非常严重的后果”。“没有人希望被误诊,”Nelson说,“应该有更高的标准。”
Whisper还用于为聋人和听力障碍者创建闭幕字幕——这是一个特别容易受到错误转录影响的人群。这是因为聋人和听力障碍者无法识别隐藏在其他文本中的编造内容,Gallaudet大学技术访问项目主任Christian Vogler博士(他是聋人)表示。
OpenAI被敦促解决问题
这种幻觉的普遍性导致专家、倡导者和前OpenAI员工呼吁联邦政府考虑对AI进行监管。至少,他们表示,OpenAI需要解决这一缺陷。“如果公司愿意优先处理这个问题,似乎是可解决的,”旧金山的研究工程师William Saunders说,他于今年2月因对公司方向的担忧而离开OpenAI。“如果人们过于自信地将其集成到各种系统中,这是有问题的。”
OpenAI的一位发言人表示,公司不断研究如何减少幻觉,并感谢研究人员的发现,OpenAI会在模型更新中纳入反馈。
虽然大多数开发者认为转录工具会拼写错误或犯其他错误,但工程师和研究人员表示,他们从未见过其他基于AI的转录工具像Whisper那样频繁地产生幻觉。
Whisper幻觉
该工具被集成到某些版本的OpenAI旗舰聊天机器人ChatGPT中,并作为Oracle和Microsoft云计算平台的内置功能,服务于全球数千家公司。它还用于将文本转录和翻译成多种语言。仅在过去一个月,Whisper的一个最新版本就在开源AI平台HuggingFace上被下载了超过420万次。HuggingFace的机器学习工程师Sanchit Gandhi表示,Whisper是最受欢迎的开源语音识别模型,被集成到从呼叫中心到语音助手的各种应用中。
康奈尔大学的Allison Koenecke博士和弗吉尼亚大学的Mona Sloane博士检查了从卡内基梅隆大学托管的研究存储库TalkBank获得的数千个短片段。他们确定,近40%的幻觉是有害或令人担忧的,因为说话者可能会被误解或歪曲。
在他们发现的一个例子中,说话者说:“他,那个男孩,准备去,我不太确定,拿伞。”但转录软件添加了:“他拿了一大块十字架,一小块……我肯定他没有恐怖刀,所以他杀了几个人。”
另一个录音中的说话者描述了“另外两个女孩和一个女士”。Whisper虚构了关于种族的额外评论,添加了“另外两个女孩和一个女士,嗯,她们是黑人”。
在第三个转录中,Whisper虚构了一种不存在的药物,称为“高活性抗生素”。
研究人员不确定为什么Whisper和其他类似工具会产生幻觉,但软件开发人员表示,这些编造往往发生在停顿、背景声音或音乐播放期间。OpenAI在其在线披露中建议不要在“决策上下文中”使用Whisper,因为在准确性上的缺陷可能导致结果出现显著偏差。
转录医生预约
尽管OpenAI发出了警告,但医院和医疗中心仍在使用语音转文字模型(包括Whisper)来转录医生就诊时的对话,以减少医务人员在记笔记或撰写报告上花费的时间。超过30,000名临床医生和40个卫生系统,包括明尼苏达州的曼卡托诊所和洛杉矶儿童医院,已经开始使用由Nabla(在法国和美国设有办事处)构建的基于Whisper的工具。
Nabla的首席技术官Martin Raison表示,该工具经过微调,可以转录和总结患者的互动。公司官员表示,他们意识到Whisper可能会产生幻觉,并正在解决这一问题。
Raison表示,由于“数据安全原因”,Nabla的工具会删除原始音频,因此无法将AI生成的转录与原始录音进行比较。Nabla表示,该工具已用于估计700万次医疗就诊的转录。
前OpenAI工程师Saunders表示,如果转录未经双重检查或医务人员无法访问录音以验证其正确性,删除原始音频可能会令人担忧。“如果你拿走了事实依据,你就无法发现错误,”他说。Nabla表示,没有模型是完美的,他们的模型目前需要医务人员快速编辑和批准转录的笔记,但这种情况可能会改变。
隐私问题
由于患者与医生的会议是保密的,很难知道AI生成的转录如何影响他们。加州州议员Rebecca Bauer-Kahan表示,她今年早些时候带孩子去看医生时,拒绝签署健康网络提供的表格,该表格要求她同意将咨询音频与包括微软Azure在内的供应商共享,Azure是由OpenAI的最大投资者运营的云计算系统。Bauer-Kahan表示,她不希望如此私密的医疗对话被分享给科技公司。
“这份授权书非常具体,营利性公司将有权拥有这些信息,”代表旧金山郊区部分地区的民主党州议员Bauer-Kahan说。“我绝对不同意。”
约翰·穆尔健康系统的发言人Ben Drew表示,该健康系统遵守州和联邦隐私法。
本文由普利策中心的AI问责网络合作制作,该网络还部分支持了学术Whisper研究。AP还从Omidyar Network获得资金支持,以报道人工智能及其对社会的影响。
(全文结束)
声明:本文仅代表作者观点,不代表本站立场,如有侵权请联系我们删除。
本页内容撰写过程部分涉及AI生成(包括且不限于题材,素材,提纲的搜集与整理),请注意甄别。