研究人员称医院使用的AI转录工具会编造从未说过的话 - AI与医疗健康

科技巨头OpenAI曾宣称其基于人工智能的转录工具Whisper具有接近人类水平的稳健性和准确性。但据多位软件工程师、开发人员和学术研究人员的采访，Whisper存在一个重大缺陷：它容易编造大段文字甚至整句内容，这些被行业内称为“幻觉”的虚构内容可能包括种族评论、暴力言论甚至是虚构的医疗治疗方案。

专家们表示，这种虚构内容的问题在于Whisper正在全球多个行业中被广泛用于翻译和转录音频、生成流行消费技术中的文本以及创建视频字幕。更令人担忧的是，尽管OpenAI警告该工具不应用于高风险领域，但许多医疗机构仍在急于使用基于Whisper的工具来转录患者与医生的咨询。

虽然问题的全貌难以确定，但研究人员和工程师表示，他们在工作中频繁遇到Whisper的“幻觉”。例如，密歇根大学的一位研究员在研究公共会议时发现，在他检查的每10个音频转录中有8个存在幻觉，这在他开始尝试改进模型之前的情况。一位机器学习工程师表示，他在分析的100多个小时的Whisper转录中，最初发现了大约一半的幻觉。另一位开发者则表示，在他用Whisper创建的26,000份转录中，几乎每一份都存在幻觉。

即使在录制质量良好、时长短的音频样本中，这些问题仍然存在。最近的一项计算机科学研究发现，在他们检查的13,000多个清晰音频片段中，有187个幻觉。研究人员表示，这一趋势可能导致数百万次录音中出现数万次错误转录。

普林斯顿高等研究院教授Alondra Nelson指出，尤其是在医院环境中，这种错误可能会产生严重的后果。“没有人希望出现误诊。”Nelson说，“应该有更高的标准。”

Whisper还被用于为聋人和听力障碍者创建字幕，这一群体特别容易受到错误转录的影响。因为聋人和听力障碍者无法识别隐藏在大量文本中的虚构内容，Gallaudet大学技术访问项目主任Christian Vogler（他本人也是聋人）表示。

专家、倡导者和前OpenAI员工呼吁联邦政府考虑对AI进行监管。至少，他们认为OpenAI需要解决这一缺陷。“如果公司愿意优先解决这个问题，似乎是可解决的。”旧金山研究工程师William Saunders说，他于今年2月因对公司方向的担忧而离职。“如果人们过于自信地将其集成到各种系统中，这是有问题的。”

OpenAI的一位发言人表示，公司不断研究如何减少幻觉，并感谢研究人员的发现，OpenAI会在模型更新中纳入反馈。大多数开发人员认为转录工具会拼写错误或犯其他错误，但工程师和研究人员表示，他们从未见过其他基于AI的转录工具像Whisper那样频繁地产生幻觉。

Whisper被集成到OpenAI旗舰聊天机器人ChatGPT的一些版本中，并作为内置功能出现在Oracle和Microsoft的云计算平台中，这些平台服务于全球数千家公司。仅在过去一个月内，HuggingFace开源AI平台上最近的一个Whisper版本就被下载了超过420万次。Sanchit Gandhi，HuggingFace的一位机器学习工程师表示，Whisper是最受欢迎的开源语音识别模型，被广泛应用于从呼叫中心到语音助手的各种场景。

康奈尔大学教授Allison Koenecke和弗吉尼亚大学教授Mona Sloane检查了从Carnegie Mellon大学托管的研究存储库TalkBank获得的数千个短片段，他们发现近40%的幻觉是有害或令人担忧的，因为说话者可能会被误解或歪曲。

在一个他们发现的例子中，说话者说：“他，那个男孩，打算……我不太确定，拿雨伞。”但转录软件添加了：“他拿起了一块很大的十字架，一小块……我确定他没有恐怖刀，所以他杀死了很多人。”另一个录音中的说话者描述了“另外两个女孩和一个女士”，Whisper则虚构了关于种族的额外评论，添加了“另外两个女孩和一个女士，嗯，他们是黑人。”在第三个转录中，Whisper虚构了一种不存在的药物“hyperactivated antibiotics”。

研究人员不确定为什么Whisper和其他类似工具会产生幻觉，但软件开发人员表示，这些虚构内容往往发生在停顿、背景声音或播放音乐时。OpenAI在其在线披露中建议不要在决策环境中使用Whisper，因为在准确性方面的缺陷会导致结果的重大缺陷。

尽管如此，医院和医疗中心仍在使用语音转文本模型，包括Whisper，来转录医生就诊期间的对话，以减少医务人员在记录和报告撰写上的时间。超过30,000名临床医生和40个卫生系统，包括明尼苏达州的Mankato Clinic和洛杉矶儿童医院，已经开始使用由Nabla（在法国和美国设有办公室）构建的基于Whisper的工具。该工具经过优化，可以转录和总结患者的互动，Nabla首席技术官Martin Raison表示。

公司官员表示，他们意识到Whisper会产生幻觉，并正在解决这一问题。由于数据安全原因，Nabla的工具会删除原始音频，因此无法将AI生成的转录与原始录音进行比较，Raison说。Nabla表示，该工具已用于转录约700万次医疗就诊。

前OpenAI工程师Saunders表示，如果不对转录进行双重检查或医务人员无法访问录音以验证其正确性，删除原始音频可能会令人担忧。“如果你拿走了事实依据，就无法发现错误。”他说。Nabla表示，没有模型是完美的，他们的模型目前需要医务人员快速编辑和批准转录的笔记，但这可能会改变。

由于患者与医生的会面是保密的，很难知道AI生成的转录对其有何影响。加州州议员Rebecca Bauer-Kahan表示，她在今年早些时候带孩子去看医生时，拒绝签署健康网络提供的表格，该表格要求她同意将咨询音频共享给包括微软Azure在内的供应商，微软Azure是由OpenAI最大投资者运行的云计算系统。Bauer-Kahan不希望如此私密的医疗对话被分享给科技公司。“授权书中明确指出，营利性公司将有权拥有这些内容，”Bauer-Kahan说，“我坚决不同意。”

John Muir Health发言人Ben Drew表示，该医疗系统遵守州和联邦隐私法律。

(全文结束)

研究人员称医院使用的AI转录工具会编造从未说过的话Researchers say AI transcription tool used in hospitals invents things no one ever said