研究人员称医院使用的AI转录工具会编造从未说过的话 - AI与医疗健康

科技巨头OpenAI一直宣传其基于人工智能的转录工具Whisper具有接近“人类水平的稳健性和准确性”。然而，根据多位软件工程师、开发者和学术研究人员的采访，Whisper存在一个重大缺陷：它容易编造大段文本甚至整个句子。这些专家表示，一些编造的内容（在行业内称为“幻觉”）可能包括种族评论、暴力言论甚至是虚构的医疗治疗。专家们认为，这种编造内容是存在问题的，因为Whisper正在全球多个行业中被用于翻译和转录访谈、生成流行消费技术中的文本以及为视频创建字幕。

更令人担忧的是，尽管OpenAI警告不应在“高风险领域”使用该工具，但医疗机构仍在竞相利用基于Whisper的工具来转录患者与医生的咨询。问题的严重程度难以衡量，但研究人员和工程师表示，他们在工作中经常遇到Whisper的幻觉。例如，密歇根大学的一位研究员在研究公共会议时发现，在他检查的每10个音频转录中就有8个存在幻觉，这在他开始尝试改进模型之前。一位机器学习工程师说，他在分析的100多个小时的Whisper转录音频中，最初发现了大约一半的幻觉。另一位开发者表示，他在用Whisper创建的26,000份转录中几乎每一项都发现了幻觉。

即使在录制良好、简短的音频样本中，问题依然存在。计算机科学家最近的一项研究在他们检查的13,000多个清晰的音频片段中发现了187个幻觉。研究人员表示，这一趋势将导致数百万次录音中有数万次错误的转录。这种错误可能会产生“非常严重的后果”，尤其是在医院环境中，普林斯顿高等研究院教授、前白宫科学技术政策办公室主任阿隆德拉·尼尔森（Alondra Nelson）表示。“没有人希望出现误诊，”尼尔森说，“应该有更高的标准。”

Whisper还被用于为聋人和听力障碍者创建闭路字幕——这是一个特别容易受到错误转录影响的群体。这是因为聋人和听力障碍者无法识别隐藏在大量文本中的编造内容，加劳德特大学技术访问项目主任克里斯蒂安·沃格尔（Christian Vogler）说，他自己也是聋人。

这种幻觉的普遍性导致专家、倡导者和前OpenAI员工呼吁联邦政府考虑AI监管。至少，他们表示，OpenAI需要解决这一缺陷。“如果公司愿意优先处理这个问题，似乎是可以解决的，”旧金山研究工程师威廉·桑德斯（William Saunders）说，他于今年2月因对公司方向的担忧而离职。“如果你把它放出去，人们对其能力过于自信，并将其集成到所有这些其他系统中，这是有问题的。”

OpenAI的一位发言人表示，公司不断研究如何减少幻觉，并感谢研究人员的发现，同时表示OpenAI会在模型更新中纳入反馈。大多数开发人员假设转录工具会拼写错误或其他错误，但工程师和研究人员表示，他们从未见过其他基于AI的转录工具像Whisper那样频繁地产生幻觉。

该工具已集成到OpenAI旗舰聊天机器人ChatGPT的一些版本中，并作为甲骨文和微软云计算平台的内置产品，服务全球数千家公司。它还用于将文本转录和翻译成多种语言。仅在过去一个月，HuggingFace开源AI平台上的一款近期版本的Whisper就被下载超过420万次。HuggingFace的机器学习工程师桑奇特·甘地（Sanchit Gandhi）表示，Whisper是最受欢迎的开源语音识别模型，广泛应用于从呼叫中心到语音助手的各种场景。

康奈尔大学教授艾莉森·科内克（Allison Koenecke）和弗吉尼亚大学教授莫娜·斯洛恩（Mona Sloane）检查了从卡内基梅隆大学托管的研究存储库TalkBank获得的数千个短片段。他们确定，近40%的幻觉是有害或令人担忧的，因为说话者可能会被误解或歪曲。在一个例子中，说话者说：“他，那个男孩，打算……我不太确定，拿雨伞。”但转录软件添加了：“他拿了一大块十字架，一小块……我肯定他没有恐怖刀，所以他杀了几个人。”另一个录音中的说话者描述了“另外两个女孩和一个女士。”Whisper编造了额外的种族评论，添加了“另外两个女孩和一个女士，嗯，她们是黑人。”在第三个转录中，Whisper编造了一种不存在的药物，称为“高活性抗生素”。

研究人员不确定为什么Whisper和其他类似工具会产生幻觉，但软件开发者表示，这些编造内容往往发生在停顿、背景声音或音乐播放期间。OpenAI在其在线披露中建议不要在“决策环境中”使用Whisper，因为准确性方面的缺陷可能导致结果出现显著偏差。

尽管如此，医院或医疗中心仍在使用包括Whisper在内的语音转文字模型来转录医生就诊时的对话，以减少医务人员在记笔记或撰写报告上花费的时间。超过30,000名临床医生和40个卫生系统，包括明尼苏达州的曼卡托诊所和洛杉矶儿童医院，已经开始使用Nabla公司构建的基于Whisper的工具。Nabla在美国和法国设有办事处，该公司首席技术官马丁·雷松（Martin Raison）表示，该工具经过微调，可以转录和总结患者的互动。公司官员表示，他们意识到Whisper可能会产生幻觉，并正在缓解这一问题。由于Nabla的工具出于“数据安全原因”会删除原始音频，因此无法将AI生成的转录与原始录音进行比较。雷松表示，该工具已被用于转录约700万次医疗访问。

前OpenAI工程师威廉·桑德斯表示，如果不对转录进行双重检查或医务人员无法访问录音以验证其正确性，删除原始音频可能会令人担忧。“如果没有地面真相，你就无法发现错误，”他说。Nabla表示，没有模型是完美的，目前他们的模型仍需要医务人员快速编辑和批准转录音频，但这可能会改变。

由于患者与医生的会议是保密的，因此很难知道AI生成的转录对他们产生了什么影响。加州州议员丽贝卡·鲍尔-卡汉（Rebecca Bauer-Kahan）表示，她今年早些时候带孩子去看医生时，拒绝签署健康网络提供的表格，该表格要求她允许与包括微软Azure在内的供应商共享咨询音频，微软Azure是OpenAI最大投资者的云计算系统。鲍尔-卡汉表示，她不希望如此私密的医疗对话被分享给科技公司。“该授权书明确指出，营利性公司将有权拥有这些数据，”鲍尔-卡汉说，“我绝对不同意。”约翰·缪尔健康系统的发言人本·德鲁（Ben Drew）表示，该系统遵守州和联邦隐私法。

(全文结束)

研究人员称医院使用的AI转录工具会编造从未说过的话Researchers say AI-powered transcription tool used in hospitals invents things no one ever said