对于那些关注生成式人工智能新闻的人来说,AI 不完美这一点并不令人意外。事实上,生成式 AI 经常输出不真实、错误或不正确的结果,以至于我们给这种现象起了一个名字:幻觉。这正是在这个时刻将大量工作和任务外包给 AI 所面临的问题之一。AI 可以用于好的目的,但盲目地信任它处理重要任务而不进行监督或事实核查,确实存在风险。我们现在正看到这种做法带来的后果,而这些后果令人担忧。
OpenAI 的 Whisper 存在幻觉问题
最新的高调幻觉案例涉及 Whisper,这是来自 ChatGPT 制造商 OpenAI 的一款 AI 转录工具。Whisper 非常受欢迎:许多转录服务都依赖该平台来驱动他们的工具,这些工具又被许多用户和客户用来更快更轻松地转录音频对话。表面上看,这是一个好事情:Whisper 和其支持的服务在用户中享有良好的声誉,该平台在各个行业中使用率正在增长。然而,幻觉问题却成了障碍。据 AP News 报道,研究人员和专家对 Whisper 发出了警告,称其不仅不准确,还经常编造完全不存在的内容。虽然所有 AI 都容易产生幻觉,但研究人员警告说,Whisper 会报告一些根本没有说过的内容,包括“种族评论、暴力言论甚至是虚构的医疗治疗”。
这对我们这些将 Whisper 用于个人用途的人来说已经够糟糕了。但更大的担忧在于,Whisper 在专业行业中拥有大量的用户:你在线观看视频时看到的字幕可能是由 Whisper 生成的,这可能会影响聋哑或听力受损用户对视频的印象。重要的采访可能会使用基于 Whisper 的工具进行转录,这可能导致记录的内容与实际所说的内容不符。
你与医生的对话可能被不准确地转录
然而,目前最受关注的情况是 Whisper 在医院和医疗中心的应用。研究人员对大量医生和医疗专业人士转向使用 Whisper 工具来转录与患者的对话表示担忧。你与医生讨论健康问题时的对话可能会被录制下来,然后由 Whisper 分析,最终转录出完全虚假的陈述,这些内容从未出现在对话中。这并非假设:不同的研究人员通过研究基于 Whisper 的工具生成的转录结果得出了类似的结论。AP News 汇总了一些这些结果:密歇根大学的一位研究人员发现,在 Whisper 生成的 10 份转录中有 8 份存在幻觉;一位机器学习工程师发现他调查的 50% 的转录存在问题;另一位研究人员在其生成的 26,000 份 Whisper 转录中发现了几乎所有的幻觉。一项研究甚至发现在音频录音短且清晰的情况下也会出现一致的幻觉。但最直观的描述来自康奈尔大学教授 Allison Koenecke 和 Mona Sloane 的报告:这些教授发现从卡内基梅隆大学的研究资料库 TalkBank 中提取的转录中,近 40% 的幻觉内容是“有害或令人担忧”的,因为说话者可能会被“误解或歪曲”。
在一个例子中,说话者说:“他,那个男孩,将会,我不确定具体,拿伞。”AI 在转录中添加了以下内容:“他拿了一大块十字架,一小块……我确定他没有恐怖刀,所以他杀死了很多人。”在另一个例子中,说话者说:“另外两个女孩和一个女士”,而 AI 将其转录为:“另外两个女孩和一个女士,嗯,她们是黑人。”
综合考虑这些情况,似乎令人担忧的是,超过 30,000 名临床医生和 40 个卫生系统目前正在通过 Nabla 开发的工具使用 Whisper。更糟糕的是,你无法将转录与原始录音进行核对,以确认 Nabla 的工具是否在报告中编造了部分内容,因为 Nabla 设计该工具时为了“数据安全”删除了音频。据该公司称,大约有七百万次医疗访问使用了该工具来转录音频对话。
AI 是否真的准备好进入黄金时段?
生成式 AI 作为一项技术并不新鲜,但 ChatGPT 在 2022 年底真正推动了其广泛应用。自那以后,公司竞相将 AI 集成到他们的平台和服务中。为什么他们不这样做呢?公众似乎真的很喜欢 AI,而且生成式 AI 似乎可以做任何事情。为什么不拥抱它,利用 AI 的“魔力”来增强像转录这样的任务呢?
我们正在见证这一时刻的原因。AI 具有很大的潜力,但也有很多缺点。幻觉不仅仅是偶尔的烦恼:它是这项技术的副产品,是神经网络结构中的缺陷。我们并不完全理解为什么 AI 模型会产生幻觉,而这正是问题的一部分。我们信任有缺陷的技术来为我们处理重要工作,甚至为了所谓的安全删除了可以用来双重检查 AI 输出的数据。
我个人感到不安,因为我的医疗记录可能会包含纯粹的虚假信息,只是因为我医生的办公室决定在其系统中使用 Nabla 的工具。
(全文结束)


