AI 是出了名的爱说谎,但微软现在表示有办法解决这个问题。可以理解,这会让人感到惊讶——而且有理由持怀疑态度。
微软于今日推出了 Correction 服务,该服务试图自动修订事实错误的 AI 生成文本。Correction 首先标记出可能存在错误的文本——比如可能错误归因引语的公司季度收益电话会议摘要——然后通过与真实来源(例如上传的文字记录)进行比较来进行事实核查。
作为微软 Azure AI 内容安全 API 的一部分(目前处于预览阶段),Correction 可与包括 Meta 的 Llama 和 OpenAI 的 GPT-4 在内的任何文本生成 AI 模型配合使用。
微软发言人告诉 TechCrunch:“Correction 由利用小型语言模型和大型语言模型的新流程驱动,以使输出与基础文档保持一致。我们希望这一新功能在医学等领域为生成式 AI 的构建者和用户提供支持,在这些领域,应用开发者认为响应的准确性至关重要。”
谷歌今年夏天在其 AI 开发平台 Vertex AI 中引入了类似功能,允许客户通过使用来自第三方提供商、自己的数据集或谷歌搜索的数据来“固定”模型。
但专家警告说,这些固定方法并未解决幻觉的根本原因。
华盛顿大学研究新兴技术伦理影响的博士生 Os Keyes 表示:“试图从生成式 AI 中消除幻觉就像试图从水中消除氢一样。这是该技术运作的一个基本组成部分。”
文本生成模型会产生幻觉,因为它们实际上“什么都不知道”。它们是统计系统,识别一系列单词中的模式,并根据所训练的无数示例预测接下来的单词。
因此,模型的响应不是答案,而仅仅是对如果问题存在于训练集中将如何回答的预测。因此,模型往往在真相方面比较随意。一项研究发现,OpenAI 的 ChatGPT 有一半的时间会答错医学问题。
微软的解决方案是一对相互参照、类似于文案编辑的元模型,旨在突出并重写幻觉。
一个分类器模型寻找可能不正确、捏造或不相关的 AI 生成文本片段(幻觉)。如果检测到幻觉,分类器会引入第二个模型,即语言模型,该模型会尝试根据指定的“基础文档”纠正幻觉。
微软 Correction
微软发言人表示:“Correction 可以通过帮助应用开发者减少用户不满和潜在的声誉风险,显著提高 AI 生成内容的可靠性和可信度。需要注意的是,基础检测并不能解决‘准确性’问题,但有助于使生成式 AI 的输出与基础文档保持一致。”
Keyes 对此表示怀疑。
他说:“这可能会减少一些问题,但也会产生新的问题。毕竟,Correction 的幻觉检测库大概也有可能产生幻觉。”
当被要求提供 Correction 模型的背景资料时,发言人提到了微软研究团队最近的一篇论文,该论文描述了模型的预生产架构。但该论文省略了关键细节,例如用于训练模型的数据集。
专门研究 AI 的玛丽女王大学研究员 Mike Cook 认为,即使 Correction 如其所宣传的那样有效,它也有可能加剧围绕 AI 的信任和可解释性问题。该服务可能会捕获一些错误,但也可能让用户产生一种错误的安全感——误以为模型比实际情况更真实。
他说:“微软和 OpenAI、谷歌一样,造成了这样一个问题,即在模型经常出错的情况下,人们却依赖它们。微软现在所做的是在更高层次上重复这个错误。假设这将我们从 90%的安全性提高到 99%——问题从来都不是那 9%。总是在我们尚未检测到的 1%的错误中。”
Cook 还指出,微软捆绑 Correction 还有一个玩世不恭的商业角度。该功能本身是免费的,但用于检测幻觉以便 Correction 进行修订所需的“基础检测”每月仅免费提供多达 5000 个“文本记录”。之后每 1000 个文本记录收费 38 美分。
微软无疑面临着向客户——和股东——证明其 AI 投资值得的压力。
仅在第二季度,这家科技巨头就投入了近 190 亿美元的资本支出和设备,主要与 AI 相关。但该公司尚未从 AI 获得显著收入。本周,一位华尔街分析师下调了该公司的股票评级,理由是对其长期 AI 战略存在疑虑。
据 The Information 的一篇报道,由于性能和成本方面的担忧,许多早期采用者已经暂停了微软旗舰生成式 AI 平台 Microsoft 365 Copilot 的部署。对于一位使用 Copilot 进行微软团队会议的客户,据报道,该 AI 虚构了与会者,并暗示通话涉及从未实际讨论过的主题。
毕马威的一项民意调查显示,准确性和幻觉的可能性现在是企业在试用 AI 工具时最大的担忧。
Cook 说:“如果这是一个正常的产品生命周期,生成式 AI 仍将处于学术研发阶段,并致力于改进和了解其优缺点。相反,我们已经将其部署到了十几个行业。微软和其他公司让每个人都登上了他们令人兴奋的新火箭飞船,然后决定在前往目的地的途中建造起落架和降落伞。”


