生成式人工智能(genAI)与“幻觉”现象常常相伴而生,无论其背后的大型语言模型训练得有多好。因此,微软于周二推出了“校正”(Correction)功能,这是其现有 Azure AI Content Safety 工具中的一项新能力,称能够找出并纠正那些与用于训练大型语言模型(LLM)的数据源没有直接关联的生成式人工智能响应,即“幻觉”。
微软在一篇博客文章中表示:“让我们的客户能够理解并对无根据的内容和幻觉采取行动至关重要,尤其是在对人工智能生成内容的可靠性和准确性需求持续上升的情况下。”
尽管“附加工具”可以帮助再次检查 LLM 输出的准确性,但 Gartner 发现,在缓解幻觉问题方面,首先应采用更好的搜索技术进行检索增强生成(RAG)或基础定位。Gartner 杰出副总裁分析师 Jason Wong 表示:“我们建议客户在企业环境中使用搜索来为 LLM 响应提供信息基础。”
RAG 是一种通过向 LLM 提供一系列问题和答案来创建更定制化的生成式人工智能模型的方法,能够对查询做出更准确和特定的响应。
与谷歌一样,许多初创公司和其他云服务提供商一直在提供工具来监测、评估和纠正生成式人工智能结果中的问题,希望消除系统性问题。
微软的“校正”工具是包括 Azure AI Studio 中的评估、风险评估工具和用于设备上人工智能处理的混合 Azure AI Content Safety(AACS)嵌入式 SDK 在内的几项人工智能功能更新之一。
“校正”功能作为微软 Azure AI Content Safety API 的一部分可用,目前处于预览阶段;它可以与任何基于文本的生成式人工智能模型配合使用,包括 Meta 的 Llama 和 OpenAI 的 GPT-4o。
然而,分析师对“校正”在消除错误方面的效果持怀疑态度。Wong 表示:“幻觉问题仍然困扰着生成式人工智能的实施。所有的超大规模云服务提供商都推出了缓解幻觉的产品,但没有一家承诺完全消除它们,甚至无法达到一定的准确性阈值。”
微软于 3 月份首次推出了其“基础定位”检测功能。微软表示,要使用该功能,生成式人工智能应用程序必须连接到基础文档,这些文档用于文档摘要和基于 RAG 的问答场景。此后,微软表示,客户一直在询问,一旦检测到错误信息,除了阻止之外还能做什么。
微软高级产品营销经理 Katelyn Rothney 在一篇博客文章中写道:“这凸显了快速发展的生成式人工智能领域中的一个重大挑战,传统的内容过滤器在解决生成式人工智能幻觉带来的独特风险方面常常力不从心。”
基于公司现有的基础定位检测功能,“校正”工具允许 Azure AI Content Safety 在用户遇到生成式人工智能应用程序中的幻觉之前实时识别并纠正它们。它首先标记出无基础的内容。然后,Azure 安全系统实时启动重写过程,修改不准确的部分,以确保与关联的数据源保持一致。
Rothney 说:“这种校正发生在用户能够看到最初的无基础内容之前。最后,将校正后的内容返回给用户。”
像 OpenAI 的 GPT-4(微软人工智能的基础)、Meta 的 Llama 2 和谷歌的 PaLM 2 等生成式人工智能技术的幻觉本质,是由于它们的基础模型基于大量、无定形、非特定的参数或选项,算法可以从中选择答案。
虽然生成式人工智能在回答查询时通常非常准确,但它也容易从未被允许的地方收集信息,只是为了能够提供一个响应,任何响应。
事实上,LLM 被描述为随机鹦鹉——随着它们变得更大,它们在猜测或随机回答中变得更加随机。本质上,“下一个单词预测引擎”只是继续重复它们所学到的内容,但没有逻辑框架。
斯坦福大学今年的一项研究发现,生成式人工智能在回答法律问题时 75%的情况下会出错。研究发现:“例如,在衡量两个不同[法院]案件之间的先例关系的任务中,大多数 LLM 的表现并不比随机猜测好。”
Wong 表示,通过结合词汇和语义搜索来优化搜索基础设施,增加了仅将相关信息传递给 LLM 的可能性。
他说:“虽然这可以显著降低幻觉的可能性,但仍然无法消除它们。为 RAG 检索的信息质量在很大程度上决定了输出质量,因此内容管理和治理作为减少幻觉的起点至关重要。”


