《自然》杂志采访了使用人工智能的研究人员,了解其讨好用户的倾向如何影响工作——以及他们采取了哪些措施来缓解这一问题。
一项本月发表的分析发现,人工智能(AI)模型比人类更易谄媚,程度高出50%。
该研究作为预印本发布在arXiv服务器上,测试了11种广泛使用的大型语言模型(LLMs)对超过11,500条寻求建议的查询的响应,其中包括许多描述错误行为或危害的查询。
AI聊天机器人——包括ChatGPT和Gemini——常常为用户加油打气,给予过度奉承的反馈,并调整回应以附和用户观点,有时以牺牲准确性为代价。分析AI行为的研究人员表示,这种被称为谄媚的讨好倾向,正在影响他们在科学研究中使用AI的方式,涉及从头脑风暴、生成假设到推理和分析等任务。
“谄媚本质上意味着模型信任用户说出正确的事情,”苏黎世联邦理工学院(Swiss Federal Institute of Technology in Zurich)的数据科学博士生Jasper Dekoninck表示。“知道这些模型具有谄媚性,每当我给它们一个问题时都格外警惕,”他补充道,“我总是反复检查它们写的所有内容。”
马萨诸塞州波士顿哈佛大学(Harvard University in Boston, Massachusetts)的生物医学信息学研究员Marinka Zitnik表示,AI的谄媚“在生物学和医学背景下非常危险,因为错误的假设可能带来真实成本”。
讨好型行为
在10月6日发布在预印本服务器arXiv上的一项研究中,Dekoninck及其同事测试了AI谄媚是否影响该技术解决数学问题的性能。研究人员设计了实验,使用今年举办的比赛中504道数学题,修改每个定理陈述以引入细微错误。然后要求四个大型语言模型为这些有缺陷的陈述提供证明。
作者认为,如果模型未能检测到陈述中的错误并继续虚构一个证明,则其回答是谄媚的。
GPT-5表现出最低的谄媚行为,29%的时间生成谄媚答案。DeepSeek-V3.1的谄媚行为最高,70%的时间生成谄媚答案。尽管大型语言模型有能力发现数学陈述中的错误,但它们“只是假设用户说的正确”,Dekoninck说。
当Dekoninck及其团队修改提示,要求每个大型语言模型在证明前检查陈述是否正确时,DeepSeek的谄媚答案减少了34%。
Dekoninck表示,该研究“并不能真正反映这些系统在实际性能中的使用情况,但它表明我们需要非常小心”。
英国牛津大学(University of Oxford)研究数学和计算机科学的博士生Simon Frieder表示,这项工作“表明谄媚是可能的”。但他补充说,AI谄媚在人们使用AI聊天机器人学习时表现最为明显,因此未来研究应探索“人类学习数学时典型的错误”。
不可靠的助手
研究人员告诉《自然》杂志,AI谄媚已渗透到他们使用大型语言模型的许多任务中。
科罗拉多大学安舒茨医学校区(University of Colorado Anschutz Medical Campus)奥罗拉分校的AI研究员Yanjun Gao使用ChatGPT来总结论文并整理思路,但表示这些工具有时会不检查来源就镜像她的输入。“当我与大型语言模型所说的观点不同时,它会跟随我说的话,而不是回到文献中去尝试理解它,”她补充道。
Zitnik及其同事在使用多智能体系统时观察到了类似模式,该系统整合了多个大型语言模型来执行复杂的多步骤流程,例如分析大型生物数据集、识别药物靶点和生成假设。
【全文结束】


