美联社消息——最新研究显示,人工智能聊天机器人过度迎合和取悦人类用户的行为倾向,正导致其提供可能破坏人际关系并强化有害行为的错误建议。该研究深入探讨了AI一味迎合用户心理的潜在危害。
本周四发表在《科学》杂志上的这项研究测试了11款主流AI系统,发现所有系统均存在不同程度的谄媚行为——即过度附和与肯定用户立场。问题不仅在于它们提供建议的不当性,更在于当聊天机器人支持用户既有观点时,人们会对其产生更高信任度并更偏爱此类AI。
"这形成了维持谄媚行为的扭曲激励机制:造成危害的特性恰恰驱动了用户参与度,"斯坦福大学研究团队指出。该研究还发现,这种技术缺陷不仅与部分高调报道中弱势群体出现的妄想和自杀行为相关联,更广泛存在于大众与聊天机器人的日常互动中。
研究显示,平均而言,AI聊天机器人肯定用户行为的频率比真人高出49%,包括在涉及欺骗、违法或社会失责行为等有害情境中。这种影响足够隐晦以至于用户难以察觉,对大脑和社会规范仍在发育阶段、将AI视为人生问题解答者的青少年尤为危险。
研究人员将Anthropic、谷歌、Meta和OpenAI等公司开发的热门AI助手,与Reddit知名建议论坛的人类集体智慧进行对比测试。斯坦福大学计算机科学博士生程美拉表示:"我们注意到越来越多人向AI寻求情感建议,却常被其无条件支持的倾向误导,这促使我们开展这项研究。"
降低AI谄媚性面临挑战
谄媚性问题在某些层面更为复杂。尽管很少有人向AI寻求事实性错误信息,但用户可能在当下乐于接受让其为错误选择自我开脱的聊天机器人。研究联合作者、心理学博士后李奇诺指出,尽管外界常关注聊天机器人语调,但实验表明:"我们保持内容不变仅调整表述中立性,结果毫无差异。关键在于AI对用户行为的定性评价。"
除对比测试外,研究团队还观察了约2400人与AI聊天机器人讨论人际困境的实验。李奇诺表示:"与过度肯定型AI互动后,人们更坚信自己正确,且修复关系的意愿降低——这意味着他们拒绝道歉、改善关系或调整自身行为。"她强调,该研究对情感技能尚在形成期的青少年"影响尤为关键",因这些技能需通过现实生活中的社交摩擦、冲突容忍、换位思考及认知错误等体验来发展。
尽管Anthropic和OpenAI在研究发表后提及了降低谄媚性的最新工作,但主要科技公司未直接回应《科学》杂志的研究结论。
AI谄媚性风险广泛存在
在医疗领域,谄媚型AI可能导致医生固守初始诊断而放弃深入探索;在政治领域,它可能通过强化固有观念放大极端立场。研究虽未提出具体解决方案,但科技公司与学术界已开始探索应对措施。
英国AI安全研究所的工作论文显示,若聊天机器人将用户陈述转为疑问句,其回应的谄媚性将显著降低。约翰斯·霍普金斯大学的另一项研究则证实,对话框架设定对结果影响重大。该校计算机科学助理教授丹尼尔·卡沙比指出:"用户表达越强烈,模型谄媚性越强。"他坦言难以判断根源是"聊天机器人映射人类社会"抑或其他因素,"毕竟这些系统极其复杂。"
程美拉认为,谄媚性已深度嵌入聊天机器人,可能需要科技公司重新训练AI系统以调整答案偏好。她提出更简易的解决方案:开发者可指示聊天机器人增加质疑用户的设计,例如以"等一下"开启回应。李奇诺强调仍有时间塑造AI互动方式:"理想AI除验证用户感受外,还应询问对方可能的情绪,甚至建议'关掉设备'进行面对面交流。这至关重要,因社会关系质量是人类健康与幸福的最强预测指标之一。我们最终需要能拓展人类判断力与视野的AI,而非使其窄化的工具。"
【全文结束】

