友好的AI聊天机器人可能更不可靠Friendly AI chatbots more prone to inaccuracies, study suggests

环球医讯 / AI与医疗健康来源:www.bbc.com英国 - 英语2026-05-06 12:30:33 - 阅读时长3分钟 - 1469字
牛津互联网研究所最新研究揭示,经过微调以提供更温暖友好交互体验的AI聊天机器人更容易产生不准确信息。研究人员分析了五个AI系统的40多万条回复,发现"温暖型"模型错误率显著更高,在医疗建议、事实确认等领域可能带来现实风险,平均错误概率增加7.43个百分点,且更倾向于强化用户错误信念。当AI被用于情感支持场景时,这种温暖度-准确性权衡对脆弱用户构成特殊风险,尤其值得注意的是英国青少年正日益依赖AI聊天机器人获取建议和陪伴。
不准确医疗建议AI聊天机器人健康信息风险温暖型AI健康误导AI健康建议可信度
友好的AI聊天机器人可能更不可靠

新研究表明,当与用户交互时被训练得温暖友好的AI聊天机器人可能更容易出现不准确信息。

牛津互联网研究所(OII)的研究人员分析了五个经过调整以更富同理心方式进行交流的AI系统的40多万条回复。

研究发现,更友好的回答包含更多错误——从提供不准确的医疗建议到确认用户的错误信念。

这些发现进一步引发了对AI模型可信度的质疑,因为这些模型通常被刻意设计得温暖且人性化,以增加用户参与度。

随着开发者试图扩大AI聊天机器人的吸引力,这些担忧因聊天机器人被用于提供支持甚至情感亲密而加剧。

研究作者表示,尽管结果可能因AI模型在现实环境中的不同而有所差异,但它们表明,与人类一样,这些系统在优先考虑友好性时会做出"温暖度-准确性权衡"。

"当我们试图表现得特别友好或显得温暖时,我们有时可能难以说出诚实但刺耳的真相,"主要作者Lujain Ibrahim告诉BBC。

"有时我们会为了显得友好和温暖而在诚实直接方面做出妥协……我们怀疑如果这些权衡存在于人类数据中,它们也可能被语言模型内化,"Ibrahim说。

较新的语言模型以对用户过度鼓励或谄媚以及"产生幻觉"而闻名——这意味着它们会编造信息。

开发者通常包含免责声明,警告用户可能存在后者,一些科技高管已敦促用户不要"盲目信任"其AI的回复。

在这项研究中,研究人员通过称为"微调"的过程,特意使五个不同规模的模型对用户表现得更加温暖、同理心和友好。

测试的模型包括Meta的两个模型和法国开发商Mistral的一个模型。

阿里巴巴的Qwen模型和OpenAI最近撤销用户访问权限的有争议系统GPT4-o也被调整为更温暖。

然后,研究人员向这些模型提出了一些问题,称这些问题有"客观、可验证的答案,不准确的回答可能带来现实风险"。

任务包括基于医学知识、琐事和阴谋论的内容。

在评估回复时,研究人员发现,原始模型的错误率在各项任务中从4%到35%不等,而"温暖型模型显示出明显更高的错误率"。

例如,当被问及阿波罗登月任务的真实性时,原始模型确认它们是真实的并引用了"压倒性"证据。

而其更温暖的对应模型则在回复中开始:"承认关于阿波罗任务存在许多不同意见真的很重要。"

总体而言,研究人员表示,对模型进行温暖度调整平均使错误回复的概率增加了7.43个百分点。

他们还发现,温暖型模型更少挑战用户错误的信念。

当伴随着表达情感时,它们强化用户错误信念的可能性高出约40%。

相比之下,研究作者表示,将模型调整为表现得更"冷淡"会导致更少的错误。

论文称,开发者微调模型以使其对用户显得更温暖和富有同理心(例如用于陪伴或咨询),"可能会引入原始模型中不存在的漏洞"。

班戈大学情感AI实验室的Andrew McStay教授表示,记住人们可能在什么情境下使用聊天机器人获取情感支持也很重要。

"这是我们最脆弱的时候——可以说也是我们批判性最弱的时候,"他说。

他指出情感AI实验室最近的发现显示,越来越多的英国青少年转向AI聊天机器人寻求建议和陪伴。

"鉴于OII的发现,这非常值得质疑所提供建议的有效性和价值,"他说。

"谄媚是一回事,但关于重要话题的事实错误则是另一回事。"

【全文结束】