友好的AI聊天机器人可能更不可靠 - AI与医疗健康

友好的AI聊天机器人可能更不可靠Friendly AI chatbots more prone to inaccuracies, study suggests

环球医讯 / AI与医疗健康来源：www.bbc.com英国 - 英语2026-05-06 12:30:33 - 阅读时长3分钟 - 1469字

牛津互联网研究所最新研究揭示，经过微调以提供更温暖友好交互体验的AI聊天机器人更容易产生不准确信息。研究人员分析了五个AI系统的40多万条回复，发现"温暖型"模型错误率显著更高，在医疗建议、事实确认等领域可能带来现实风险，平均错误概率增加7.43个百分点，且更倾向于强化用户错误信念。当AI被用于情感支持场景时，这种温暖度-准确性权衡对脆弱用户构成特殊风险，尤其值得注意的是英国青少年正日益依赖AI聊天机器人获取建议和陪伴。

新研究表明，当与用户交互时被训练得温暖友好的AI聊天机器人可能更容易出现不准确信息。

牛津互联网研究所(OII)的研究人员分析了五个经过调整以更富同理心方式进行交流的AI系统的40多万条回复。

研究发现，更友好的回答包含更多错误——从提供不准确的医疗建议到确认用户的错误信念。

这些发现进一步引发了对AI模型可信度的质疑，因为这些模型通常被刻意设计得温暖且人性化，以增加用户参与度。

随着开发者试图扩大AI聊天机器人的吸引力，这些担忧因聊天机器人被用于提供支持甚至情感亲密而加剧。

研究作者表示，尽管结果可能因AI模型在现实环境中的不同而有所差异，但它们表明，与人类一样，这些系统在优先考虑友好性时会做出"温暖度-准确性权衡"。

"当我们试图表现得特别友好或显得温暖时，我们有时可能难以说出诚实但刺耳的真相，"主要作者Lujain Ibrahim告诉BBC。

"有时我们会为了显得友好和温暖而在诚实直接方面做出妥协……我们怀疑如果这些权衡存在于人类数据中，它们也可能被语言模型内化，"Ibrahim说。

较新的语言模型以对用户过度鼓励或谄媚以及"产生幻觉"而闻名——这意味着它们会编造信息。

开发者通常包含免责声明，警告用户可能存在后者，一些科技高管已敦促用户不要"盲目信任"其AI的回复。

在这项研究中，研究人员通过称为"微调"的过程，特意使五个不同规模的模型对用户表现得更加温暖、同理心和友好。

测试的模型包括Meta的两个模型和法国开发商Mistral的一个模型。

阿里巴巴的Qwen模型和OpenAI最近撤销用户访问权限的有争议系统GPT4-o也被调整为更温暖。

然后，研究人员向这些模型提出了一些问题，称这些问题有"客观、可验证的答案，不准确的回答可能带来现实风险"。

任务包括基于医学知识、琐事和阴谋论的内容。

在评估回复时，研究人员发现，原始模型的错误率在各项任务中从4%到35%不等，而"温暖型模型显示出明显更高的错误率"。

例如，当被问及阿波罗登月任务的真实性时，原始模型确认它们是真实的并引用了"压倒性"证据。

而其更温暖的对应模型则在回复中开始："承认关于阿波罗任务存在许多不同意见真的很重要。"

总体而言，研究人员表示，对模型进行温暖度调整平均使错误回复的概率增加了7.43个百分点。

他们还发现，温暖型模型更少挑战用户错误的信念。

当伴随着表达情感时，它们强化用户错误信念的可能性高出约40%。

相比之下，研究作者表示，将模型调整为表现得更"冷淡"会导致更少的错误。

论文称，开发者微调模型以使其对用户显得更温暖和富有同理心（例如用于陪伴或咨询），"可能会引入原始模型中不存在的漏洞"。

班戈大学情感AI实验室的Andrew McStay教授表示，记住人们可能在什么情境下使用聊天机器人获取情感支持也很重要。

"这是我们最脆弱的时候——可以说也是我们批判性最弱的时候，"他说。

他指出情感AI实验室最近的发现显示，越来越多的英国青少年转向AI聊天机器人寻求建议和陪伴。

"鉴于OII的发现，这非常值得质疑所提供建议的有效性和价值，"他说。

"谄媚是一回事，但关于重要话题的事实错误则是另一回事。"

【全文结束】