AI聊天机器人过度简化科学研究并忽略关键细节——最新模型尤其如此AI chatbots oversimplify scientific studies and gloss over critical details — the newest models are especially guilty

环球医讯 / AI与医疗健康来源:www.livescience.com美国 - 英语2025-07-30 20:16:43 - 阅读时长4分钟 - 1820字
一项新研究发现,更先进的AI聊天机器人更容易过度简化复杂的科学发现,基于其训练数据的解读方式,可能会误导科学和医学信息的传递。研究人员警告,这种趋势可能导致医学专业人士做出错误的治疗决策,并对公众科学理解产生负面影响。
AI聊天机器人科学研究过度简化过度泛化医疗建议不安全治疗选择大语言模型偏见研究局限性科学误解
AI聊天机器人过度简化科学研究并忽略关键细节——最新模型尤其如此

更先进的AI聊天机器人更有可能过度简化复杂的科学发现,这是基于它们对其训练数据的解读方式得出的结论,一项新研究指出。

研究人员发现,ChatGPT、Llama 和 DeepSeek 的版本在分析 4,900 篇研究论文摘要时,比人类专家更有可能过度简化科学发现,概率高达五倍。

当被要求提供准确信息时,聊天机器人比简单总结时更有可能泛化研究发现两倍。测试还显示,与早期版本相比,较新的聊天机器人版本出现过度泛化的现象有所增加。

研究人员于4月30日在《英国皇家学会开放科学》(Royal Society Open Science)期刊上发表了他们的研究结果。

“我认为最大的挑战之一是,泛化可能看起来无害,甚至有益,直到你意识到它改变了原始研究的含义,”该研究作者、德国波恩大学的博士后研究员 Uwe Peters 在给《Live Science》的电子邮件中写道。“我们在这里补充了一种系统的方法,用于检测模型在原始文本中何时进行了超出合理范围的泛化。”

这就像是一台镜头损坏的复印机,后续的复印件会比原件更大、更清晰。大语言模型(LLMs)通过一系列计算层来过滤信息。在这个过程中,某些信息可能会丢失,或以微妙的方式改变含义。科学论文尤其如此,因为科学家们经常需要在其研究结果中包含限定条件、背景信息和局限性。提供一个既简洁又准确的研究总结变得非常困难。

“早期的LLMs更倾向于回避回答难题,而更新、更大、更具指导性的模型则经常产生看似权威但有缺陷的误导性回答,而不是拒绝回答。”研究人员写道。

在研究中的一个例子中,DeepSeek 在一次摘要中生成了一个医疗建议,将短语“was safe and could be performed successfully”改为“is a safe and effective treatment option”。

另一项测试显示,Llama 在治疗青少年2型糖尿病的药物有效性范围上进行了扩展,去掉了关于药物剂量、使用频率和药物效果的信息。

如果这种由聊天机器人生成的摘要被发表,可能会导致医疗专业人员在有效范围之外开药。

不安全的治疗选择

在这项新研究中,研究人员试图回答关于10个最流行的大语言模型的问题(包括四个版本的 ChatGPT、三个版本的 Claude、两个版本的 Llama 和一个版本的 DeepSeek)。

他们想看看,当给定一个人类对学术期刊文章的摘要,并被提示进行总结时,LLM是否会过度泛化这个摘要,如果是的话,是否要求其提供更准确的答案会产生更好的结果。团队还旨在发现LLM是否比人类更容易过度泛化。

研究结果显示,LLMs(除了Claude,它在所有测试标准中表现良好)在被提示要求准确性时,产生过度泛化结果的可能性是两倍。与人类生成的摘要相比,LLM的摘要有近五倍的可能性得出泛化的结论。

研究人员还指出,LLMs将量化数据转化为通用信息是常见的过度泛化形式,也最可能导致不安全的治疗选择。

根据人工智能和医疗保健交叉领域的专家的说法,这些转变和过度泛化导致了偏见。

“这项研究强调了偏见也可以采取更微妙的形式——比如主张范围的悄然扩大,”临床心理健康人工智能技术公司Limbic的AI和研究副总裁Max Rollwage在给Live Science的电子邮件中说道。“在医学等领域,LLM摘要已经是工作流程中的一部分。这使得检查这些系统的性能以及它们的输出是否可以被信任以忠实代表原始证据变得尤为重要。”

Rollwage说,这些发现应该促使开发人员创建工作流程防护措施,以识别过度简化和关键信息的遗漏,然后再将研究成果交给公众或专业群体。

虽然这项研究很全面,但也存在局限性;未来的研究将受益于将测试扩展到其他科学任务和非英语文本,以及测试哪些类型的科学主张更容易被过度泛化,人工智能开发公司Private AI的联合创始人兼首席执行官Patricia Thaine表示。

Rollwage还指出,“更深入的提示工程分析可能已经改善或澄清了结果”,而Peters则认为,随着我们对聊天机器人的依赖增加,更大的风险即将到来。

“像ChatGPT、Claude和DeepSeek这样的工具正越来越多地成为人们理解科学发现的一部分,”他写道。“随着它们的使用继续增长,这在公众信任和科学素养已经受到压力的时刻,构成了科学大规模误解的真实风险。”

【全文结束】

大健康
大健康