荷兰和英国的研究人员发现,AI对科学论文的摘要比原始作者或专家评审员更有可能“过度概括”结果。这项分析发表在《皇家学会开放科学》杂志上,表明旨在通过将科学知识重新表述为“易于理解的语言”来帮助传播科学知识的AI摘要,往往会忽略研究中的“不确定性、局限性和细微差别”,通过“省略限定词”和“简化文本”来实现这一点。
报告特别警告说,当应用于医学研究时,这种做法尤其“危险”。报告称:“如果聊天机器人生成的摘要忽略了关于临床试验结果普遍性的限定词,依赖这些聊天机器人的从业者可能会开具不安全或不适当的治疗方案。”
研究团队分析了近5,000篇由AI生成的摘要,涵盖了200篇期刊摘要和100篇完整文章。主题范围从咖啡因对心律不齐的影响、减肥手术降低癌症风险的好处,到虚假信息和政府通信对居民行为和人们对气候变化的看法的影响。
较旧的AI应用程序(如OpenAI的GPT-4和Meta的Llama 2,均于2023年发布)生成的摘要包含一般性结论的可能性约为原始摘要的2.6倍。去年5月发布的ChatGPT-4o生成的摘要包含一般性结论的可能性增加了9倍,而去年12月发布的Llama 3.3生成的摘要包含一般性结论的可能性则增加了39倍。
当指示AI“忠实于源材料”并“不引入任何不准确之处”时,生成的摘要包含一般性结论的可能性反而比简单要求AI“提供主要发现的摘要”时高约两倍。这表明生成式AI可能容易受到“讽刺反弹”效应的影响,即指示不要思考某事物(例如“粉红色的大象”)会自动引发对该事物的联想。
AI应用程序还似乎容易出现诸如“灾难性遗忘”等问题,即新信息会取代先前获得的知识或技能,以及“无根据的信心”,即“流畅性”优先于“谨慎和精确”。
研究人员推测,微调这些AI工具可能会加剧这些问题。当AI应用程序“优化为更有帮助”时,它们变得不太愿意“对其参数知识之外的问题表达不确定性”。论文解释说,一个提供“非常精确但复杂答案”的工具可能会从人类评估者那里获得较低的评分。
论文中引用的一个摘要将一种糖尿病药物“优于安慰剂”的发现重新解释为对该“有效且安全的治疗选项”的认可。论文指出:“这种……通用概括可能会误导从业者使用不安全的干预措施。”
论文提出了五种策略来“减轻AI摘要中过度概括的风险”。其中包括使用AI公司Anthropic的Claude系列机器人,这些机器人被认为生成了“最忠实”的摘要。另一个建议是降低机器人的“温度”设置。“温度”是一个可调节的参数,用于控制生成文本的随机性。
乌特勒支大学理论哲学助理教授Uwe Peters是该报告的共同作者,他表示,过度概括“频繁且系统地发生”。他说,这些发现意味着即使是AI对发现的细微变化也可能“误导用户并放大错误信息,尤其是在输出看起来经过精心打磨且可信的情况下”。
他补充说,科技公司应评估其模型是否存在这种倾向,并公开分享这些信息。对于大学来说,这表明工作人员和学生迫切需要更强的AI素养。
(全文结束)


