对马克西姆·托帕兹来说,这是一个已经变得常规的流程。
哥伦比亚大学护理学院的这位副教授早已习惯使用人工智能工具来润色科研论文的语法、格式和其他细节。但在提交最新研究成果几周后,他即将发表的学术期刊对一篇参考文献提出了质疑。托帕兹使用的AI工具悄然将一个虚构的来源插入了他的工作中。
"我感到非常尴尬,"领导哥伦比亚大学医疗保健AI应用开发团队的托帕兹告诉《财富》杂志。
"我是一名AI研究员。我了解幻觉,"他说。"如果这种情况发生在我这样的人工智能专家身上,那对其他人又会发生什么呢?"
这次差点出错的经历促使托帕兹展开调查,以了解专家们被AI悄悄愚弄的频率。结果发现,这种情况相当普遍。
在本月早些时候发表在《柳叶刀》上的一项研究中,托帕兹和他的同事们审查了PubMed Central(全球临床医生和研究人员使用的中央存储库)索引的近250万篇生物医学论文和9700万条引用。他们发现近3000篇论文中埋藏了4000多个伪造的参考文献。并非所有这些参考文献都是由AI生成的,但托帕兹表示,伪造来源的稳步上升在2024年变得"陡峭",这恰逢AI工具在研究中开始更广泛使用之后。
"现在有理由认为AI与这些伪造参考文献高度相关,"他说。
在过去的三年中,生物医学文献中伪造参考文献的比例增长了12倍以上。2023年,每2828篇论文中就有一篇包含至少一个虚假参考文献,而到去年这一比例已上升至每458篇论文一篇。研究人员发现,在2026年的前七周内,每277篇论文中就有一篇包含至少一个不存在的参考文献。
"我认为这只是冰山一角,"托帕兹说。
当AI模型优先考虑词语模式而非准确性时,就会产生幻觉。这些幻觉通常无害,但当AI错误开始渗透学术文献时,情况就不同了,因为幻觉有可能破坏科学过程。
医学是一个建立在自身基础上的领域。临床试验引用早期研究;系统性综述随后汇总这些试验,而医疗指南最终引用这些综述。医生和护士在决定如何治疗患者时依赖这些指南。在这一过程开始时植入的伪造研究不会停留在那里。
"这是证据链,这是我们照顾和治疗人们的方式。如果你把虚构的研究放在堆栈的底部,整个结构都会继承它,"托帕兹说。
"我们已经看到论文工厂的文章被纳入指导临床指南的系统性综述中,"他补充道。"当一份指南文件引用了一份部分参考文献列表虚构的论文时,基于证据的治疗决策链就会受到损害。"
AI错误无处不在
自四年前ChatGPT首次登场以来,人们就已知AI容易产生幻觉,当时学生们开始大胆提交以自己名义的、由AI生成的虚假论文。但随着各种工具、代理和扩展现在几乎在每个专业中无处不在,即使是各自领域的专家也正被AI所迷惑。
以史蒂文·罗森鲍姆为例。这位作家兼电影制作人本周因《纽约时报》发现其新书《真相的未来:AI如何重塑现实》中充斥着大量不准确的引述而登上新闻头条,但却是出于错误的原因。
该书收录了包括《大西洋月刊》首席执行官尼古拉斯·汤普森在内的知名记者的推荐语,以及来自菲律宾的诺贝尔和平奖得主玛丽亚·雷斯的序言。据《纽约时报》报道,该书"受到了热烈欢迎"。
罗森鲍姆的书中包含半打以上错误归因或完全虚构的引述,显然这些是由他在致谢中披露使用的AI工具生成的。在给《纽约时报》的一份声明中,罗森鲍姆承认了这些错误,称这一事件是"对AI辅助研究和验证风险的一个警示"。
鉴于AI在专家级知识工作中的广泛使用,这类情况可能是不可避免的。包括《财富》在内的多家新闻机构现在正在试点在报道中使用AI工具。调查显示,超过一半的法律专业人士正在使用AI工具起草简报和备忘录。美国医学会最近的一份报告发现,现在有超过80%的医生在职业中使用AI来总结研究和准备临床文件,这一比例自2023年以来已经翻了一倍多。即使是诺贝尔奖得主,如文学奖得主奥尔加·托卡尔丘克,也承认在工作中使用AI。
至于研究,去年一项由美国医学期刊进行的研究发现,其36%的论文包含至少一些AI生成的文本,尽管只有9%的研究人员在提交手稿前被提示时披露了这一点。另一项最近的研究发现,超过一半的研究人员可能在同行评审他人工作时使用AI工具。
但事实证明,各自领域的专家同样容易受骗。托帕兹对生物医学研究中幻觉的研究加入了一堆不断增长的轶事和数据集,记录了令人尴尬的错误,包括法律分析师达米安·夏洛坦编制的1459项引用AI生成不准确内容的法律裁决。在他一年前启动该项目之前,法律案件中的AI幻觉每月出现两三次。现在,每天大约有五起。
当专家出错时
由AI生成的虚假研究论文在学术界已经是一个问题,越来越难以分辨,并威胁要压垮同行评审系统。但由人类制作的真实研究中的幻觉参考文献可能同样普遍,甚至更难追踪。
托帕兹追踪的绝大多数论文只包含一两个伪造的引用,而学术研究通常需要发表几十个参考文献,这表明研究中大多数AI幻觉案例是无意的。
但托帕兹表示,出版行业可能还没有准备好应对激增的虚假参考文献。各期刊的验证方法各不相同,虽然有些使用软件检查参考文献并扫描AI生成的内容,但执行情况差异很大。也没有简单的方法可以回溯性地筛查证据链以找到原始的虚假研究或参考文献。到目前为止,很少有期刊能够识别幻觉,因为托帕兹的分析发现,在他审核时,98.4%包含虚假参考文献的研究尚未被出版商撤回。
这是该领域人士所称的科学"可重复性危机"的一部分,在AI时代,这一危机被不断涌入的无用或不可靠的AI生成内容所加剧,这些内容现在已经渗透到学术文献中。但在其他依赖可复制输出的领域,情况类似。报纸上的故事推动对话并构成未来调查的基础。法律裁决最终会被律师和其他案件中的学者引用。
托帕兹表示,AI本身不一定是罪魁祸首,他欣然在自己的工作中使用它。"问题是未经验证的AI输出进入了永久记录,"他说。"解决方法不是停止使用这些工具,而是将验证构建到工作流程中。"
"我们等待建立验证机制的时间越长,清理起来就越困难,"他补充道。
AI幻觉不在乎用户对主题的熟悉程度。这些错误被设计得看起来真实,并且它们越来越善于隐藏。领域越重要——无论是医学、法律还是新闻业——当错误未被发现时,后果就越危险。
【全文结束】

