一项来自纽约大学的新研究进一步突显了一个关键问题:大型语言模型(LLM)对错误信息的脆弱性。研究揭示,即使在LLM的训练集中存在极少量的虚假数据,也可能导致不准确信息的传播,从而引发对AI生成内容可靠性,特别是在医学等敏感领域的担忧。
该研究专注于医疗信息,表明当训练数据中的错误信息占比仅为0.001%时,生成的LLM就会受到影响。这一发现不仅涉及对AI模型的有意“投毒”,还包括已经存在于网络上并无意中包含在现有LLM训练集中的大量错误信息。
研究团队使用了常用作LLM训练基础的数据库The Pile进行实验。他们选择了三个医学领域:普通医学、神经外科和药物学,并从每个领域中选取了20个主题,共计60个主题。The Pile中包含了超过1400万条关于这些主题的引用,约占所有文档的4.5%。
为了测试错误信息的影响,研究人员使用GPT 3.5生成了“高质量”的医疗错误信息,并将其插入到修改后的The Pile版本中。他们创建了两种版本,其中0.5%或1%的相关信息被替换为错误信息。
结果令人震惊。不仅针对特定主题的模型更可能生成错误信息,而且在无关的医学主题上也产生了更多有害内容。
为了找到有害影响的下限,研究人员逐步减少了训练数据中的错误信息比例。然而,即使在0.001%的比例下,超过7%的LLM生成的回答仍然包含错误信息。这种低水平下的错误信息持续存在,尤其令人担忧,因为错误信息可以轻易地引入训练数据中。
研究人员指出,对拥有700亿参数的LLaMA 2 LLM进行类似的攻击,只需花费不到100美元生成40,000篇文章即可实现。这表明恶意行为者可以相对较低的成本操纵AI系统。
该研究还发现,标准的医学LLM性能测试未能检测到受损模型。“受损模型在所有五个医学基准测试中的表现与对照模型相当。”这缺乏有效的检测方法,给确保AI生成的医疗信息可靠性带来了巨大挑战。
尝试通过各种方法(如提示工程和指令微调)在训练后改进模型并未能有效缓解中毒数据的影响。
研究团队提出了一种潜在的解决方案。他们设计了一种算法,可以在LLM输出中识别医学术语,并将短语与验证过的生物医学知识图谱进行交叉参考。虽然这种方法并不完美,但它标记了高比例的医学错误信息,为未来医学领域的LLM验证提供了一条有希望的途径。
这项研究的影响不仅限于有意的数据投毒。研究人员承认,由于网络上广泛存在的错误信息,还存在“偶然”数据投毒的问题。随着LLM越来越多地融入互联网搜索服务,向公众传播错误信息的风险也在增加。
此外,即使是像PubMed这样的精心整理的医学数据库也不能免受错误信息的影响。医学文献中包含了一些已被更基于证据的方法取代的过时治疗方法和测试。
(全文结束)


