纽约大学朗格尼健康中心研究团队揭示大语言模型数据污染的易操作性

Test of 'poisoned dataset' shows vulnerability of LLMs to medical misinformation

美国英语科技与健康
新闻源:MSN
2025-01-11 23:00:00阅读时长2分钟793字
大语言模型数据污染医疗数据错误信息纽约大学朗格尼健康中心医疗查询模型训练数据检测自然医学数据扭曲

纽约大学朗格尼健康中心的一组医学研究人员和人工智能专家通过实验展示了如何轻易地污染用于训练大语言模型(LLM)的数据池。

在发表于《自然医学》杂志上的这项研究中,该团队生成了数千篇包含错误信息的文章,并将它们插入到一个AI训练数据集中。随后,他们进行了通用的大语言模型查询,以观察错误信息出现的频率。

先前的研究和传闻证据表明,像ChatGPT这样的大语言模型给出的答案并不总是正确的,有时甚至完全偏离事实。之前的研究还显示,在知名网站上故意植入的错误信息可能会出现在通用聊天机器人的查询结果中。在这项新的研究中,研究团队希望了解恶意行为者污染大语言模型响应的难易程度。

为了探究这一点,研究人员使用ChatGPT生成了15万份包含不正确、过时和虚假数据的医疗文档。然后,他们将这些生成的文档添加到一个测试版的AI医疗训练数据集中。接着,他们使用这个测试版的训练数据集对几个大语言模型进行了训练。最后,他们让这些大语言模型生成对5400个医疗查询的回答,由人类专家进行审查,寻找受污染数据的例子。

研究团队发现,仅替换训练数据集中的0.5%的数据为受污染文档后,所有测试模型生成的医疗错误答案比在使用被污染数据集训练前更多。例如,所有的大语言模型都报告称新冠疫苗的有效性尚未得到证实。大多数模型还错误地识别了几种常见药物的用途。

研究团队还发现,即使将测试数据集中的受污染文档数量减少到0.01%,仍有10%的大语言模型回答包含错误数据(进一步减少到0.001%时,仍然有7%的回答是错误的)。这表明,在现实世界中,只需少量此类文档发布在网站上,就足以扭曲大语言模型给出的答案。

研究团队随后编写了一个能够识别大语言模型中医疗数据的算法,并通过交叉引用来验证数据,但他们指出,实际上没有可行的方法来检测和移除公共数据集中的错误信息。

更多信息:Daniel Alexander Alber等人,《医学大语言模型容易受到数据污染攻击》,《自然医学》(2025)。DOI: 10.1038/s41591-024-03445-1


(全文结束)

声明:本文仅代表作者观点,不代表本站立场,如有侵权请联系我们删除。

本页内容撰写过程部分涉及AI生成(包括且不限于题材,素材,提纲的搜集与整理),请注意甄别。