研究人员发现仅0.001%的AI训练数据错误信息即可导致整个AI系统受损

Researchers discover if 0.001% of AI training data misinformation the AI becomes corrupted

美国英语科技

新闻源：TweakTown

2025-01-16 16:00:00阅读时长2分钟729字

一组研究人员发现，如果用于训练AI的数据中仅有0.001%是错误信息，整个AI系统可能会受到损害。

简而言之：研究人员发现，即使AI训练数据中有0.001%的错误信息，也足以破坏整个系统。

像ChatGPT、微软的Copilot或谷歌的Gemini这样的基于人工智能的工具，已知会出现“幻觉”，即输出不正确的信息。但这些幻觉的原因是什么？AI何时会完全受损？

一篇发表在科学期刊《Nature Medicine》上的新论文研究了支持AI工具的技术，称为大型语言模型（LLMs）。研究团队发现，如果一个LLM在一个包含仅0.001%错误信息的数据集上进行训练，可能会危及整个模型。考虑到使用LLM回答医疗问题或处理患者病情时的风险，这一发现尤为引人注目。

研究人员通过故意向常用的LLM训练数据集“The Pile”中注入“AI生成的医疗错误信息”得出了这些结论。“The Pile”过去曾引发争议，因为它包含了数十万份YouTube视频的文字记录，这些记录随后被苹果、NVIDIA、Salesforce和Anthropic等大型科技公司用于训练LLM。此外，使用YouTube视频文字记录来训练LLM违反了YouTube的服务条款。

“用100亿个训练令牌中的100万个（0.001%）替换为疫苗错误信息，导致有害内容增加了4.8%，这是通过注入2000篇恶意文章（大约1500页），我们只需花费5美元生成的，”研究人员写道。

“AI开发者和医疗提供者在开发医疗LLM时必须意识到这一漏洞。在更好的保护措施开发出来之前，LLM不应用于诊断或治疗任务，且在LLM能够在关键医疗环境中被信任之前，还需要更多的安全研究。”

“鉴于目前对改进数据来源和透明LLM开发的呼声，我们希望提高人们对从网络抓取数据训练的LLM带来的新兴风险的认识，特别是在医疗保健领域，错误信息可能会危及患者安全，”研究团队写道。

(全文结束)

声明：本文仅代表作者观点，不代表本站立场，如有侵权请联系我们删除。

本页内容撰写过程部分涉及AI生成（包括且不限于题材，素材，提纲的搜集与整理），请注意甄别。