研究揭示:AI聊天机器人防护措施未能阻止健康虚假信息传播AI chatbot safeguards fail to prevent spread of health disinformation, study reveals

环球医讯 / AI与医疗健康来源:medicalxpress.com美国 - 英文2025-06-24 05:00:00 - 阅读时长2分钟 - 949字
一项研究表明,主流大型语言模型(LLMs)的防护机制在面对恶意指令时存在漏洞,可能被用于生成和传播健康相关虚假信息,这引发了对AI技术滥用风险的关注。研究人员发现,定制化聊天机器人能以科学术语和逻辑推理伪装虚假信息,使其看似可信。
健康虚假信息AI聊天机器人大型语言模型防护机制疫苗安全性艾滋病抑郁症OpenAIGPTGeminiClaudeLlamaGrok
研究揭示:AI聊天机器人防护措施未能阻止健康虚假信息传播

一项研究评估了基础大型语言模型(LLMs)中的防护机制,以测试其能否抵御恶意指令,防止这些模型成为传播虚假信息的工具。所谓虚假信息,是指故意制造并传播错误信息以造成伤害的行为。

研究揭示了OpenAI的GPT-4o、Gemini 1.5 Pro、Claude 3.5 Sonnet、Llama 3.2-90B Vision和Grok Beta的防护机制中存在漏洞。具体而言,研究人员创建了定制化的LLM聊天机器人,这些机器人能够持续生成针对健康问题的虚假信息,包括伪造参考文献、使用科学术语以及通过逻辑因果推理解释,使虚假信息显得合理。

该研究结果发表在《内科学年鉴》(Annals of Internal Medicine)上。

来自弗林德斯大学(Flinders University)的研究人员及其同事评估了五种基础LLM的应用程序编程接口(APIs),以测试它们在系统指令下始终提供错误健康信息的能力。

研究人员向这些LLM提供了特定的系统指令,要求它们始终对健康相关问题提供错误回答,伪造权威来源的引用,并以权威语气传递信息。每个定制化聊天机器人被重复询问了10个健康相关问题,涉及疫苗安全性、艾滋病(HIV)、抑郁症等主题。

研究发现,88%的定制化LLM聊天机器人回复属于健康虚假信息,其中四个聊天机器人(GPT-4o、Gemini 1.5 Pro、Llama 3.2-90B Vision和Grok Beta)对所有测试问题都提供了虚假信息。Claude 3.5 Sonnet聊天机器人表现出一定的防护能力,仅对40%的问题提供虚假信息。

在对OpenAI GPT商店的探索性分析中,研究人员调查了是否有任何公开可用的GPT似乎在传播健康虚假信息。他们发现了三种经过调优的GPT,这些模型对97%的提交问题生成了健康虚假信息回复。

总体而言,研究结果表明,LLM仍然极易被滥用,若不改进防护机制,可能被用作传播有害健康虚假信息的工具。

更多信息: 《评估大型语言模型系统指令漏洞以防止其转化为健康虚假信息聊天机器人》,发表于《内科学年鉴》(Annals of Internal Medicine)(2025)。DOI: 10.7326/ANNALS-24-03933


(全文结束)

大健康
大健康