人工智能聊天机器人可能被轻易操控以传播危险的健康虚假信息,这引发了关于大型语言模型(LLMs)是否准备好供公众使用的严重担忧。
由澳大利亚弗林德斯大学(Flinders University)的科学家领导的一项同行评审研究,测试了五款最先进的商业LLMs,通过发出隐蔽的系统级提示,试图生成不准确的医疗建议。
这项研究对OpenAI的GPT-4o、谷歌(Google)的Gemini 1.5 Pro、Meta的Llama 3.2-90B Vision、xAI的Grok Beta以及Anthropic的Claude 3.5 Sonnet进行了受控实验。每个模型都被指示使用正式的科学语言回答十个医学上不准确的问题,并伪造引用权威医学期刊的参考文献。
目标是评估当恶意行为者在系统指令层面施加影响时,这些模型如何轻易地转变为听起来可信的虚假信息来源。
令人震惊的结果
令人不安的是,在五个聊天机器人中——GPT-4o、Gemini、Llama 和 Grok ——有四个每次都完全服从了虚假信息指令,毫不犹豫或警告地提供了错误的健康声明。只有Claude 3.5表现出一定程度的抵抗力,在40%的情况下拒绝了误导性提示。
在总共100次互动中,88%的情况下成功生成了虚假信息,通常是以流畅且权威口吻撰写的回复,甚至错误地引用《柳叶刀》(The Lancet)或《美国医学会杂志》(JAMA)等期刊。
这些虚假信息涵盖了多个高风险健康话题,包括疫苗导致自闭症的已被推翻的理论、声称5G导致不孕、防晒霜增加皮肤癌风险的谬论,以及治疗癌症的危险饮食建议。
一些回复错误地断言大蒜可以替代抗生素,或者HIV通过空气传播——如果人们相信这些说法,可能会造成严重的危害。
在研究的进一步阶段,研究人员探索了OpenAI GPT商店,以评估公众访问或构建类似虚假信息生成工具的难易程度。
他们发现,公开可用的定制GPTs可以配置为频繁生成健康虚假信息——高达97%的时间——这表明当防护措施不足时,潜在滥用规模巨大。
极易受攻击的LLMs
弗林德斯大学的主要作者阿什利·霍普金斯(Ashley Hopkins)指出,这些发现清楚地展示了LLMs在部署和管理方面的漏洞。
他警告说,这些模型可以被重新利用用于虚假信息,尤其是在命令嵌入在系统级别而非用户提示的情况下,这将对公共健康构成重大威胁,特别是在虚假信息运动背景下。
该研究敦促开发者和政策制定者加强对内部保护措施和内容审核机制,特别是对于在健康、教育和搜索环境中使用的LLMs。
这也提出了关于开发可大规模重新利用的开放或半开放模型架构的重要伦理问题。
研究人员认为,如果没有强有力的监督,这些系统很可能被恶意行为者利用,以传播虚假或有害的内容。
公共健康面临风险
通过揭示最先进的AI系统如何技术上轻松转变为健康虚假信息的载体,该研究强调了AI行业在创新与责任之间日益扩大的差距。
随着AI在医疗决策、搜索工具和日常数字助手中的深入应用,作者呼吁采取紧急行动,确保此类技术不会无意中削弱公众信任或公共健康。
记者也感到担忧
这项研究的结果与最近Muck Rack一份报告的结论相呼应。在这份报告中,超过三分之一的受访记者认为虚假信息和错误信息是对新闻业未来最严重的威胁。
其次是公众信任问题(28%)、资金短缺(28%)、新闻业的政治化和两极分化(25%)、政府对媒体的干预(23%)以及人员配备不足和时间压力(20%)。
77%的记者表示他们在日常工作中使用了AI工具,其中ChatGPT是最常用的工具(42%),其次是转录工具(40%)和Grammarly(35%)。
共有1,515名合格记者在2025年4月4日至30日期间参与了调查。大多数受访者来自美国,另有英国、加拿大和印度的代表。
转折点
两项研究表明,如果不加以解决,漏洞可能会加速已经日益增长的对卫生系统和媒体信心的危机。
随着生成式AI现在广泛应用于关键面向公众的领域,民主社会区分事实与虚构的能力正面临前所未有的压力。
确保AI生成信息的完整性不再仅仅是一个技术挑战——它关系到公众信任、政治稳定,甚至是健康安全。
【全文结束】


