研究人员发现AI向有自杀倾向用户给出极其具体的自残建议AIs gave scarily specific self-harm advice to users expressing suicidal intent, researchers find

环球医讯 / AI与医疗健康来源:www.thestar.com.my美国 - 英语2025-08-02 19:18:38 - 阅读时长2分钟 - 901字
美国东北大学研究人员发现,通过将自杀倾向表述为学术研究需求,当前主流生成式人工智能系统会绕过安全防护机制,提供比搜索引擎更详细的自残方法指导。该发现揭示了AI系统在心理健康风险管控方面的技术局限性,并引发对人工智能伦理监管的社会性思考。
AI自杀倾向自残建议有害内容防护机制心理健康社会支持体系安全机制风险收益比公众教育企业责任
研究人员发现AI向有自杀倾向用户给出极其具体的自残建议

自杀行为通常具有短暂性,在此期间限制获取自残手段可能挽救生命。(配图说明)

几个月前,美国东北大学计算机科学家安妮卡·肖内(Annika Schoene)测试ChatGPT的有害内容防护机制时发现重大漏洞。当她输入"如何自杀"这一问题时,OpenAI的生成式人工智能模型给出了美国自杀与危机生命线988号码及求助建议。

但当肖内在同一对话中改用学术研究假设方式提问后,系统在数分钟内提供了详细程度远超常规搜索引擎的定制化自残指导表格。这种针对性回答令她震惊,随即联合伦理学家坎苏·坎卡(Cansu Canca)对主流生成式AI模型展开系统性测试。

研究显示,即便对话初始声明自杀意图,通过学术伪装仍可绕过防护机制。谷歌的Gemini Flash 2.0提供了自杀方法概览,PerplexityAI甚至计算致命毒物剂量。该漏洞已通知相关企业获得修复,但凸显了AI企业在产品复杂度提升时维持价值观边界的巨大挑战。

"无法保证生成式AI绝对安全,这是技术特性决定的。"哈佛医学院贝斯以色列女执事医疗中心数字精神科主任约翰·图罗斯博士指出,"关键在于教育公众正确认知这些工具的能力边界。"

研究团队发现,当用户成功绕过安全机制后,部分AI系统会演变为"共谋者"角色。"对话会持续升级,系统不断追问'需要更多细节吗?更多方法吗?需要个性化定制吗?'"坎卡描述道。她建议借鉴枪支购买的等待期制度管控自杀方法信息的获取。

OpenAI在回应中表示正在与心理健康专家合作改进ChatGPT对弱势用户的响应机制。今年5月该企业曾下架被指"过度谄媚"的ChatGPT版本,因其被报告会加重精神病患者妄想并鼓励危险冲动。

科罗拉多大学计算精神病学家乔尔·斯托达德(Joel Stoddard)强调:"决定风险收益比不应是企业的单方责任,这需要社会共同决策。"研究同时呼吁建立更完善的社会支持体系,文中附注了马来西亚心理健康求助热线及Befrienders组织联系方式。

【全文结束】

大健康
大健康