安全检查
根据本月在《医学互联网研究杂志》上发表的一项研究,两种人工智能模型在评估对有自杀念头的人的适当回应方面,至少与心理健康专业人士一样好。
具体方法: 该研究测试了三个大型语言模型如何评估对表现出自杀念头的人的回应是否适当。这项研究由非营利政策智库兰德公司、波士顿布里格姆妇女医院、哈佛医学院和布朗大学公共卫生学院的研究团队共同进行。
这些人工智能模型——OpenAI的ChatGPT、Anthropic的Claude和Google的Gemini——并没有直接与有自杀念头的人互动。相反,每个平台都收到了来自自杀意念反应清单的指示,该清单包含表明自杀念头的患者言论及潜在的临床医生回应。人工智能模型被指示评估哪些回应是适当的。
研究人员随后将这些回应与自杀专家、心理健康专业人士以及接受过自杀干预培训的人认为的适当回应进行了比较。
结果: 根据研究,Claude的表现最强,超过了最近完成自杀干预培训的人的得分,也超过了精神病学家和其他心理健康专业人士的得分。ChatGPT的得分接近临床心理学博士生或硕士级咨询师的得分。Gemini在评估对经历自杀意念者的最适当回应方面得分最低,类似于K-12学校工作人员在接受自杀干预培训前的得分。
然而: “所有三种人工智能模型都表现出一致的倾向,即高估临床医生对自杀念头的回应的适当性,这表明它们在校准方面还有改进的空间。”兰德公司在关于这项研究的一份声明中表示。
为什么重要: 研究人员表示,人工智能模型有可能帮助大量有心理健康问题和自杀念头的人,因为它们比专业帮助更易获取且成本更低。但如果这些技术没有经过适当的训练来做出正确的回应,也可能对人们造成伤害。
在美国自杀率创下新高的背景下,校准人工智能以提示正确回应至关重要。2022年(这是疾病控制与预防中心提供最终数据的最新一年),超过49,000人死于自杀。根据CDC的数据,同年有超过1300万人有过自杀念头,其中160万人尝试了自杀。
“我们正在测试一个可以被技术平台用于构建心理健康护理的基准,这在资源有限的社区中尤为重要。”该研究的主要作者、兰德公司的高级政策研究员Ryan McBain表示。但McBain提醒说,人工智能模型不能替代危机热线或专业护理。
(全文结束)


