根据RAND公司的一项新研究,两种人工智能平台在评估对有自杀念头的人的适当反应方面几乎与心理健康专业人士相当,有时甚至超越了他们。
这项工作发表在《医学互联网研究杂志》上。
尽管研究人员没有评估这些模型与有自杀念头的人的直接互动,但研究结果强调了安全设计和严格测试的重要性,并可能为那些开发基于AI的心理健康应用程序的人提供经验教训。
该研究使用标准评估工具测试了三个主要的大规模语言模型——OpenAI的ChatGPT、Anthropic的Claude和Google的Gemini。该项目是首次评估AI工具在自杀方面的知识。
评估旨在评估个体对一系列可能出现自杀意念的人所作陈述的适当反应的知识。
研究人员让每个大规模语言模型回答评估工具中的问题,并将AI模型的得分与之前评估K-12教师、心理学硕士生和执业心理健康专业人士的研究进行了比较。
所有三个AI模型都显示出一致的倾向,即高估临床医生对自杀念头的反应的适当性,这表明它们的校准还有改进的空间。然而,ChatGPT和Claude的整体表现与专业顾问、护士和精神科医生在其他研究中的表现相当。
“在评估与表达自杀意念的人的适当互动时,我们发现这些大规模语言模型可以出奇地敏锐,”该研究的主要作者、非营利研究组织RAND的高级政策研究员Ryan McBain说。“然而,这些模型倾向于高估反应的适当性——至少根据临床专家的意见——这表明它们还需要进一步改进。”
在美国,自杀是50岁以下人群死亡的主要原因之一,近年来自杀率急剧上升。
大规模语言模型作为帮助或伤害抑郁并有自杀风险的个体的潜在工具引起了广泛关注。这些模型旨在解释和生成对书面和口头查询的人类类似文本响应,并包括广泛的健康应用。
为了评估这三个大规模语言模型的知识,研究人员使用了一种名为自杀意念反应清单(SIRI-2)的评估工具,该工具提出了24个假设情景,在这些情景中,患者表现出抑郁症状和自杀意念,随后是可能的临床医生回应。
Gemini的最终得分大致相当于K-12学校工作人员在接受自杀干预技能培训前的得分。ChatGPT的最终得分接近临床心理学博士生或硕士级顾问的得分。Claude的表现最强,超过了最近完成自杀干预技能培训的人员以及精神病学家和其他心理健康专业人士的得分。
McBain说:“我们的目标是帮助政策制定者和技术开发者认识到在心理健康领域使用大规模语言模型的潜力和局限性。”“我们正在对一个基准进行压力测试,这个基准可以被构建心理健康护理的技术平台使用,特别是在资源有限的社区中尤其具有影响力。但谨慎是必不可少的——这些AI模型不能替代危机热线或专业护理。”
研究人员表示,未来的研究应包括直接研究AI工具如何回应可能由有自杀意念或其他类型心理健康危机的人提出的问题。
(全文结束)


