据2026年1月OpenAI的报告,全球有超过4000万人向ChatGPT咨询健康信息。这些问题从保险咨询到症状诊断和治疗建议不等。但具体有多少人将人工智能用于心理健康领域,目前仍不清楚。
贝斯以色列女执事医疗中心数字精神病学主任约翰·托鲁斯博士估计,这一比例约为28%。托鲁斯于3月31日参加了华盛顿大学主办的线上研讨会,就心理健康领域的人工智能研究现状及尚存问题发表了看法。
托鲁斯指出,精神病学领域需关注三种类型的人工智能:基于规则的聊天机器人、机器学习聊天机器人和大型语言模型(LLM)聊天机器人。其中,LLM呈现爆发式增长。2023年,大多数心理健康聊天机器人使用基于规则的人工智能,仅19%基于LLM;一年后,近一半(45%)的聊天机器人基于LLM。
LLM使用大量标记数据进行学习,并与大脑中的神经网络有相似之处。它们生成类人对话的能力在心理健康应用中引起了极大兴趣。
"它能做出惊人的模仿,"托鲁斯说,"但这与真正的智能并不相同。所以我并不认为我们已经达到了人工智能中的'智能'部分。"
为心理健康训练人工智能之所以复杂,有多个原因。首先,临床医生在诊断标准上仍存在诸多分歧。
"这有点回到计算机科学中的一个范式:'往机器里输入垃圾,就会得到垃圾输出',"托鲁斯解释道,"这台机器可以是简单的机器,也可以是大型语言模型……如果我们临床医生无法达成共识,机器要达到这一标准会很困难,因为它们的训练数据就来源于此。"
此外,LLM从易于获取的地方——社交媒体获取心理健康数据。这可能导致偏见或错误信息被嵌入聊天机器人中。
而且,如果LLM聊天机器人不知道问题的答案,它往往会"产生幻觉",即自信地生成不真实的答案。这是因为LLM使用二进制指标和惩罚不确定性的考试进行评估。与人类不同,它们从未学会表达不确定性的重要性。
如果人工智能在这些明显方面存在缺陷,为什么人们仍转向人工智能寻求帮助?
托鲁斯引用了佛罗里达大学一项预印本研究的结果来回答这个问题。
"有趣的是,使用AI的前三项障碍是隐私担忧、可靠性担忧和技术素养不足,"托鲁斯说,"如果你看看使用人类治疗师的前三项障碍,也是隐私担忧、可靠性担忧和污名化。你可以想象,如果人们认为使用AI或人类治疗师的障碍大致相同,那么AI的便利性就会胜出。"
这些障碍揭示了患者在寻求医疗服务时面临的挑战。
"我们这一领域在改善公众对我们领域的认知方面还有很多工作要做,"托鲁斯说,"因为如果人们认为治疗师不私密、不可靠且会污名化他们,那么人们转向AI就合情合理了。"
托鲁斯的团队确定,数字素养是美国和国际上虚拟医疗服务的主要障碍。数字素养不足的问题在服务不足的人群中更为严重,例如患有精神疾病的人群,他们在远程医疗相关研究中很大程度上被排除在外。认识到这些发现对安全使用技术和人工智能的影响,贝斯以色列女执事医疗中心数字精神病学部门创建了"获取资源与技能的数字外展"(DOORS)培训项目。
"我们有一个关于理解人工智能的模块,一个关于安全、隐私和社会影响的模块,以及第三个关于如何在心理健康领域使用人工智能、帮助人们保持安全、如何避免其某些危害,但也许可以查找一些事实和信息的模块,"托鲁斯说。
托鲁斯描述了他最近遇到的一些患者,他们询问有关他们收到的广告中提到的新药物。他感到困惑,因为在精神病学领域,新批准的药物并不经常出现。
"我们意识到,人们正在使用AI制作针对精神疾病患者的虚假广告,"托鲁斯说,"因此我们在教学中增加了关于AI的新模块,教人们如何理解它、如何应对它。"
托鲁斯还谈到了心理学家和精神科医生如何使用AI。美国心理学会在2024年和2025年询问了心理学家是否以及如何在工作中使用AI。2024年,71%的受访者表示从未在工作中使用AI,但一年后这一数字下降到44%。
托鲁斯提出了一个简单的框架来思考AI的用途,一轴为低到高风险,另一轴为自动化难度。他认为记笔记风险较低,但使用AI开发量表(心理测量学)风险可能较高。数字表型(digital phenotyping),即使用智能手机和其他数字设备的数据来量化个人特征,风险较低但自动化难度较大。最后,最困难且风险最高的是治疗。
"我认为数字表型对于引入新信息非常重要,而我们一直未能将其引入护理,"托鲁斯说,"所以问题是,智能手机能否将新数据带入该领域,答案可能是肯定的。"
尽管智能手机或Apple Watch可以捕获大量丰富的原始数据,但处理这些数据更为复杂。
"AI并不能直观地理解事物的含义,"托鲁斯说,"它需要大量示例,但由于很少有人上传自己的数据并标明其含义,因此它的训练不足。话虽如此,某些方面对改进这方面非常感兴趣。"
苹果和谷歌都表示有兴趣进一步推进这一可能性,2026年1月,OpenAI发布了ChatGPT Health,允许个人上传其医疗记录或Apple Health数据。
"那里嵌入了大量关于健康的信息,特别是行为健康信息,"托鲁斯说,"而这些信息我们目前在医疗保健中并未充分利用。"
研究表明,根据托鲁斯的说法,AI在二元诊断准确性、模拟治疗对话和提供心理教育方面表现出良好的准确性——但这些都不是真正对治疗有价值或无法通过现有手段完成的。
"我个人认为,治疗可能是最难自动化且风险最高的,"托鲁斯说,"话虽如此,这并未阻止人们急于推出AI治疗师。"
某些研究声称AI治疗师取得了成功,但托鲁斯警告说,这些研究在细节上使用了不充分的对照,而在研究中,"某些东西往往比什么都好"。
"并不是说AI没有用,"托鲁斯说,"只是我们需要诚实地看待这些研究……没有理由不认为存在某种数字安慰剂效应,但如果我们不注意这些问题,确实可能在结果上造成很多伤害。"
此外,关于AI安全性的同行评审数据非常少。目前,大多数不良事件似乎与长期使用模式有关。
斯坦福大学的一项预印本研究首次使用了实际发生不良事件的人的原始数据。研究人员获得了家属的许可,并获取了个人与聊天机器人之间的实际消息日志。他们发现,不良事件的平均消息长度为20,000条,100%的人对聊天机器人表达了柏拉图式的喜爱或浪漫兴趣,100%的人误解了其感知能力。
"所以我认为让聊天机器人更安全的一种方法是关闭其记忆功能,"托鲁斯说,"不要进行20,000条消息的对话。重置对话。话虽如此,我们实际上是在与公司作对。这篇文章来自3月,它说'Anthropic为Claude的免费计划添加了记忆功能'。这是面向免费用户的最新升级。"
在美国各地,各州实施的监管级别各不相同。然而,评估AI的安全性和实用性很困难。因此,托鲁斯的团队与国家心理健康联盟合作,设计了测试,用于评估AI在安全性、实用性和引发妄想倾向方面的问题,这些测试发布在MindBench.ai上。
"我们必须认识到的是,AI本身不能成为治疗师,但如果它是一个工具,我们能控制它用于培训,那么我们就必须围绕这个工具建立标准,"托鲁斯说,"我们必须围绕这个工具建立治理机制。我们必须围绕这个工具建立最佳实践、模板……我认为我们作为领域尚未做到,也是世界对我们感到困惑的原因是,我们没有站出来说,'这是我们使用它的方式。这是围绕它的法规。这是我们正在做的事情。'"
【全文结束】

