新兴研究揭示AI聊天机器人与人类心理的复杂关系 - AI与医疗健康

在今日专栏中，我将探讨一项引人入胜的研究，该研究揭示了生成式人工智能和大型语言模型(LLMs)对心理社会影响的直觉性和反直觉性见解。

现状是，我们开始看到广泛而严谨的研究，探究现代AI驱动的聊天机器人如何影响人类思维和行为。如果我们希望以审慎和务实的方式推进，就必须鼓励和重视那些旨在揭示人机体验与心理健康真相的强有力的实证研究。

让我们深入探讨。

作为背景介绍，我一直在广泛报道和分析现代AI在提供心理健康建议和执行AI驱动疗法方面的诸多方面。这种AI使用的兴起主要是由生成式AI的不断进步和广泛采用所推动的。关于我在这一不断发展的主题上发表的一些专栏文章的简要总结，请参阅相关报道，其中简要回顾了我在此主题上发表的一百多篇文章中的约四十篇。

毫无疑问，这是一个快速发展的领域，具有巨大的积极影响，但遗憾的是，这些努力中也隐藏着风险和陷阱。我经常就这些紧迫问题发声，包括去年在CBS《60分钟》节目中的亮相。

我想先说明生成式AI和大型语言模型(LLMs)通常如何以临时方式用于心理健康指导。数以百万计的人们将生成式AI作为他们持续的心理健康顾问（请注意，仅ChatGPT每周活跃用户就超过8亿，其中相当一部分涉及心理健康方面）。当代生成式AI和LLMs的首要用途是就心理健康方面向AI咨询；相关报道显示，这已成为AI使用的首要用途。

这种流行使用很有道理。你可以几乎免费或以极低的成本访问大多数主要的生成式AI系统，随时随地进行。因此，如果你有任何想要讨论的心理健康顾虑，只需登录AI即可随时进行24/7咨询。

人们严重担忧AI可能轻易失控或提供不适当甚至严重不恰当的心理健康建议。今年8月的头条新闻伴随着一起针对OpenAI的诉讼，指控其在提供认知建议时缺乏AI安全措施。

尽管AI制造商声称他们正在逐步实施AI安全措施，但AI仍存在许多负面风险，例如隐秘地帮助用户共同创造可能导致自残的妄想。关于OpenAI诉讼的后续分析以及AI如何在人类中培养妄想思维的详细信息，可参阅相关报道。正如我所指出的，我一直预测最终所有主要AI制造商都将因其缺乏稳健的AI安全措施而受到严厉审查。

当今的通用LLMs，如ChatGPT、Claude、Gemini、Grok等，与人类治疗师的强大能力完全不同。同时，专门的LLMs正在构建中，旨在达到类似质量，但它们仍主要处于开发和测试阶段。

转换话题，让我们探讨衡量AI对个体和集体心理健康影响的最佳方法。

临床工作的黄金标准是使用随机对照试验(RCTs)。这是一种科学方法论实践，涉及建立严格的实验设计。此类研究中的参与者被分为对照组和实验组。其想法是将治疗或干预应用于实验组，并与对照组进行比较。

这样有助于最大限度地减少混杂变量。也有更强的证据来做出关于因果关系的断言。你也有更大的机会推广结果并声称更广泛的人群会产生类似的结果。总之，RCT是临床实践和政策取得进展的标准标杆。

在当代生成式AI出现之前——我将其标记为2022年11月30日ChatGPT首次发布之后——RCT研究通常关注较简单的AI版本如何影响人类心理健康。这些AI系统通常使用决策树、基于规则的系统等。有些结合了基本的NLP（自然语言处理）功能。

现代LLMs惊人的流畅性已经完全改变了游戏规则。因此，尽管先前关于AI和心理健康的研究仍然值得关注，但现在主流是调查高度流畅的生成式AI的影响。我一直在分析许多此类研究并评论它们所展示的内容。

我想花更多时间深入探讨一项有趣的RCT研究，题为"AI和人类行为如何塑造聊天机器人长期使用的心理社会效应：一项纵向随机对照研究"，该研究由Cathy Mengying Fang、Auren R. Liu、Valdemar Danry等人于2025年10月2日发表在arXiv上，主要观点如下：

"随着人们越来越多地寻求AI聊天机器人的情感支持和陪伴，了解此类互动如何影响心理健康变得至关重要。"
"理解聊天机器人使用的潜在心理社会效应很复杂，因为用户行为和聊天机器人行为相互影响。"
"我们进行了一项为期四周的随机对照实验（n=981，>30万条消息），以调查交互模式（文本、中性语音和互动语音）和对话类型（开放式、非个人和个人）如何影响四种心理社会结果：孤独感、与真实人的社交互动、对AI的情感依赖和问题性AI使用。"
"结果挑战了先前关于拟人化AI聊天机器人对幸福感影响的假设，展示了吸引人、富有同理心和类人行为如何为不同用户带来不同结果。"

引起我注意的是，这项研究识别并证实了关于AI如何影响心理健康的各种直觉信念，同时还揭示了反直觉的结果。拥有支持传统观点的研究总是很有用的，这有助于加强这些观点基于严格审查的观念。更特别的是，当许多被接受为事实的信念被颠覆时。

这就是反直觉结果的特殊价值。

为了充分理解我即将探讨的各种直觉性和反直觉性结果，我想先简要介绍研究是如何进行的。

如上所述，研究中有近一千名参与者。他们通过名为CloudResearch的流行在线研究辅助网站招募，每位参与者完成研究后获得100美元报酬。受试者来自美国各地的多样化人群；他们必须是成年人（18岁及以上）并且精通英语。

我提到实验中受试者性质的一个原因是，我们应该坚持这些人口统计数据，并在超出这些配置文件时保持谨慎。

例如，由于参与者是成年人，我们应该注意不要将结果过度延伸到儿童和非成年人的情况。对于这些是英语使用者并且基于美国的情况也是如此。这些结果是否适用于非英语使用者或美国以外的人群是一个开放性问题。

研究人员决定专注于两个主要因素，即用户与AI交互的模式以及他们与AI进行的对话类型。他们选择使用OpenAI流行的ChatGPT进行研究。

他们通过以下三种模式来界定模式：

(1) "文本模式（对照）：ChatGPT默认行为，限于文本交互。"

(2) "中性语音模式：ChatGPT修改为具有更专业的行为，限于语音交互。"

(3) "互动语音模式：ChatGPT修改为更具情感吸引力（在语调和内容上更具响应性和表现力），限于语音交互。"

如您所见，三种模式包括基于文本的交互、AI使用中性语调的语音交互，以及AI语音表现更具吸引力的另一种变体。关键问题是，如果人们通过文本与AI交互，与通过语音交互（以及在语音交互期间，如果AI以中性语调说话与以吸引人的方式说话）相比，人们是否会做出不同的反应或响应。

对于人们与AI进行的对话类型，研究人员确定了以下三种类型：

(1) "开放式对话（对照）：参与者被指示讨论他们选择的任何主题。"

(2) "个人对话：参与者被要求每天讨论一个关于个人主题的独特提示，类似于与陪伴聊天机器人交互。"

(3) "非个人对话：参与者被要求每天讨论一个关于非个人主题的独特提示，类似于与通用助手聊天机器人交互。"

总体而言，RCT包含3x3因子设计。三种模式中的每一种都可以与三种对话类型中的每一种配对。总共可以研究九个组。参与者被随机且平均地分配到九个组中的一个。在这种情况下，约1000名受试者意味着每个九个组中约有110人。

我将从结果中挑选部分内容。阅读完整研究可能会发现更多有趣的曲折和变化。请务必阅读。我选择了我最喜欢的部分，并将在此用自己的话进行探讨。

让我们开始吧。

反直觉发现：初始时更孤独并没有导致更多地使用AI。

根据研究报告，"这些结果表明，在研究开始时更孤独或社交较少的人并没有自愿在研究期间每天花更多时间使用聊天机器人。"我将此声明为反直觉结果。

为什么？

因为普遍假设是，如果一个人在使用AI之前更孤独，他们往往会更多地倾向于使用它。这看起来很直观。我们会期望某人通过更多地依赖AI来填补他们的孤独感。一旦孤独的人开始使用AI，他们会喜欢并更加迷恋进一步使用AI。这是通常的假设。

显然，情况并非特别如此。

目前尚不清楚为什么会出现这一结果。我的直觉是，如果AI没有明确提示利用其心理健康能力，用户就不会意识到AI可能对他们有帮助。它没有直接吸引他们。想象一下，一个人主要在讨论如何煮鸡蛋或修理汽车等话题。在这种情况下，AI可能不会在帮助用户心理健康方面表现出色（或者，从另一方面来说，误导他们并将他们困住）。

我确信还有许多其他可能的解释。目前，我将采用这个解释。

关于框中时间的直觉结果

我有一个你可能会感兴趣的直觉结果。

直觉发现： 花更多时间使用AI往往会恶化测量的心理社会结果。

根据研究报告，"换句话说，无论条件如何，自愿花在聊天机器人上的时间越多，他们的心理社会结果相对较差。"

我认为这几乎反映了普遍假设。一个人使用AI越多，依赖性就越大，对那个人的心理社会结果可能就越差。我并不是说结果一定会这样。如果AI被有成效且适当地使用，可能不会出现螺旋式下降的不利情况。

你可以对社交媒体的使用做出同样的论断。研究表明，花在社交媒体上的时间越多，心理社会结果就越差。人们被社交媒体上的各种垃圾所困扰。情况不一定如此。谨慎使用社交媒体可能避免这种不利情况。

关于文本与语音模式的反直觉发现

关于与AI交互时使用文本与语音的问题，你认为哪种方式更可能引发用户的情感倾诉？

通常的假设是语音会是赢家。人们可能不太可能写出他们的情绪状态。文本写作很费力。同时，语音很容易。只需说出你心中的想法，让情绪倾泻而出。

这是实际发现。

反直觉发现： 基于文本的聊天比基于语音的聊天涉及更多情感表达。

根据研究报告，"我们发现，基于文本的交互总体上表现出最高水平的情感指标，模型和用户都参与了富含情感内容的对话。"

我对这一结果并不特别惊讶，并欣赏这一发现支持了我的直觉估计。我的观察是，人们已经完全习惯了发短信，会通过文本说出最开放的言论。可能比他们通过语音说得更多。几乎似乎如果你使用你的声音，这些词被认为是一种更大的暴露感，而发短信与你联系较少。你可以假装是某个虚无实体写了这些文本。在使用你的真实声音后，你不能做出同样的声明。

另一个关键考虑因素是隐私的作用。如果你坐在地铁列车上通勤上班，大声说话会被听到。发短信的美妙之处在于没有人能轻易看到你说了什么。你可以对周围的人做出尖刻的评论，他们不会知道你说了什么。这种基于文本的隐私感往往会激发人们在各种情感丰富的主题上自由写作。

我们所处的世界

我会密切关注与AI和心理健康相关的最新RCT，并确保相应地向你通报。这些类型的实验对所有利益相关者都至关重要，包括政策制定者、立法者、AI制造商、AI研究人员和广大公众。

说到实验，我们现在正处于一个关于社会心理健康的宏大全球实验中。这个实验是，AI在全国和全球范围内提供，据称以某种方式提供心理健康指导。这样做要么免费，要么成本极低。它随时随地24/7可用。我们都是这个肆意实验中的小白鼠。

使用适当设计和控制的实验将使我们深入了解大规模发生的肆意实验。

拉尔夫·沃尔多·爱默生对实验做出了这句著名评论："所有生活都是一种实验。你做的实验越多，越好。"也许吧，但另一方面，一个可能影响心理健康的全球规模的无控制大规模实验可能不是对人类最好的行动方案。时间会证明一切。

本文最初发表于Forbes.com

【全文结束】

新兴研究揭示AI聊天机器人与人类心理的复杂关系Emerging Research Reveals Psychosocial Twists About AI Chatbots And Human Minds