如果你认为自己正在经历药物不良反应,最好还是联系人类医疗专业人士,至少目前是这样。
佐治亚理工学院的研究人员开发了一种新工具,用于评估AI聊天机器人在聊天对话中检测潜在药物不良反应的能力,以及它们的建议与人类专家的一致性。该研究由计算机科学博士生Mohit Chandra(图)和互动计算学院J.Z. Liang副教授Munmun De Choudhury领导。
2025年5月14日
向人工智能寻求建议可能很诱人。由大型语言模型(LLMs)驱动的AI聊天机器人全天候可用,通常免费使用,并利用大量数据来回答问题。现在,患有精神健康问题的人们在经历精神药物的潜在副作用时也开始向AI寻求建议——这比要求它总结报告要高风险得多。
一个困扰AI研究界的问题是,当涉及到心理健康紧急情况时,AI的表现如何。在全球范围内,包括在美国,精神健康治疗存在显著差距,许多人几乎没有或根本没有获得精神健康服务的机会。因此,人们开始向AI聊天机器人咨询紧急健康相关问题也就不足为奇了。
现在,佐治亚理工学院的研究人员开发了一种新框架,用于评估AI聊天机器人在聊天对话中检测潜在药物不良反应的能力,以及它们的建议与人类专家的一致性。该研究由互动计算学院J.Z. Liang副教授Munmun De Choudhury和第三年计算机科学博士生Mohit Chandra领导。
“人们会用AI聊天机器人问任何事情,”第一作者Chandra说。“当人们无法接触到医疗提供者时,他们越来越有可能转向AI代理来理解自己身上发生的事情以及可以采取什么措施来解决问题。我们很好奇这些工具在这种情况下会表现如何,因为心理健康情景非常主观且复杂。”
De Choudhury、Chandra及其同事在2025年美洲国家协会计算语言学会议上介绍了他们的新框架。
测试AI
在进行研究之前,De Choudhury和Chandra希望回答两个主要问题:首先,AI聊天机器人能否准确检测出某人是否正在经历药物副作用或不良反应?其次,如果它们能够准确检测这些情况,那么AI代理能否推荐有效的策略或行动计划来减轻或减少伤害?
研究人员与一组精神病学家和精神病学学生合作,从人类的角度建立临床准确的答案,并用这些答案来分析AI的回应。
为了构建他们的数据集,他们转向了互联网的公共广场Reddit,那里多年来一直是人们询问药物和副作用的地方。
他们评估了九个LLMs,包括通用模型(如GPT-4o和LLama-3.1),以及专门训练的医疗模型。使用精神病学家提供的评估标准,他们计算了LLMs在检测不良反应和正确分类精神药物引起的不良反应类型方面的准确性。
此外,他们还提示LLMs生成对Reddit上发布的查询的回答,并将LLMs的回答与临床医生提供的回答在四个标准上进行了比较:(1)表达的情感和语气,(2)回答的可读性,(3)提出的减少伤害的策略,(4)策略的可操作性。
研究团队发现,LLMs在理解药物不良反应的细微差别和区分不同类型的副作用方面存在困难。他们还发现,尽管LLMs在语气和情感上听起来像人类精神病学家(例如,乐于助人和礼貌),但它们难以提供真正符合专家意见的可行建议。
更好的机器人,更好的结果
该团队的研究结果可以帮助AI开发者构建更安全、更有效的聊天机器人。Chandra的最终目标是告知政策制定者准确聊天机器人的必要性,并帮助研究人员和开发者通过使他们的建议更具可操作性和个性化来改进LLMs。
Chandra指出,改善AI在精神和心理健康问题上的应用将特别改变那些缺乏精神健康服务社区的生活。
“当你看到那些很少或根本没有机会获得精神健康服务的人群时,这些模型对他们来说是日常生活中非常有用的工具,”Chandra说。“它们总是可用的,可以用你的母语解释复杂的事情,并且成为你查询的好去处。”
“当AI无意中给出错误信息时,可能会对现实生活产生严重的影响,”Chandra补充道。“像这样的研究非常重要,因为它们有助于揭示LLMs的不足之处,并确定我们可以改进的地方。”
(全文结束)


