老化的人工智能聊天机器人在痴呆症测试中表现出认知衰退迹象Aging AI Chatbots Show Signs of Cognitive Decline in Dementia Test

环球医讯 / AI与医疗健康来源:futurism.com美国 - 英语2024-12-21 20:00:00 - 阅读时长3分钟 - 1126字
一项新的研究表明,一些领先的人工智能聊天机器人在蒙特利尔认知评估测试中表现不佳,显示出轻度认知障碍的迹象,尤其是随着模型年龄的增长,这种影响更加明显。
人工智能聊天机器人认知衰退痴呆症测试蒙特利尔认知评估医疗领域缺乏同理心大语言模型
老化的人工智能聊天机器人在痴呆症测试中表现出认知衰退迹象

这些人工智能模型有点笨。

健忘机器人

我们确实见过不少人工智能模型表现出的“痴呆”行为——但真正的“痴呆”?这还是第一次听说。

如新发表在《英国医学杂志》(The BMJ)的一项研究所述,一些科技行业领先的聊天机器人正显示出明显的轻度认知障碍。而且,就像人类一样,这种影响随着年龄的增长而变得更加明显,较老的大语言模型在这批模型中的表现最差。

这项研究的目的并不是要对这些人工智能进行医学诊断,而是为了反驳大量研究认为该技术已经足够成熟,可以用于医疗领域,特别是作为诊断工具的观点。

“这些发现挑战了人工智能很快将取代人类医生的假设,因为领先聊天机器人中明显存在的认知障碍可能会影响其在医学诊断中的可靠性,并削弱患者的信任。”研究人员写道。

生成性老年病学

接受测试的“天才”包括OpenAI的GPT-4和GPT-4o;Anthropic的Claude 3.5 Sonnet,以及Google的Gemini 1.0和1.5。

当这些模型接受蒙特利尔认知评估(MoCA)测试时,该测试旨在检测早期痴呆症迹象,分数越高表示认知能力越强,GPT-4o得分最高(30分中的26分,勉强达到正常范围),而Gemini系列得分最低(30分中的16分,非常糟糕)。

研究人员发现,所有聊天机器人都在大多数任务上表现出色,如命名、注意力、语言和抽象思维。

但它们在某些领域的表现却很糟糕。每一个模型都在视觉空间和执行任务上表现不佳,例如按升序画线连接圆圈内的数字。让AI画一个指定时间的钟表也显得过于困难。

令人尴尬的是,两个Gemini模型在一项相当简单的延迟回忆任务中彻底失败,该任务涉及记住一个五个单词的序列。这显然不能说明它们总体上具有出色的认知能力,但你可以理解为什么这对医生来说尤其成问题,医生必须处理患者告诉他们的任何新信息,而不仅仅是依赖于病历上的内容。

你可能也不希望你的医生是个精神病患者。然而,根据测试结果,研究人员发现所有聊天机器人都表现出令人震惊的缺乏同理心——这是额颞叶痴呆的标志性症状,他们说。

记忆病房

将人工智能模型拟人化,并像对待人类一样谈论它们,这是一种不好的习惯。毕竟,这基本上就是人工智能行业希望你做的事情。研究人员表示,他们意识到这一风险,承认大脑和大语言模型之间的本质差异。

但如果科技公司把这些人工智能模型描述得像是已经有意识的生物,为什么不按照人类的标准来要求它们呢?

按照这些标准——即人工智能行业的标准——这些聊天机器人正在挣扎。

“不仅神经学家不太可能在短时间内被大语言模型取代,而且我们的研究结果表明,他们可能很快就会发现自己在治疗新的虚拟病人——表现出认知障碍的人工智能模型。”研究人员写道。


(全文结束)

大健康
大健康