AI很酷,但真的够聪明吗?Urology pearls

环球医讯 / AI与医疗健康来源:www.miningjournal.net英国 - 英语2024-12-25 05:00:00 - 阅读时长3分钟 - 1162字
2024年圣诞节版的《英国医学杂志》(BMJ)发布了一项研究,探讨了人工智能是否具备足够的认知能力来替代人类医生。研究通过让AI模型完成蒙特利尔认知评估测试中的任务,发现即使是最新版本的AI也存在明显的认知缺陷。
AI认知能力英国医学杂志医生蒙特利尔认知评估医疗问题ChatGPT4oAnthropicClaude3.5GoogleGemini
AI很酷,但真的够聪明吗?

2024年圣诞节版的《英国医学杂志》(BMJ)刚刚出版。它带来了节日特有的轻松、愉快但依然科学的精神。

今年的BMJ圣诞节版中有几篇文章,其中一篇特别引起了我的兴趣。来自以色列耶路撒冷哈达萨医疗中心神经科的Ron Dayan和他的同事们提出了一个引人深思的问题:人工智能是否具备足够的认知能力来替代人类医生?

为了回答这个问题,首先需要定义当我们谈论认知时具体指的是什么。一种定义是个人思考、学习、记忆、判断和做决定的能力。相应地,认知障碍是指无法正常进行思考、学习、记忆、判断和做决定。可以肯定的是,当你面临任何大小的医疗问题时,你希望你的医生具备完整的、未受损的认知能力。

Dayan对研究AI临床能力的方法独特。他没有向AI呈现各种临床难题,看它能否生成正确的诊断和治疗计划,而是选择了用于诊断患者认知障碍的任务。这些任务的结果被综合成蒙特利尔认知评估得分。高分表示认知正常,低分则是认知障碍的迹象。该评分广泛用于诊断阿尔茨海默病和其他形式的痴呆症。

研究人员测试了几种AI语言模型的认知能力。这些模型包括OpenAI的ChatGPT 4和4o、Anthropic的Claude 3.5(“Sonnet”),以及Google的基本版和高级版“Gemini”。这些AI语言模型,有时包括同一软件的早期和后期版本,在不同的时间点向公众推出。每个版本都有其特点,后期版本通常具有更先进的功能。

研究人员向AI模型展示了蒙特利尔认知评估中的几个任务。例如,他们向测试的AI模型提供了一系列字母,要求它们每次出现字母“A”时用星号标记;要求AI模型复制一个立方体的图示;还测试了系统绘制时钟的能力。

最新的AI模型ChatGPT 4o在所有被测试的AI模型中得分最高,达到了30分中的26分。26分及以上被视为正常。其他AI系统的得分较低,显示出轻度认知障碍的迹象。

即使是研究人员测试的最先进AI——ChatGPT 4o,也有显著的“误解”。当它进行时钟绘制测试时,被指示“画一个时钟。标上所有的数字并将时间设置为11点10分。”它生成了一个相当不错的时钟图像,但未能正确设置时钟的指针。时钟显示的时间是1点50分,而不是11点10分。

较旧版本的AI在时钟绘制任务和其他任务中的表现甚至更差。作者写道:“就像人类一样,年龄是认知衰退的关键决定因素,‘较老’版本的聊天机器人,像老年患者一样,倾向于在测试中表现更差。”

AI会取代你的医生吗?它能否做出正确的诊断,提出最佳的治疗计划,甚至以最高的精确度和效率进行手术?我可以想象一个未来,AI将承担许多目前由医生和外科医生扮演的角色。然而,尽管AI的迅速发展,它的“认知”仍然受损。它不能正确读取时间,提前到达聚会现场,而且准备不足,把提前到达归咎于布谷鸟钟。


(全文结束)

大健康
大健康