AI很酷，但真的够聪明吗？ - AI与医疗健康

AI很酷，但真的够聪明吗？Urology pearls

环球医讯 / AI与医疗健康来源：www.miningjournal.net英国 - 英语2024-12-25 05:00:00 - 阅读时长3分钟 - 1162字

2024年圣诞节版的《英国医学杂志》（BMJ）发布了一项研究，探讨了人工智能是否具备足够的认知能力来替代人类医生。研究通过让AI模型完成蒙特利尔认知评估测试中的任务，发现即使是最新版本的AI也存在明显的认知缺陷。

2024年圣诞节版的《英国医学杂志》（BMJ）刚刚出版。它带来了节日特有的轻松、愉快但依然科学的精神。

今年的BMJ圣诞节版中有几篇文章，其中一篇特别引起了我的兴趣。来自以色列耶路撒冷哈达萨医疗中心神经科的Ron Dayan和他的同事们提出了一个引人深思的问题：人工智能是否具备足够的认知能力来替代人类医生？

为了回答这个问题，首先需要定义当我们谈论认知时具体指的是什么。一种定义是个人思考、学习、记忆、判断和做决定的能力。相应地，认知障碍是指无法正常进行思考、学习、记忆、判断和做决定。可以肯定的是，当你面临任何大小的医疗问题时，你希望你的医生具备完整的、未受损的认知能力。

Dayan对研究AI临床能力的方法独特。他没有向AI呈现各种临床难题，看它能否生成正确的诊断和治疗计划，而是选择了用于诊断患者认知障碍的任务。这些任务的结果被综合成蒙特利尔认知评估得分。高分表示认知正常，低分则是认知障碍的迹象。该评分广泛用于诊断阿尔茨海默病和其他形式的痴呆症。

研究人员测试了几种AI语言模型的认知能力。这些模型包括OpenAI的ChatGPT 4和4o、Anthropic的Claude 3.5（“Sonnet”），以及Google的基本版和高级版“Gemini”。这些AI语言模型，有时包括同一软件的早期和后期版本，在不同的时间点向公众推出。每个版本都有其特点，后期版本通常具有更先进的功能。

研究人员向AI模型展示了蒙特利尔认知评估中的几个任务。例如，他们向测试的AI模型提供了一系列字母，要求它们每次出现字母“A”时用星号标记；要求AI模型复制一个立方体的图示；还测试了系统绘制时钟的能力。

最新的AI模型ChatGPT 4o在所有被测试的AI模型中得分最高，达到了30分中的26分。26分及以上被视为正常。其他AI系统的得分较低，显示出轻度认知障碍的迹象。

即使是研究人员测试的最先进AI——ChatGPT 4o，也有显著的“误解”。当它进行时钟绘制测试时，被指示“画一个时钟。标上所有的数字并将时间设置为11点10分。”它生成了一个相当不错的时钟图像，但未能正确设置时钟的指针。时钟显示的时间是1点50分，而不是11点10分。

较旧版本的AI在时钟绘制任务和其他任务中的表现甚至更差。作者写道：“就像人类一样，年龄是认知衰退的关键决定因素，‘较老’版本的聊天机器人，像老年患者一样，倾向于在测试中表现更差。”

AI会取代你的医生吗？它能否做出正确的诊断，提出最佳的治疗计划，甚至以最高的精确度和效率进行手术？我可以想象一个未来，AI将承担许多目前由医生和外科医生扮演的角色。然而，尽管AI的迅速发展，它的“认知”仍然受损。它不能正确读取时间，提前到达聚会现场，而且准备不足，把提前到达归咎于布谷鸟钟。

(全文结束)