许多人已经转向人工智能(AI)聊天机器人寻求医疗建议,但一项新的研究发现,这些机器人不能被视为可靠的信息来源。研究指出,清晰且有帮助的答案非常罕见。
美国的医疗状况堪忧——医院等待时间长,费用居高不下。解决方案之一就是像ChatGPT这样的AI聊天机器人。最近的一项调查显示,每六个美国成年人中就有一个每月至少一次向聊天机器人寻求健康建议。当然,这本身并不是坏事——但问题在于健康问题的重要性。
这正是牛津大学领导的一项新研究所揭示的。研究人员表示,向聊天机器人寻求建议存在风险——许多人难以获得清晰、有用的答案,有些人甚至不知道该问什么。
更糟糕的是,人们可能会收到既包含正确信息也包含有害信息的建议。牛津互联网研究院的研究人员在进行了一项大规模实验后,在一篇题为《大型语言模型中的临床知识并不能转化为人类互动》的论文中得出了这一结论。
该研究的1300名参与者均来自英国,他们被提供了几个由医生创建的医疗场景,目的是测试人们在使用AI工具和依靠自己判断的情况下做出健康决策的能力。
参与者使用了几种顶级AI模型:GPT-4o(ChatGPT)、Cohere Command R+ 和 Meta 的 Llama 3。他们也被允许在线搜索或依靠自己的理解。
令人惊讶的是,研究发现使用AI并没有明显的优势。人们的表现并没有更好——也就是说,他们在使用聊天机器人时并没有比不使用它们找到更多正确的信息。
“大型语言模型现在几乎可以在医学执照考试中取得满分,但这并不一定意味着在现实世界中的实际表现也同样准确,”研究指出。
此外,实验还发现,许多参与者未能识别严重的疾病,有些人在阅读聊天机器人的回复后甚至低估了风险。其他人误解了聊天机器人的建议并做出了错误的选择——这意味着聊天机器人实际上可能会削弱决策能力,而不是增强它。
简而言之,在医学问答任务上的优异表现并不等同于在临床环境中在医生指导下的准确表现。还有更多的例子可以证明这一点。
一项研究表明,辅助AI的放射科医生在阅读胸部X光片时的表现并不优于没有AI辅助的情况;另一项研究发现,借助大型语言模型的医生在诊断问题上仅略微优于未受辅助的医生。
早在2023年,美国医学会就已建议医生不要依赖ChatGPT等聊天机器人来做出医疗决策。
最后,还存在安全问题。2023年《医学互联网研究杂志》的一篇论文提醒说,每个AI聊天机器人都是在大量数据上训练的,其中可能包括敏感和机密的患者信息。
你的每一个问题都会进一步训练模型——但你的数据是否安全?如果医生使用ChatGPT来撰写给患者的保险信件,患者的个人信息和病情就会成为ChatGPT数据库的一部分。
尽管如此,大型科技公司仍然选择回应那些少数声称AI聊天机器人有可能改善患者护理和公共卫生的医疗专业人员的意见。
苹果正在开发一种用于睡眠、锻炼和饮食的AI教练。亚马逊也在强调AI在改变医疗保健中的作用,微软则在开发能够分类患者发给医生的消息的AI。
(全文结束)


