AI医疗建议可能带来"危险"风险—你需要了解什么AI Medical Advice May Pose ‘Dangerous’ Risk—What To Know - Newsweek

环球医讯 / AI与医疗健康来源:www.newsweek.com美国 - 英语2026-03-01 08:01:20 - 阅读时长3分钟 - 1169字
牛津大学研究人员开展的一项新研究警告,使用大型语言模型获取医疗建议并做出医疗决策存在严重风险。该研究招募1300名参与者模拟特定医疗状况,分为两组对比测试:一组使用ChatGPT等AI模型咨询,另一组采用传统信息渠道。结果显示AI系统虽具备医学知识理解能力,却在医患沟通环节存在致命缺陷,常导致错误诊断且无法识别紧急情况。研究负责人丽贝卡·佩恩博士强调,患者需警惕向AI描述症状的危险性,当前技术远未达到替代医生的水平。专家呼吁AI医疗系统应像新药研发一样经过严格临床试验,特别是南非大学研究证实88%的AI聊天机器人会自信输出错误医疗建议,这种可被操纵的特性可能催生难以监管的新型虚假信息渠道。
AI医疗建议危险风险大型语言模型医疗决策沟通障碍错误诊断紧急帮助严格测试虚假信息医疗状况患者
AI医疗建议可能带来"危险"风险—你需要了解什么

一项新研究警告称,使用大型语言模型获取医疗建议并做出医疗决策是一种危险的做法。

这项由牛津大学研究人员进行的研究涉及1300名参与者,他们被赋予由医生开发的特定医疗状况。

参与者随后被分为两组——一组向OpenAI的ChatGPT等大型语言模型寻求医疗建议,另一组则从传统渠道收集信息。

结果显示,大型语言模型与用户之间存在重大差距。

尽管大型语言模型在理解医学和标准实践方面表现出色,但帮助用户解决医疗问题需要一种大型语言模型难以达到的沟通水平。

该研究的主要医疗从业者丽贝卡·佩恩博士(Rebecca Payne)在新闻稿中解释道:"尽管有各种炒作,人工智能还不足以承担医生的角色。患者需要意识到,向大型语言模型咨询症状可能是危险的,它会给出错误的诊断,并且无法识别何时需要紧急帮助。"

沟通障碍

研究结果表明,与评估医疗状况的传统方法(如在互联网上搜索信息或依靠个人最佳判断)相比,大型语言模型并未提供更好的结果。

大型语言模型并不总能理解参与者在问什么,而用户也常常不知道如何向大型语言模型提供正确的信息。

个人与机器之间的沟通障碍使得大型语言模型不太可能给出正确的建议。

"人工智能系统需要严格测试"

同时,大型语言模型经常提供好坏参半的建议。没有医生的帮助,研究中的参与者往往无法区分这两者。

牛津互联网研究所(Oxford Internet Institute)的资深作者亚当·马迪(Adam Mahdi)表示,大型语言模型与患者之间的差距应该成为开发者和监管者的"警钟"。

马迪说:"我们不能仅依靠标准化测试来确定这些系统是否适合公众使用。正如我们要求新药进行临床试验一样,人工智能系统需要与多样化的真实用户进行严格测试,以了解它们在医疗等高风险环境中的真实能力。"

常见问题

咨询大型语言模型获取医疗建议的做法越来越普遍,尤其是在医疗费用往往高得令人望而却步的美国。

根据一家人工智能平台在9月发布的一项研究,超过五分之一的美国人承认曾遵循后来被证明不准确的聊天机器人的建议。

在2025年6月发表的另一项研究中,研究人员使用开发工具测试是否可以编程让大型语言模型提供错误信息。他们发现这很容易做到,聊天机器人有88%的时间自信地提供错误信息。

南非大学(University of South Africa)的研究作者纳坦什·莫迪(Natansh Modi)在一份声明中警告:"如果这些系统可以被操纵以秘密产生虚假或误导性建议,那么它们将创造一种新的、强大的虚假信息渠道,这种渠道比以往任何渠道都更难检测、更难监管,也更有说服力。"

《新闻周刊》(Newsweek)已通过电子邮件联系研究作者征求意见。

【全文结束】