一项新研究警告称,使用大型语言模型获取医疗建议并做出医疗决策是一种危险的做法。
这项由牛津大学研究人员进行的研究涉及1300名参与者,他们被赋予由医生开发的特定医疗状况。
参与者随后被分为两组——一组向OpenAI的ChatGPT等大型语言模型寻求医疗建议,另一组则从传统渠道收集信息。
结果显示,大型语言模型与用户之间存在重大差距。
尽管大型语言模型在理解医学和标准实践方面表现出色,但帮助用户解决医疗问题需要一种大型语言模型难以达到的沟通水平。
该研究的主要医疗从业者丽贝卡·佩恩博士(Rebecca Payne)在新闻稿中解释道:"尽管有各种炒作,人工智能还不足以承担医生的角色。患者需要意识到,向大型语言模型咨询症状可能是危险的,它会给出错误的诊断,并且无法识别何时需要紧急帮助。"
沟通障碍
研究结果表明,与评估医疗状况的传统方法(如在互联网上搜索信息或依靠个人最佳判断)相比,大型语言模型并未提供更好的结果。
大型语言模型并不总能理解参与者在问什么,而用户也常常不知道如何向大型语言模型提供正确的信息。
个人与机器之间的沟通障碍使得大型语言模型不太可能给出正确的建议。
"人工智能系统需要严格测试"
同时,大型语言模型经常提供好坏参半的建议。没有医生的帮助,研究中的参与者往往无法区分这两者。
牛津互联网研究所(Oxford Internet Institute)的资深作者亚当·马迪(Adam Mahdi)表示,大型语言模型与患者之间的差距应该成为开发者和监管者的"警钟"。
马迪说:"我们不能仅依靠标准化测试来确定这些系统是否适合公众使用。正如我们要求新药进行临床试验一样,人工智能系统需要与多样化的真实用户进行严格测试,以了解它们在医疗等高风险环境中的真实能力。"
常见问题
咨询大型语言模型获取医疗建议的做法越来越普遍,尤其是在医疗费用往往高得令人望而却步的美国。
根据一家人工智能平台在9月发布的一项研究,超过五分之一的美国人承认曾遵循后来被证明不准确的聊天机器人的建议。
在2025年6月发表的另一项研究中,研究人员使用开发工具测试是否可以编程让大型语言模型提供错误信息。他们发现这很容易做到,聊天机器人有88%的时间自信地提供错误信息。
南非大学(University of South Africa)的研究作者纳坦什·莫迪(Natansh Modi)在一份声明中警告:"如果这些系统可以被操纵以秘密产生虚假或误导性建议,那么它们将创造一种新的、强大的虚假信息渠道,这种渠道比以往任何渠道都更难检测、更难监管,也更有说服力。"
《新闻周刊》(Newsweek)已通过电子邮件联系研究作者征求意见。
【全文结束】

