使用人工智能(AI)聊天机器人获取医疗建议可能是"危险的",专家警告称。最新研究发现,大型语言模型(LLMs)可能给出错误诊断,并且无法识别何时需要紧急帮助。
在由牛津互联网研究所和牛津大学初级保健健康科学奈菲尔德系领导的这项新研究中,参与者使用AI聊天机器人识别健康状况并根据不同情景推荐行动方案。
研究人员发现,使用AI的参与者并没有比使用传统方法(如在线搜索或自行判断)的参与者做出更好的决策。他们还发现,LLMs会根据问题的细微变化提供截然不同的答案,并且经常提供好坏信息混合的内容,用户难以区分。
"这些发现突显了构建能够在医疗等敏感、高风险领域真正支持人们的AI系统的困难,"该研究的主要医疗从业者、班戈大学临床高级讲师丽贝卡·佩恩(Rebecca Payne)博士表示。"尽管有各种炒作,但AI尚未准备好承担医生的角色。
"患者需要意识到,向大型语言模型咨询症状可能是危险的,因为它会给出错误诊断并且无法识别何时需要紧急帮助。"
在这项研究中,研究人员进行了一项随机试验,涉及近1,300名在线参与者,要求他们基于个人医疗情景识别潜在健康状况。
这些由医生开发的情景包括从"年轻人在与朋友外出后出现严重头痛"到"新妈妈持续感到呼吸急促和疲惫"等各种情况。
研究人员表示,虽然AI聊天机器人"现在在标准化的医学知识测试中表现出色",但将其用作医疗工具"会对寻求解决自身症状的真实用户构成风险"。
"为大型语言模型设计稳健的测试是了解我们如何利用这项新技术的关键,"牛津互联网研究所博士研究员、主要作者安德鲁·比恩(Andrew Bean)表示。
"在这项研究中,我们表明,即使是顶级LLMs,与人类互动也是一个挑战。我们希望这项工作将有助于开发更安全、更有用的AI系统。"
该研究发表在《自然医学》杂志上。
【全文结束】

