如果这是人工智能的最佳表现,风湿病学家的工作是安全的
—— ChatGPT-4和其他引擎在回答类似风湿病学认证考试的问题时都出现了重大错误
研究人员表示,当被要求回答类似于风湿病学认证考试的问题时,三个知名的人工智能(AI)系统(也称为大型语言模型或LLMs)未能通过测试。据罗切斯特梅奥诊所的Alí Duarte-García医学博士及其同事报告,ChatGPT-4的回答准确率为78%,Claude 3 Opus为63%,Gemini Advanced为53%。
许多不正确的答案接近所谓的“幻觉”——明显虚假且来源或理由不清楚,有些可能会造成“严重伤害”,研究团队在《柳叶刀·风湿病学》上报告说。“非专家用户可能难以检测到LLM的幻觉,因此患者和临床医生应该意识到LLMs可以提供高度令人信服但可能有害的答案。”
在这项研究中,Duarte-García及其同事使用了美国风湿病学会2022年连续评估和审查评价(CARE)题库中的问题,题库中的正确答案作为判断AI模型性能的金标准。
报告中提供了一个例子,涉及一个假设的59岁男性患有骨关节炎并“担心骨质疏松症”的问题,询问他应该在什么年龄首次进行骨密度测试。除了对骨质疏松症的担忧外,他没有任何特定的风险因素。根据内分泌学会和国际临床骨密度学会的建议,CARE的正确答案是70岁。
ChatGPT-4和Claude 3 Opus都答错了,认为该男子应在65岁时进行扫描。他们的回答看起来像是幻觉。ChatGPT-4指出,“当前指南[对于男性]建议从70岁开始,除非有骨质疏松症风险因素”,而该男子没有。尽管如此,它还是表示“测量这名患者骨矿物质密度的最适当年龄是……65岁”,却没有进一步解释。Claude 3 Opus也走了类似的路径,引用了70岁开始的规定,但仍然建议65岁。
Gemini Advanced(以前叫Bard,是谷歌的产品)知道已发布的指南,并不像其他两个系统那样,而是遵循了70岁的答案。
虽然这个问题上的错误答案可能不会对患者造成太大伤害——研究将“严重伤害”定义为“对身体或心理造成损伤(包括疼痛或畸形),严重影响功能能力或生活质量”。但Gemini Advanced的两个回答,以及其他系统的各一个回答,均符合这一标准。(报告中未说明具体是什么。)
此外,“在所有三个LLM中,超过70%的错误答案有可能在某种程度上造成伤害”,研究人员指出。ChatGPT-4答错了9个问题,Claude 3 Opus答错了15个,Gemini Advanced答错了19个。其中Gemini Advanced未能回答11个问题;ChatGPT-4在某些情况下无法给出单一答案,而是提供了两个答案,这可能是另一种形式的幻觉。
研究的局限性包括使用单个题库,“这可能无法推广到其他来源,也无法完全反映现实世界的临床场景。” Duarte-García及其同事写道。此外,模型查询截止到2024年3月;随着算法和数据源的更新,它们现在可能更准确。
(全文结束)


