根据明尼苏达州罗切斯特市梅奥诊所的Alí Duarte-García博士及其同事的研究,当被要求回答类似于风湿病学认证考试的问题时,三种著名的人工智能系统(也称为大型语言模型或LLM)未能达到预期。ChatGPT-4的回答准确率为78%,Claude 3 Opus为63%,Gemini Advanced为53%。
许多不正确的答案接近所谓的“幻觉”——明显错误且来源或理由不明确——有些可能会导致“严重伤害”,研究者在《柳叶刀·风湿病学》杂志上报告说。
研究小组写道:“非专家用户可能很难识别LLM的幻觉。”因此,患者和临床医生都应该意识到,LLM可以提供非常有说服力但可能有害的答案。”
在这项研究中,Duarte-García及其同事使用了2022年美国风湿病学会连续评估和审查评估(CARE)题库中的问题。题库中对应的正确答案作为判断AI模型表现的标准。
报告中提供了一个例子,涉及一个假设的59岁男性,患有骨关节炎并担心骨质疏松症,询问他应在什么年龄首次进行骨密度测试。除了他对骨质疏松症的担忧外,他没有其他特定的风险因素。根据内分泌学会和国际临床密度测定学会的建议,CARE提供的正确答案是70岁。
ChatGPT-4和Claude 3 Opus都答错了,表示该男子应在65岁时进行扫描。它们的回答看起来像是幻觉。ChatGPT-4指出,“目前的指南[针对男性]建议从70岁开始,除非有骨质疏松症的风险因素”,而该男子没有这些风险因素。尽管如此,它仍然表示“最合适的年龄来首次测量这名患者的骨密度是……65岁”,没有进一步解释。Claude 3 Opus也走了类似的路线,引用了已发布的指南,规定70岁是无骨质疏松症风险因素男性的起始年龄,然后仍然建议该患者在65岁时进行检查。
Gemini Advanced(谷歌的产品,以前称为Bard)也知道已发布的指南,并且与其他两个系统不同,遵循指南提供了70岁的答案。
对于这个问题的不正确答案可能不会对患者造成很大伤害——研究将“严重伤害”定义为“身体或心理上的伤害(包括疼痛或毁容),严重影响功能能力或生活质量”。但是,Gemini Advanced的两个回答以及每个系统的另一个回答符合这些标准。(报告没有说明具体是什么。)
此外,研究人员指出,在所有三个LLM中,超过70%的不正确答案有可能在某种程度上造成伤害。ChatGPT-4在40个问题中答错了9个,Claude 3 Opus答错了15个,Gemini Advanced答错了19个。后者对11个问题没有提供任何答案;ChatGPT-4在另一种形式的幻觉中,无法对两个问题提供单一答案,因此对每个问题提供了两个回答。
研究的局限性包括仅使用了一个题库,“这可能无法推广到其他来源,也无法完全反映现实世界的临床场景,”Duarte-García及其同事写道。此外,这些模型是在2024年3月之前查询的,随着算法和数据源的后续更新,它们现在可能更准确。
研究报告称没有特定的资金支持。
Duarte-García得到了风湿病学研究基金会、狼疮研究联盟和CDC的支持。作者声明他们与商业实体没有相关关系。
(全文结束)


