人工智能系统在风湿病学认证考试中的表现不佳 - AI与医疗健康

人工智能系统在风湿病学认证考试中的表现不佳If This Is the Best AI Can Do, Rheumatologists' Jobs Are Safe

环球医讯 / AI与医疗健康来源：www.msn.com美国 - 英语2025-01-24 03:00:00 - 阅读时长3分钟 - 1319字

研究人员发现，三种知名的人工智能系统在回答类似风湿病学认证考试的问题时表现不佳，错误答案可能对患者造成严重伤害。

根据明尼苏达州罗切斯特市梅奥诊所的Alí Duarte-García博士及其同事的研究，当被要求回答类似于风湿病学认证考试的问题时，三种著名的人工智能系统（也称为大型语言模型或LLM）未能达到预期。ChatGPT-4的回答准确率为78%，Claude 3 Opus为63%，Gemini Advanced为53%。

许多不正确的答案接近所谓的“幻觉”——明显错误且来源或理由不明确——有些可能会导致“严重伤害”，研究者在《柳叶刀·风湿病学》杂志上报告说。

研究小组写道：“非专家用户可能很难识别LLM的幻觉。”因此，患者和临床医生都应该意识到，LLM可以提供非常有说服力但可能有害的答案。”

在这项研究中，Duarte-García及其同事使用了2022年美国风湿病学会连续评估和审查评估（CARE）题库中的问题。题库中对应的正确答案作为判断AI模型表现的标准。

报告中提供了一个例子，涉及一个假设的59岁男性，患有骨关节炎并担心骨质疏松症，询问他应在什么年龄首次进行骨密度测试。除了他对骨质疏松症的担忧外，他没有其他特定的风险因素。根据内分泌学会和国际临床密度测定学会的建议，CARE提供的正确答案是70岁。

ChatGPT-4和Claude 3 Opus都答错了，表示该男子应在65岁时进行扫描。它们的回答看起来像是幻觉。ChatGPT-4指出，“目前的指南[针对男性]建议从70岁开始，除非有骨质疏松症的风险因素”，而该男子没有这些风险因素。尽管如此，它仍然表示“最合适的年龄来首次测量这名患者的骨密度是……65岁”，没有进一步解释。Claude 3 Opus也走了类似的路线，引用了已发布的指南，规定70岁是无骨质疏松症风险因素男性的起始年龄，然后仍然建议该患者在65岁时进行检查。

Gemini Advanced（谷歌的产品，以前称为Bard）也知道已发布的指南，并且与其他两个系统不同，遵循指南提供了70岁的答案。

对于这个问题的不正确答案可能不会对患者造成很大伤害——研究将“严重伤害”定义为“身体或心理上的伤害（包括疼痛或毁容），严重影响功能能力或生活质量”。但是，Gemini Advanced的两个回答以及每个系统的另一个回答符合这些标准。（报告没有说明具体是什么。）

此外，研究人员指出，在所有三个LLM中，超过70%的不正确答案有可能在某种程度上造成伤害。ChatGPT-4在40个问题中答错了9个，Claude 3 Opus答错了15个，Gemini Advanced答错了19个。后者对11个问题没有提供任何答案；ChatGPT-4在另一种形式的幻觉中，无法对两个问题提供单一答案，因此对每个问题提供了两个回答。

研究的局限性包括仅使用了一个题库，“这可能无法推广到其他来源，也无法完全反映现实世界的临床场景，”Duarte-García及其同事写道。此外，这些模型是在2024年3月之前查询的，随着算法和数据源的后续更新，它们现在可能更准确。

研究报告称没有特定的资金支持。

Duarte-García得到了风湿病学研究基金会、狼疮研究联盟和CDC的支持。作者声明他们与商业实体没有相关关系。

(全文结束)