评估大型语言模型在肾绞痛影像推荐中的表现:Gemini、Copilot与ChatGPT-4.0的比较分析Evaluating large language models for renal colic imaging recommendations: a comparative analysis of Gemini, copilot, and ChatGPT-4.0

环球医讯 / AI与医疗健康来源:intjem.biomedcentral.com卡塔尔 - 英文2025-07-13 09:12:07 - 阅读时长13分钟 - 6444字
本研究通过29个临床案例,对比了三种大型语言模型(Gemini、Copilot和ChatGPT-4.0)在急性侧腹痛影像推荐中的表现,发现Gemini在专家共识对齐率上显著优于其他模型,展现了其作为临床决策支持工具的潜力,但同时也强调了进一步优化和验证的必要性。
肾绞痛大型语言模型GeminiCopilotChatGPT-4.0影像学推荐专家共识临床决策健康医疗伦理
评估大型语言模型在肾绞痛影像推荐中的表现:Gemini、Copilot与ChatGPT-4.0的比较分析

摘要

背景

自然语言处理(NLP)领域自20世纪50年代问世以来经历了显著发展,如今大型语言模型(LLMs)在应对医学挑战中发挥着关键作用。

目标

本研究旨在评估三种主流LLMs——Gemini、Copilot和ChatGPT-4.0——在急性侧腹痛影像推荐方面与专家共识的一致性。

方法

2024年3月至4月期间,将29个代表不同年龄、性别、妊娠状态、结石病可能性及替代诊断组合的临床情景提交给这三种LLMs。将它们的回答与多学科小组的共识推荐进行比较。主要结果指标为LLM回答与多数共识一致的比例。次要结果包括与共识评级“完美”(9/9)或“优秀”(8/9)回答的一致性,以及与九位专家组成员中任何一位的一致性。

结果

Gemini在65.5%的案例中与多数共识一致,而Copilot和ChatGPT-4.0均为41.4%。在被共识评为“完美”或“优秀”的场景中,Gemini的一致性为69.5%,显著高于Copilot和ChatGPT-4.0的43.4%(p = 0.045和<0.001)。总体而言,Gemini与九位评审员中任何一位的一致性达到82.7%,表明其在处理复杂医学问题上的优越能力。

结论

Gemini在与专家共识的一致性上始终优于Copilot和ChatGPT-4.0,表明其可能成为临床决策中的可靠工具。需要进一步研究以提高LLMs的可靠性和准确性,并解决其融入医疗系统时涉及的伦理和法律挑战。

引言

自然语言处理(NLP)起源于20世纪50年代,当时早期研究人员奠定了这一跨学科领域的基础,融合了语言学、计算机科学和人工智能(AI)。尽管NLP的初始能力有限且不适合直接应用于高风险的医学决策,但该领域已发生了显著转变。这些大型语言模型(LLMs)通过AI和NLP的重大进展开发而成,并接受了包含学术出版物、书籍和指南的综合数据集的广泛训练。自公开推出以来,LLMs已被用于各种科学努力,以应对医疗挑战,例如优化医疗管理并解决全球健康问题[1, 2]。这些工具有巨大的医疗应用潜力。然而,由于不同的概念、精度和可重复性等影响因素,研究结果仍无定论[1, 3]。

尿石症引起的侧腹痛是急诊科(ED)就诊的常见原因,近年来此类就诊的发生率显著增加[4, 5]。尽管如此,急诊科医生在诊断阻塞性肾病的最佳影像学方法上仍存在不确定性。根据欧洲泌尿外科协会关于尿石症的最新指南,非增强CT(NCCT)被推荐用于确认急性侧腹痛患者的结石存在,在初次超声检查之后使用[6]。NCCT被认为是一种有价值的诊断工具,尤其是在初次超声检查结果不明确的情况下。然而,指南缺乏针对CT扫描可能不必要的具体临床情景的明确指导,以便有效管理急性侧腹痛患者。

美国急诊医学学院、美国放射学会和美国泌尿学会的共识报告断言,在多种临床情景中CT成像通常是不必要的,一些患者甚至不需要任何影像学检查[7]。尽管有这些推荐,一项全国性的急诊实践研究显示,从2012年至2018年,疑似阻塞性肾病患者的CT扫描使用显著增加[8]。相比之下,同一项研究表明,超声波检查仅在不到3%的疑似阻塞性肾病ED就诊中使用。

当查阅文献时,没有研究显示LLMs在选择肾绞痛患者合适的影像学方法方面的实用性。此外,LLMs与共识报告之间的关联及其相关优势仍然未知。本研究假设,由于能够访问大量数据,三个最突出的LLMs(OpenAI的ChatGPT-4.0、Google的Gemini和Microsoft的Copilot)可以为急诊科急性侧腹痛患者确定影像学需求和适当性提供有价值的见解。具体来说,本研究旨在评估这三种AI聊天机器人在29个预定义的临床情景中的推荐是否与共识报告一致。

方法

由于本研究未使用患者或临床医生的数据,因此不需要伦理委员会批准。美国急诊医学学院(ACEP)、美国放射学会(ACR)和美国泌尿学会(AUA)的多学科共识报告提供了29个急性侧腹痛的不同案例,每个案例代表了不同的年龄、性别、怀孕状态、结石病可能性及替代诊断组合[7]。本研究使用的29个情景来自ACEP、ACR和AUA制定的共识报告,基于系统文献综述和结构化的改良德尔菲过程,确保每个情景都代表一个临床上重要且基于证据的案例。补充表1详细说明了29个情景的人口统计和临床特征。

2024年3月至4月期间,每个情景都以相同的问题模式提交给三种LLMs,其中包括OpenAI的ChatGPT-4.0、Google的Gemini和Microsoft的Copilot。向他们提出的问题是:“请根据最新数据回答,对于此情景,哪种是最适合在急诊科执行的管理方法:无需(进一步)影像学检查、床旁超声、放射科执行的超声、低剂量CT、标准CT(非增强)或静脉造影CT。”LLMs生成的回答记录在数字数据表中。评估了LLMs回答之间的一致性。一致性水平由原始共识报告中定义的每种情景的专家小组成员数量决定:完美(9/9)、优秀(8/9)、良好(6到7/9)、中等(5/9)和未达成(<5/9)。答案涵盖了多种影像学选择,如无需(进一步)影像学检查、床旁超声、放射科执行的超声、低剂量CT、标准CT(非增强)和静脉造影CT。此外,为了确保符合共识报告,回复被分为三组:无需进一步影像学检查、超声和CT。这种分类是为了保持一致性和可比性,因为LLMs的影像学推荐与专家小组使用的预定义共识回答一致,便于分析和解释结果。AI聊天机器人的回答既在它们之间进行了比较,也与共识成员的回答进行了比较。参考研究识别了9名共识成员,包括来自三个专业协会的代表:美国急诊医师学会(ACEP)、美国放射学会和美国泌尿学会。所有共识成员都是经过认证的执业医师,并根据他们在专业特定指南上的先前工作提名[7]。每个LLM的回答直接与每个情景的共识回答进行比较,从而确保LLMs与专家小组的一致性。

本研究的主要结果指标是比较三种LLMs在预先定义的29个肾绞痛影像学怀疑情景中给出与共识大多数成员相同答案的比例。本研究的次要结果指标是确定三种LLMs在共识报告中达成“完美”和“优秀”水平的问题中与这些答案的兼容性,并确定三种LLMs与多数共识无关,而是与九名成员中任何一名的答案一致的程度。

统计分析使用Jamovi版本2.5.3.0计算机软件进行。LLMs和共识成员给出答案之间的一致性在三组中分别手动评估(所有问题中多数答案、评级为“完美”或“优秀”的共识、参与共识的九名评审员中的任何一名的回答)。结果以正确答案的数量和百分比表示。LLMs给出正确答案之间的一致性通过卡方检验成对评估,每组分别进行。为了统计显示LLMs与参考队列的一致性,计算了Fleiss’ kappa值。P值小于0.05被认为具有统计学意义。

结果

表1展示了每个LLM的个别回答及其与先验共识的一致性。图1展示了每个LLM提供的影像学推荐(无影像、CT或超声)分布。在评估LLMs与所有问题中多数答案的一致性时,Gemini在19个问题(65.5%)中匹配了共识成员的回答。相比之下,Copilot和ChatGPT-4.0在12个问题(41.4%)中给出了相同的答案(图2)。

表1 LLMs答案和与先验共识回答的一致性

完整尺寸表格

图1

推荐数量

完整尺寸图像

图2

兼容和不兼容答案的数量

完整尺寸图像

Gemini在23个问题中正确回答了16个(69.5%),其中共识将答案评为“完美”或“优秀”。相比之下,Copilot和ChatGPT-4.0在23个问题中正确回答了10个(43.4%),与共识评级“完美”或“优秀”一致。(图3)。Gemini的回答显示出比Copilot(p = 0.045)和ChatGPT-4.0(p <0.001)更高的协议,表明性能具有一致的优势。此外,统计分析显示Copilot和ChatGPT-4.0之间的一致性存在显著差异(p = 0.001)。

图3

根据专家共识评级的答案数量

完整尺寸图像

无论多数意见如何,Gemini在评估LLMs与参与共识的9名评审员中任何一名的回答一致时具有最高的一致性,达82.7%(24/29)。Copilot的回答在29个临床情景中的18个(62.1%)一致,而ChatGPT-4.0在19个案例(65.5%)中显示一致(图4)。Gemini和Copilot之间未观察到有意义的一致性差异(p = 0.917)。相比之下,ChatGPT-4.0与Gemini(p = 0.019)和Copilot(p = 0.01)相比表现出显著不同的协议率。ChatGPT-4.0、Gemini和Copilot与九名专家评审员相比的Fleiss’ kappa值分别为0.638、0.698和0.634——表明所有三个模型都有显著的一致性。

图4

与至少一名专家一致的答案数量

完整尺寸图像

讨论

在我们的研究中,我们评估了三种LLMs——Gemini、Copilot和ChatGPT-4.0——与专家小组提供的共识答案的一致性。研究结果显示,Gemini在与专家共识的一致性方面持续表现出更高的程度,与其他被评估的LLMs相比。具体来说,Gemini在与多数共识成员答案的一致性以及与参与共识的九名评审员中任何一名的回答一致方面表现出色,无论多数意见如何。此外,在三个常用的LLMs中,Gemini在达成“完美”或“优秀”共识的查询中最一致。

LLMs在临床决策过程中可以使用的程度仍然是一个日益受到关注的话题。为了解决这个问题,已经进行了几项研究——并且仍在继续进行——比较各种LLMs的表现[9,10,11,12]。在一项涉及134个临床案例的研究中,评估了三种不同LLMs在诊断、治疗和管理相关决策中的准确性,Gemini的整体表现最低[9]。另一项专注于青光眼患者手术规划的研究中,Gemini表现出比ChatGPT-4低32%的一致性,表明表现较差[10]。同样,当评估为整形外科手术中术中决策支持工具时,Gemini相对于ChatGPT-4再次表现出次优表现[11]。相反,另一项评估ChatGPT-4和Gemini评估急性胆囊炎患者诊断和治疗计划能力的研究发现这两个模型的表现相当[12]。与这些先前的研究相反,我们的研究发现,在选择肾绞痛患者适当的影像学方法的背景下,Gemini产生的回答与专家共识小组的回答更加一致。

导致LLMs回答变化的一个潜在因素是在模型训练期间使用了不同的指南来源的影响。虽然我们的研究使用了2019年的共识报告[7]作为参考标准,但可能英国NICE指南自2019年1月起推荐低剂量非增强CT作为一线影像学方法,已被纳入被评估LLMs的训练数据集中。这种指南暴露的差异可能导致LLMs推荐的差异。

然而,这并不削弱我们研究结果的有效性,因为我们的研究专门设计用于评估LLMs与既定专家共识的一致性,而不是基于多个指南来源评估其回答的绝对正确性。在临床实践中,不同指南之间的推荐差异是公认的,并不表明个别指南或其解释存在固有缺陷。未来的研究可以进一步调查不同的LLMs如何整合和优先考虑不同的临床指南,为其决策过程提供更多见解。

Gemini表现出显著更高的一致性水平,提供了与多数共识参与者回答大体相似的回答。这表明Gemini可能在理解和适当解释与专家意见一致的临床案例示例方面具有更好的表现。相比之下,只有41.4%的问题由ChatGPT-4.0和Copilot回答与共识一致,表明与专家指南的一致性较弱。值得注意的是,Gemini在将其总体回答与九名评审员的回答进行比较时达到了82.7%的一致性率。这些发现表明Gemini可能成为需要与专家指南高度一致的应用程序中更可信的工具[7]。此外,Gemini与专家评估的高度一致性率表明它可以帮助临床医生在肾绞痛患者的影像学决策中做出判断。Gemini量表与最高评分回答的高度一致性表明,如果得到未来研究的支持,它可能在专业和学术环境中具有广泛应用的潜力。此外,Gemini和其他LLMs可以通过每次新更新获得更敏感的评估能力。随着更多数据集的使用和每次新更新中更精细分析能力的发展,在临床背景中可以实现更准确的结果。未来的研究可以通过重点关注这些LLMs,尤其是Gemini的可靠性率和准确性率如何通过新更新得到提高,来增加我们在这个主题上的知识和经验。

尽管使用AI驱动的LLMs可能因其在临床案例评估中的表现而引起关注,但AI技术融入医疗系统引发了重大的伦理和法律问题,需要仔细考虑[13, 14]。随着这些复杂模型越来越深入地嵌入关键临床决策过程中,细致评估其对患者结果潜在影响的多方面风险和责任至关重要。一个首要且紧迫的伦理问题是AI系统决策机制的透明性和可解释性。医疗保健提供者必须能够理解和信任这些AI系统生成的建议和理由,以维持患者信心并确保适当治疗。缺乏可解释性可能导致建立清晰问责线的深刻挑战,使得很难确定医疗保健专业人员还是AI系统应对错误或次优决策负责,这可能会显著影响患者的福祉[15]。这种适应对于保护患者信任和确保AI融入医疗保健支持而不是破坏患者护理的质量和可靠性至关重要。

另一个关于LLMs在临床案例评估中可用性的担忧是与AI在医疗保健中使用的合规性相关的法律程序,涉及患者隐私和数据保护的标准[16]。在土耳其,个人数据保护法(KVKK)对患者数据的管理和披露施加了严格的规定[17]。同样,在美国,健康保险可携性和责任法案(HIPAA)对患者数据处理设定了严格规则[18]。AI系统必须设计为遵守这些要求,确保患者信息免受未经授权的访问和泄露。这突显了确保医疗保健环境下AI系统设计符合严格的数据保护法规的重要性——如土耳其的KVKK和美国的HIPAA——以保护患者信息免受未经授权的访问和泄露。法律上,AI在医疗保健中的使用必须遵守有关患者保密和数据保护的标准[16]。美国的健康保险可携性和责任法案对患者数据的管理和披露设定了严格规则[17]。AI系统必须设计为遵守这些要求,确保患者信息免受未经授权的访问和泄露。

局限性

本研究有几个局限性,在解释其发现时应予以考虑。首先,向LLMs提出的问题类型和措辞的变化可能会影响其回答,引入可能影响结论的变异性。然而,使用标准化的29个临床情景有助于减轻这种变异性,确保一致的比较基础。

其次,本研究的普遍性受到所呈现的具体情景和问题的限制。虽然结果可能不适用于所有医疗查询,但所选情景代表了急诊科常见的临床情况。这种相关性支持了研究结果在预期背景下的适用性。第三,本研究中每个情景只呈现了一次。重复测试可能会提高研究结果的质量和稳健性。另一个局限是没有进行功效分析。相反,本研究使用了共识报告中的所有情景进行设计。最后,Copilot使用了ChatGPT-4.0的基础设施。然而,它还将其Microsoft数据库集成到其基础设施中,重点是产生更平衡、创造性和精确的答案。因此,尽管它们使用类似的基础设施,但它们使用不同的方法来得出给定数据的结果,这使这两种LLMs模型彼此区分开来。

尽管存在这些局限性,本研究的设计和情景选择为结论提供了坚实的基础。未来的研究可以进一步解决这些局限性,以增强我们对医疗环境中LLMs的理解。

结论

本研究表明,Gemini在与专家共识的一致性方面表现出比Copilot和ChatGPT-4.0更高的程度,比其他LLMs具有更强的能力处理复杂的医学询问。尽管存在一些局限性,但研究结果强调了Gemini在临床决策中成为更可靠工具的潜力,同时也表明在广泛应用于临床实践之前需要进一步完善和验证。未来的研究应集中在进一步提高LLMs的可靠性和准确性,同时解决伦理和法律挑战。


(全文结束)

大健康
大健康