随着人工智能(AI)在医疗保健领域的迅速整合,其临床可靠性问题变得比以往任何时候都更加紧迫。在一项新发表的实证研究中,意大利研究人员对当今顶级通用语言模型在心脏病学特定问题上的表现进行了批判性考察。
这项研究题为《评估心脏病学中的大型语言模型:ChatGPT、Claude和Gemini的比较研究》,发表在《Hearts》杂志上。该研究对大型语言模型(LLMs)在高风险的心脏病学领域内的表现进行了首批系统评估之一。
通用人工智能能在心脏病学决策中提供帮助吗?
该研究解决了一个紧迫的临床创新问题:广泛训练的人工智能模型能否在心脏病学中提供可靠的答案——这是一个准确性至关重要的领域?研究人员对三个最突出的LLM进行了严格的正面比较,包括ChatGPT(OpenAI)、Claude(Anthropic)和Gemini(Google DeepMind)。
总共设计了70个临床提示,并按诊断阶段(诊断前和诊断后)和用户类型(患者与医生)进行了划分。这些提示模拟了患者寻求信息和临床医生寻求帮助时的实际问题。每个模型对所有提示作出回应,然后由三位专家心脏病学家使用标准化的5分李克特量表进行盲评。评估人员从四个关键维度评估了这些回答:科学准确性、完整性、清晰度和一致性。
结果显示,ChatGPT的表现始终优于其竞争对手。平均而言,ChatGPT的得分在3.7到4.2之间,而Claude的得分在3.4到4.0之间,Gemini的得分较低,为2.9到3.7之间。诊断前和以患者为中心的问题在所有三个模型中都引发了更强的表现,这表明当前的LLMs更擅长处理一般信息内容,而不是技术性的诊断后细节。
模型输出有何不同,为什么重要?
模型输出的差异不仅仅是数字上的,它们具有实际意义。ChatGPT的回答更符合经验丰富的心脏病专家的期望,特别是在清晰度和一致性方面。Claude紧随其后,但在准确性和深度上有所欠缺,而Gemini则表现出最大的不一致性,尤其是在诊断后医生级别的问题上。
尽管存在这些差异,但没有任何模型获得完美的分数,突显了LLMs在专业医疗领域内持续存在的局限性。即使是ChatGPT的领先表现也显示出需要人类监督和专家验证的领域。研究发现,表现会根据问题的结构和背景而变化,患者提出的问题会产生更完整和易懂的答案,而医生提出的问题则不然。
为了确保研究结果的稳健性,作者应用了全面的统计分析,包括Kruskal–Wallis检验、Dunn事后检验、Kendall’s W和加权kappa度量。这些测试确认了心脏病专家评审者之间存在实质性的一致性,增加了比较结果的可信度。
临床和伦理上的意义是什么?
尽管ChatGPT在这项研究中表现突出,但作者警告不要过早地在临床环境中采用任何通用人工智能进行自主决策。研究结果表明,在没有领域特定的微调和严格监督的情况下,即使是最优秀的模型也尚未准备好取代心脏病学中的临床判断。
该研究还强调了情境意识的重要性。患者提出的问题触发了更准确和易懂的回答,这表明人工智能工具可能更适合于一线教育或分诊任务,而不是作为后端临床顾问——至少目前如此。这一细微差别对LLMs如何融入医疗保健工作流程以及在哪里实施保障措施具有重大影响。
此外,研究人员强调,虽然像ChatGPT这样的LLMs显示出明确的前景,但实现临床认证和实际部署的道路必须通过严格的测试、跨学科合作和政策框架来铺就,以解决问责制和透明性问题。
【全文结束】


