研究发现AI诊断准确率接近非专科医生Study Finds AI Diagnosis Accuracy Nears Non-Specialist Docs

环球医讯 / AI与医疗健康来源:winbuzzer.com日本 - 英语2025-04-20 19:00:00 - 阅读时长3分钟 - 1289字
大阪都市大学的一项元分析发现,生成式AI在医学诊断方面的准确性已经接近非专科医生,但仍然显著落后于专家。这项研究评估了83项研究,显示AI的平均诊断准确率为52.1%。
AI医学诊断健康准确率非专科医生人类专家皮肤科泌尿科辅助工具偏见透明度
研究发现AI诊断准确率接近非专科医生

大阪都市大学的一项大规模分析发现,生成式AI模型在医学诊断方面的准确性正在接近非专科医生,但仍然显著落后于人类专家。该研究由Hirotaka Takita博士和副教授Daiju Ueda领导,系统地回顾了83项研究,以比较AI与医生的表现,结果显示AI的平均诊断准确率为52.1%。

这项元分析发表在《自然》杂志上,筛选了自2018年6月以来发表的超过18,000篇论文。它评估了多种AI模型,包括广泛研究的GPT-4以及Llama3 70B、Gemini 1.5 Pro和Claude 3 Sonnet等特定模型。

核心比较显示,AI的诊断表现与非专家医生的统计结果相似,仅相差0.6%,略逊于人类。然而,医学专家在准确性方面保持明显优势,比AI模型高出15.8%。

不同领域和复杂性的表现各异

AI模型在不同医学学科中的表现各不相同。它们在皮肤科领域表现出色,因为视觉模式识别是当前AI的强项。然而,研究人员警告说,皮肤科也需要复杂的推理能力,而不仅仅是视觉匹配。

相反,关于AI在泌尿科领域的熟练度的研究主要来自一项大型研究,这限制了这些结果的广泛应用。总体而言,分析表明,AI在处理需要解释大量详细患者信息的复杂病例时往往表现不佳,而这些正是专家通过经验和细致的临床推理所擅长的领域。

AI作为辅助工具,而非替代品

尽管与专家相比,AI在准确性方面存在不足,但研究表明AI在医疗支持和培训方面具有潜在作用。大阪都市大学在2025年4月18日的一份声明中引用了Takita博士的话:“这项研究表明,生成式AI的诊断能力与非专科医生相当。它可以用于医学教育,支持非专科医生,并在医疗资源有限的地区辅助诊断。”

这表明未来AI可能更多地作为补充工具,增强人类的能力而不是取代人类,这一观点也在更广泛的关于AI在医学中的讨论中得到呼应,其中结合人机性能通常优于单独使用任何一方。

持续的障碍:偏见和透明度

对AI潜力的热情被分析中发现的显著挑战所平衡。一个关键问题是许多商业AI模型使用的训练数据缺乏透明度。这种不透明性使得难以评估潜在的偏见或确定模型的性能是否可以推广到不同的患者群体。

研究人员指出,透明度对于理解模型的知识和局限性至关重要。使用PROBAST工具进行的质量评估显示,76%的纳入研究具有高偏见风险,这通常源于使用小测试数据集或缺乏关于AI训练数据的足够细节,影响了外部验证评估。

一些专家还担心,基于一般健康记录训练的AI可能会无意中学习并复制历史上的诊断错误。

医疗AI的前进之路

大阪大学的研究正值专门医疗AI工具的开发工作继续进行之际,例如Bioptimus在2024年7月发布的H-optimus-0病理学模型。这项元分析提供了一个必要的基准,评估这些工具与人类从业者相比的一般诊断能力水平。

展望未来,Takita博士强调了通过更复杂的临床场景和更清晰的AI过程进行验证的持续需求:“需要进一步的研究,如在更复杂的临床场景中的评估、使用实际医疗记录的性能评估、提高AI决策的透明度以及在多样化患者群体中的验证,以验证AI的能力。”


(全文结束)

大健康
大健康