人工智能(AI)的进步正在改变我们与技术的互动方式。一个令人兴奋的发展是能够理解文本并可视化数据的模型的兴起。这些工具在医疗评估中展现出潜力,但它们在日常临床环境中的实际应用——特别是那些结合文本和图像的应用——尚未得到充分测试。本文探讨了一种名为GPT-4V的特定AI模型在诊断涉及图像和患者病史的复杂医疗案例中的表现。
背景研究
该研究于2023年10月18日至10月25日进行。研究人员使用了来自《新英格兰医学杂志》的一系列医学挑战案例。这些挑战案例创建于2022年1月之后,包含93个具有已确认医疗结果的案例。研究人员将这些案例分为四大主要类别:1) 临床图像,2) 像MRI和X光片这样的放射学扫描,3) 如组织切片的病理图像,以及4) 来自各种医疗程序的图像。
为确保AI模型专注于图像进行诊断,图像描述已从临床文本中移除。该模型通过三种不同方式进行测试:a) 同时使用文本和图像,b) 仅使用文本,以及c) 仅使用图像。目的是观察GPT-4V基于不同类型的输入所选择的诊断与已确认的医疗结果的匹配程度。
研究方法
主要目标是检查GPT-4V在多模态输入(文本和图像)与仅文本或仅图像输入相比的表现如何。次要目标包括观察四种图像类别和各种医学专业之间的性能差异。为了考虑随机猜测的因素,进行了调整,并使用统计方法来比较性能差异。
研究发现
在检查93个案例时,发现GPT-4V在80.6%的案例中提供了与已确认诊断相匹配的诊断,这意味着在93个案例中,它正确诊断了75个。当仅使用文本信息分析挑战时,模型的准确率为66.7%。当仅使用图像时,准确率下降到45.2%。在对随机猜测进行调整后,多模态输入的准确率为70.5%,仅文本为54.3%,仅图像为29.3%。
此外,与单独使用文本或图像相比,同时使用文本和图像时,模型表现出显著的改进。然而,在不同类型的图像之间,性能没有显著差异,比较各种医学专业时也没有显著差异。
结果讨论
研究结果表明,GPT-4V在诊断包含各种类型图像和临床数据的复杂医疗案例时相当准确。该研究强调,该模型可以通过结合文本和图像的信息来提高其诊断准确性,而不是仅依赖一个来源。这反映了医疗专业人员通常如何基于多方面的信息做出决策。
尽管表现良好,GPT-4V在解释单个临床图像时的准确率较低,但在涉及图像和文本的更全面设置中,仍成功提高了其整体诊断能力。随着持续改进,像GPT-4V这样的AI模型可能在帮助医生做出诊断方面发挥重要作用。
局限性与未来研究
需要注意的一个重要点是,关于该模型的训练数据及其构建方式的详细信息并未向公众公开。这使得难以识别其诊断方法中可能存在的偏见或局限性。鉴于本研究中使用的图像挑战主要是为了教育目的,未来的研究应着重于使用真实世界临床数据确认这些结果,同时考虑隐私和伦理问题。
人工智能在医疗保健中的潜在影响
在医疗环境中使用如GPT-4V等模型的影响可能非常重大。通过将AI整合到诊断过程中,它可以协助医疗保健提供者做出更明智的决策。这在复杂且可能需要多个数据源输入的案例中尤其有价值。
分析文本和视觉信息的能力可以改善患者治疗结果,因为该模型可能会发现单一来源可能遗漏的细节。这可以带来更快的诊断和治疗计划,在医疗保健中时间往往起着关键作用。
结论
总之,研究表明,GPT-4V通过有效结合不同类型的信息,在诊断复杂医疗案例方面有潜力成为一个可靠的工具。虽然在透明度和实际应用方面还有改进的空间,但该模型的能力预示着AI能够有意义地支持医疗专业人员的未来。
随着我们向前发展,在实际临床环境中进一步验证这些发现将至关重要,以充分理解AI在增强医疗实践方面可能发挥的作用。医学中AI的持续发展和完善可以引领一种新的医疗保健交付方式,旨在提供更好的患者护理和结果。
【全文结束】


