多年来,人工智能领域的假设一直是:专业化等于优越。为了应对医学中的特定挑战,你需要一个经过医学数据微调的AI模型,使其成为该领域的专家。这一逻辑推动了在构建专门的医疗AI系统上的巨大投资。但是一项新的研究挑战了这一观点,表明通用AI模型(那些训练范围广泛的主题的模型)可能已经足够应对许多医疗任务。
如果这一发现属实,它可能会颠覆我们对医疗保健中AI的看法,节省时间和资源,同时仍能提供强大的结果。但它也引发了关于专业化在其中位置的更深层次问题。
通用模型与专科模型之争
这项来自约翰霍普金斯大学的研究比较了两种类型的AI模型:
- 通用模型:这些模型接受大量多样化的数据训练,涵盖了从文学到科学和医学的各个领域。它们没有针对任何特定领域进行优化,但拥有丰富的通用知识。
- 医疗模型:这些模型从通用模型开始,但会经历一个额外的训练步骤,称为领域适应预训练(DAPT)。这涉及在特定的医疗数据上微调模型,期望它们在如医疗诊断或研究综合等任务中表现更好。
研究人员通过医疗问答任务测试了这些模型。结果如何?通用模型在大多数情况下表现得一样好或更好。具体来看:
- 通用模型在近50%的案例中与专门的医疗模型表现相当。
- 在38%的案例中,通用模型实际上超过了其医疗对手。
- 专门的医疗模型仅在12%的情景中占优势。
这些数字令人震惊。它们表明,对于大多数医疗任务,通用AI模型(无需额外的领域特定训练)已经非常有能力。
为什么通用模型在医学上如此出色?
通用模型的强大之处在于其训练过程。这些系统接触了大量的数据集,不仅包括通用知识,还包括大量的医学信息。可以将其视为一个副产品,即一个广泛阅读的通才自然而然地在医学方面积累了专业知识。
这意味着通用模型通常能够在不需进一步适应的情况下有效地推理医学主题。它们从广泛的训练中吸收了足够的医学知识,足以应对大多数常规任务。
但那12%呢?
在完全否定专门的医疗模型之前,让我们稍作停顿。那12%的优势虽然看似微小,但在医学中,即使是微小的改进也可能产生深远的影响。
边缘案例很重要:罕见疾病、复杂的诊断难题和尖端治疗往往超出通用模型的舒适区。在这里,专门模型的额外训练可能意味着正确的诊断与错失机会之间的区别。
高风险情境:在单个错误可能导致灾难性后果的情境下,例如手术规划或重症监护决策,即使性能略有提高也可能挽救生命。
因此,尽管通用模型可能适用于大多数情况,专门模型在处理罕见、复杂和高风险任务时仍可能具有不可替代的价值。
临床力量:提出正确的问题
研究中最有趣的发现之一是提示工程的重要性——即如何为AI框架问题。研究人员并不是简单地向两个模型抛出相同的问题,而是优化了每个模型的提示,以突出其优势。作者明确指出:
“我们发现,提示优化对于实现强大性能至关重要,当提供精心设计的提示时,通用模型通常可以匹配或超过领域适应模型的性能。”
这是关键。AI模型并不是简单地“知道”正确答案,而是基于给定的输入生成响应。模糊或表述不当的提示可能导致模糊或无关的答案。但精心设计的问题可以解锁模型的全部潜力。例如:
- 宽泛提示:什么是糖尿病?通用的回答,深度有限。
- 具体提示:用普通人能理解的术语解释2型糖尿病的治疗选项。更具体和实用的回答。
这表明,最大化AI性能的关键不仅在于如何训练模型,还在于如何与模型互动。
医学和AI的关键影响
这项研究促使我们重新思考如何在医疗保健中开发AI。与其假设每个问题都需要专门的解决方案,我们或许应该关注优化和智能部署通用模型。
- 成本效益:训练专门模型资源密集。如果通用模型可以处理大多数任务,这些资源可以用于其他医疗创新领域。
- 更广泛的访问:通用模型广泛可用,不需要像专门系统那样高水平的技术基础设施,因此在低资源环境中更具可及性。
- 有针对性的专业化:我们不必为每一个可以想象的任务微调模型,而是可以专注于最需要专业化的高影响力领域。
更大的图景
这项研究挑战了一个关于医学AI的基本假设:更多的专业化自动意味着更好的结果。实际上,通用AI模型已经非常强大。通过明智的应用——更好的提示、战略用例和对其局限性的理解——它们可以重塑医疗保健,方式我们刚刚开始想象。
但这并不意味着专业化没有位置。相反,它建议一种转变:用通用模型处理大多数任务,用专门模型处理少数任务。在医学中,就像在生活中一样,关键不在于做得更多,而在于做得最好。
也许真正的革命不在于建立新工具,而在于学会使用我们已有的工具。
(全文结束)


