多年来,人工智能领域的普遍假设是,专业化等同于优越性。为了应对医学中的特定挑战,你需要一个经过医学数据微调、成为领域专家的AI模型。这一逻辑推动了在构建专门的医疗AI系统上的巨大投资。但是一项新的研究挑战了这一观点,表明通用型AI模型(即那些接受广泛主题训练的模型)可能已经足够应对许多医疗任务。
如果这一发现属实,它可能会颠覆我们对医疗保健领域AI的看法,节省时间和资源,同时仍能提供强大的结果。但这也会引发更深层次的问题,即专业化在其中的地位如何。
通用型与专用型之争
约翰霍普金斯大学的研究比较了两种类型的AI模型:
- 通用模型:这些模型接受大量多样化的数据训练,涵盖从文学到科学和医学的各个方面。它们没有针对任何特定领域进行优化,但拥有丰富的通用知识。
- 医疗模型:这些模型从通用模型开始,但会经历一个额外的训练步骤,称为领域适应预训练(DAPT)。这涉及在特定的医疗数据上微调模型,期望它们在医疗诊断或研究综合等任务上表现更好。
研究人员通过医疗问答任务测试了这些模型的表现。结果如下:
- 通用模型在近50%的案例中与专用医疗模型的表现相当。
- 在38%的案例中,通用模型实际上超过了其医疗对手。
- 专用医疗模型仅在12%的情景中占据优势。
这些数字令人震惊。它们表明,对于大多数医疗任务,通用型AI模型(无需任何额外的领域特定训练)已经非常强大。
为什么通用模型在医学上如此出色?
通用模型的力量在于其训练过程。这些系统接触到了庞大的数据集,不仅包括一般知识,还包括大量的医学信息。可以将其视为一种副产品,就像一个广泛阅读的通才在医学方面也积累了专业知识。
这意味着通用模型通常可以在没有进一步适应的情况下有效地推理医学话题。它们从广泛的训练中吸收了足够的医学知识,足以应对大多数常规任务。
那12%呢?
在彻底否定专用医疗模型之前,让我们稍作停顿。那12%的优势虽然看似微小,但在医学领域,即使是微小的改进也可能具有深远的影响。
边缘案例很重要:罕见疾病、复杂的诊断难题和尖端治疗通常超出通用模型的舒适区。在这种情况下,专用模型的额外训练可能意味着正确诊断与错失机会之间的区别。
高风险场景:在单个错误可能导致灾难性后果的背景下,如手术规划或重症监护决策,即使性能略有提升也可能挽救生命。
因此,尽管通用模型可能足以应对大多数情况,但专用模型在罕见、复杂和高风险的任务中仍然可能具有重要价值。
临床力量:提出正确的问题
研究中最有趣的收获之一是提示工程的重要性——即问题的表述方式。研究人员并没有简单地向两个模型抛出相同的问题;他们优化了提示,使其能够突出每个模型的优势。作者明确指出:
“我们发现,提示优化对于实现强表现至关重要,当提供精心设计的提示时,通用模型通常可以匹配或超过领域适应模型的表现。”
这一点至关重要。AI模型并不是“知道”正确答案,而是根据输入生成响应。模糊或表述不当的提示可能导致模糊或不相关的答案。但精心设计的问题可以解锁模型的全部潜力。例如:
- 宽泛提示:什么是糖尿病? 通用的回答,深度有限。
- 具体提示:用外行人的话解释2型糖尿病的治疗选项。 更有针对性和可操作的答案。
这表明,最大化AI性能的关键不仅在于如何训练模型,还在于我们如何与模型互动。
医学和AI的关键影响
这项研究邀请我们重新思考如何在医疗保健领域开发AI。与其假设每个问题都需要一个专门的解决方案,我们或许应该关注优化和智能部署通用模型。
- 成本效益:训练专用模型资源密集。如果通用模型可以处理大多数任务,这些资源可以用于其他医疗创新领域。
- 更广泛的访问:通用模型广泛可用,不需要像专用系统那样的技术基础设施,使其更适合低资源环境。
- 有针对性的专门化:我们不必为每个可想象的任务微调模型,而应专注于最需要专门化的关键领域。
更大的图景
这项研究挑战了一个关于医学AI的基本假设:更多的专门化自动意味着更好的结果。实际上,通用型AI模型已经非常强大。通过明智的应用——更好的提示、战略使用案例和对其局限性的理解——它们可以以我们刚刚开始想象的方式重塑医疗保健。
但这并不意味着专门化没有位置。相反,它建议我们调整重点:用通用模型处理大多数任务,用专用模型处理少数任务。在医学和生活中,关键不总是做更多,而是做最适合的事情。
或许真正的革命不在于构建新工具,而在于学会使用我们已有的工具。
(全文结束)


