多年来,人工智能领域的假设一直是专业化等于优越性。为了应对医学领域的特定挑战,你需要一个经过医疗数据微调的AI模型,使其成为领域专家。这一逻辑推动了大量投资用于构建专门的医疗AI系统。但是一项新的研究挑战了这一观点,表明通用目的的AI模型(即那些接受广泛主题训练的模型)可能已经足够应对许多医疗任务。
如果这一发现属实,它可能会颠覆我们对医疗保健中AI的看法,节省时间和资源,同时仍能提供强大的结果。但它也引发了关于专业化在其中地位的更深层次问题。
通用模型与专业模型之争
约翰霍普金斯大学的研究比较了两种类型的AI模型:
- 通用模型:这些模型接受大量多样化的数据训练,涵盖从文学到科学和医学的各个领域。它们没有针对任何特定领域进行定制,但拥有丰富的通用知识。
- 医疗模型:这些模型从通用模型开始,但经过一个额外的训练步骤,称为领域适应预训练(DAPT)。这涉及在特定医疗数据上微调模型,期望它们在如医疗诊断或研究综合等任务中表现更好。
研究人员通过医疗问答任务对这些模型进行了测试。结果如何?通用模型在大多数情况下表现得一样好或更好。具体来说:
- 通用模型在近50%的案例中与专业医疗模型的表现相当。
- 在38%的案例中,通用模型实际上超过了其医疗同行。
- 专业医疗模型仅在12%的情景中占据优势。
这些数字令人瞩目。它们表明,对于大多数医疗任务,通用目的的AI模型(无需任何额外的领域特定训练)已经非常有能力。
为什么通用模型在医学上如此出色?
通用模型的力量在于其训练。这些系统接触了大量的数据集,不仅包括一般知识,还包括大量的医疗信息。可以将其视为一种副产品,就像一个通才通过广泛阅读而获得了医学领域的专业知识一样。
这意味着通用模型通常能够在不需进一步适应的情况下有效推理医学话题。它们从广泛的训练中吸收了足够的医学知识,足以应对大多数常规任务。
但是那12%呢?
在彻底否定专业医疗模型之前,让我们稍作停顿。那12%的优势可能看起来很小,但在医学中,即使是微小的改进也可能产生深远的影响。
边缘案例很重要:罕见疾病、复杂的诊断难题和尖端治疗往往超出了通用模型的舒适区。在这里,专业模型的额外训练可能意味着正确诊断与错失机会之间的差异。
高风险场景:在单个错误可能导致灾难性后果的背景下,如手术规划或重症监护决策,即使性能略有提升也可能挽救生命。
因此,虽然通用模型可能足以应对大多数情况,但在罕见、复杂和高风险的任务中,专业模型仍然具有重要价值。
临床力量:提出正确的问题
这项研究中最有趣的收获之一是提示工程的重要性——即如何向AI提出问题。研究人员并没有简单地用同样的问题测试两个模型;他们优化了提示,使其适合每个模型的特点。作者明确指出:
“我们发现,提示优化对于实现强大性能至关重要,当提供精心设计的提示时,通用模型通常可以匹配或超过领域适应模型的性能。”
这是关键点。AI模型并不是“知道”正确的答案,而是根据给定的输入生成响应。模糊或措辞不当的提示可能导致模糊或无关的回答。但精心设计的问题可以解锁模型的全部潜力。例如:
- 宽泛提示:什么是糖尿病?——一个内容有限的一般回答。
- 具体提示:用外行人的话解释2型糖尿病的治疗选项。——一个更具针对性和实用性的回答。
这表明,最大化AI性能的关键不仅在于如何训练它们,还在于如何与它们互动。
医学和AI的关键影响
这项研究促使我们重新思考如何在医疗保健中开发AI。与其假设每个问题都需要一个专门的解决方案,我们或许应该考虑优化和智能部署通用模型。
- 成本效益:训练专业模型是资源密集型的。如果通用模型可以处理大多数任务,这些资源可以用于其他医疗创新领域。
- 更广泛的访问:通用模型广泛可用,不需要像专业系统那样的技术基础设施,从而使其更适合低资源环境。
- 有针对性的专业化:与其为每个可想象的任务微调模型,我们可以专注于那些最需要专业化的高影响力领域。
更大的图景
这项研究挑战了一个关于医学中AI的基本假设:更多的专业化自动意味着更好的结果。实际上,通用目的的AI模型已经非常强大。通过明智的应用——更好的提示、战略使用案例和对其局限性的理解——它们可能以我们刚刚开始想象的方式重塑医疗保健。
但这并不意味着专业化没有位置。相反,它建议了一种转变:为多数任务使用通用模型,为少数任务使用专业模型。在医学中,正如在生活中一样,关键不在于做更多,而在于做最有效的事情。
也许真正的革命不在于构建新工具,而在于学会使用我们已有的工具。
(全文结束)


