Medprompt 是一种运行时引导策略,展示了通过结构化、多步骤的提示技术(如链式思维(CoT)推理、精选的少样本示例和选择混洗集成)指导通用大语言模型(LLM)在医学等专业领域实现最先进性能的潜力。这种方法显著提高了在 MedQA 等医疗基准测试中的表现,错误率减少了近 50%,而无需对模型进行微调。OpenAI 的 o1-Preview 模型进一步体现了 LLM 设计的进步,通过在运行时引入推理来动态优化输出,超越了传统的 CoT 策略,以应对复杂任务。
历史上,特定领域的预训练对于在专业领域取得高绩效至关重要,如 PubMedBERT 和 BioGPT 等模型所示。然而,随着像 GPT-4 这样的大型通用模型的兴起,这种范式发生了变化,这些模型在 USMLE 等任务上超过了特定领域的模型。通过整合动态提示方法,如 Medprompt,通用模型的表现得到了增强,使 GPT-4 等模型在医疗基准测试中取得了优异成绩。尽管经过微调的医疗模型如 Med-PaLM 和 Med-Gemini 表现优秀,但采用改进的推理时间策略的通用方法,如 Medprompt 和 o1-Preview,为高风险领域提供了可扩展和有效的解决方案。
微软和 OpenAI 的研究人员评估了 o1-Preview 模型,代表了 AI 设计的一个转变,即在训练过程中引入 CoT 推理。这种“推理原生”方法在推理时实现了逐步解决问题的能力,减少了对 Medprompt 等提示工程技术的依赖。他们的研究发现,o1-Preview 在医疗基准测试中超越了 GPT-4,即使使用了 Medprompt,而少样本提示反而对其性能产生了负面影响,表明上下文学习对这类模型的效果较差。虽然资源密集型策略如集成仍然是可行的,但 o1-Preview 以更高的成本实现了最先进的结果。这些发现突显了需要新的基准测试来挑战推理原生模型,并优化推理时间的性能。
Medprompt 是一个旨在通过结合动态少样本提示、CoT 推理和集成来优化通用模型(如 GPT-4)在医学等专业领域的框架。它动态选择相关示例,使用 CoT 进行逐步推理,并通过多次模型运行的多数投票集成提高准确性。元推理策略在推理过程中指导计算资源的分配,而外部资源集成(如检索增强生成(RAG))确保实时访问相关信息。高级提示技术和迭代推理框架(如自教推理器(STaR))进一步优化模型输出,强调推理时间的扩展而非预训练。多代理协作为复杂任务提供了解决方案。
该研究在医疗基准测试中评估了 o1-Preview 模型,将其性能与 GPT-4 模型进行了比较,包括使用 Medprompt 增强策略的模型。主要指标是准确性,评估数据集包括 MedQA、MedMCQA、MMLU、NCLEX、JMLE-2024 以及 USMLE 备考材料。结果显示,o1-Preview 在推理密集型任务和多语言案例(如 JMLE-2024)中通常超过 GPT-4。提示策略,尤其是集成,增强了性能,但少样本提示有时会对其产生负面影响。o1-Preview 实现了高准确性,但成本高于 GPT-4,后者在某些任务上提供了更好的成本-性能平衡。该研究强调了在优化大型医疗语言模型时,准确性、价格和提示策略之间的权衡。
总之,OpenAI 的 o1-Preview 模型显著提升了 LLM 的性能,在医疗基准测试中实现了更高的准确性,而无需复杂的提示策略。与使用 Medprompt 的 GPT-4 不同,o1-Preview 减少了对少样本提示等技术的依赖,这些技术有时会对性能产生负面影响。尽管集成仍然有效,但需要仔细权衡成本-性能。该模型确立了新的帕累托前沿,提供了更高质量的结果,而 GPT-4 则为某些任务提供了更具成本效益的替代方案。随着 o1-Preview 在现有基准测试中接近饱和,迫切需要更具挑战性的评估来进一步探索其在实际应用中的能力。
(全文结束)


