语言模型的序贯诊断
Sequential Diagnosis with Language Models
美国英文科技与健康
2025-07-07 12:38:15阅读时长2分钟600字
人工智能在扩展专家医学知识和推理的可及性方面具有巨大潜力。然而,大多数对语言模型的评估依赖于静态病例描述和多项选择题,这些无法反映现实世界中循证医学的复杂性和细微差别。在临床实践中,医生会逐步形成并修正诊断假设,根据刚刚学到的内容调整每个后续问题和测试,并在作出最终诊断前权衡不断演变的证据。为了模拟这种迭代诊断过程,我们推出了“序贯诊断基准”(Sequential Diagnosis Benchmark),将304个诊断难度较高的《新英格兰医学杂志》临床病理会议(NEJM-CPC)案例转化为分步诊断场景。医生或AI从一个简短的案例摘要开始,必须迭代地向一个守门员模型请求更多信息,该模型仅在明确询问时揭示发现结果。性能不仅通过诊断准确性进行评估,还包括就诊和测试的成本。作为对基准测试的补充,我们提出了“MAI诊断协调器(MAI-DxO)”,这是一个与模型无关的协调器,可以模拟一组医生,提出可能的鉴别诊断并战略性选择高价值且成本效益高的测试。当与OpenAI的o3模型配对时,MAI-DxO达到了80%的诊断准确率——是全科医生平均20%准确率的四倍。相比医生,MAI-DxO还减少了20%的诊断成本,相比现成的o3模型则减少了70%。当配置为最高准确率时,MAI-DxO达到85.5%的准确率。这些性能增益适用于来自OpenAI、Gemini、Claude、Grok、DeepSeek和Llama系列的模型。我们强调了当AI系统被引导以迭代思考和审慎行动时,如何在临床护理中提高诊断精确性和成本效益。
(全文结束)
声明:本文仅代表作者观点,不代表本站立场,如有侵权请联系我们删除。
本页内容撰写过程部分涉及AI生成(包括且不限于题材,素材,提纲的搜集与整理),请注意甄别。