随着大型语言模型(LLMs)逐渐融入医疗实践,这项研究提供了一个评估和改进其可靠性的关键框架。人工智能(AI)在医疗领域的整合引发了范式转变,提供了从预测诊断到个性化治疗方案的一系列解决方案。其中,大型语言模型因其处理和分析复杂数据集的能力而成为变革工具,有望彻底改变临床决策。然而,尽管潜力巨大,概率预测的可靠性和准确性问题仍然是其在医疗环境中全面采用的障碍。
在一篇题为“大型语言模型的概率医学预测”的开创性研究中,研究人员探讨了在医学应用中使用大型语言模型(LLMs)的前景和挑战。该研究由哈佛医学院及其附属机构的专家进行,评估了LLMs生成的概率预测的可靠性,这是将AI集成到医疗决策中的关键组成部分。
概率的双重挑战
作者重点关注了两种由LLMs生成的概率输出:显式概率和隐式概率。显式概率通过文本提示直接生成,如“请提供预测的概率”。然而,由于LLMs固有的数值推理限制,显式概率的可靠性往往较差。隐式概率则从特定标记预测的可能性中得出,提供了更统计上可靠的选择,但在多样化的场景中提取和应用仍具挑战。
该研究对六个先进的开源LLMs和五个医学数据集进行了广泛评估,在不同条件下比较了这两种概率类型。结果显示,隐式概率在区分度、精度和召回率等指标上始终优于显式概率。这种差异在较小模型和标签不平衡的数据集中尤为明显,引发了对显式概率在临床环境中广泛应用的担忧。
性能表现
研究评估了包括Meta-Llama-3.1-70B、Mistral-Large和Qwen2-72B在内的先进LLMs。其中,Meta-Llama-3.1-70B在美国医学执照考试(USMLE)和基于电子健康记录的MGB-SDoH数据集上的准确性最高。
有趣的是,小型模型在显式和隐式概率之间的差距更为显著,突显了较不成熟架构的局限性。这种差距在标签不平衡的数据集中被放大,显式概率更容易出现错误。例如,在罕见结果的情况下,显式概率往往无法反映真实可能性,可能误导临床决策。
研究人员还发现,即使大型模型也倾向于过度自信地极化预测,无论其正确与否。隐式概率提供了更细致的分布,而显式概率则倾向于集中在极端值如90%或10%,削弱了其可靠性。
对医疗的影响
研究结果强调了在临床环境中谨慎解读AI预测的必要性。虽然显式概率易于实现,但它们可能会放大偏差并误导用户关于模型预测的信心。另一方面,尽管隐式概率更准确,但仍需进一步改进和更好地集成到用户工作流程中。
为了弥合这一差距,研究提倡开发结合显式概率灵活性和隐式概率统计严谨性的混合方法。通过微调LLMs以改善数值推理和概率估计,可以为医疗领域的安全和有效AI应用铺平道路。
展望未来
随着LLMs逐渐融入医疗实践,这项研究提供了一个评估和改进其可靠性的关键框架。通过揭示当前概率方法的局限性,作者鼓励持续的研究和创新,使AI成为临床决策中值得信赖的盟友。
这项研究不仅推进了医疗AI领域的发展,还为其他需要高质量概率预测的领域设定了基准。在全球医疗系统应对创新和责任的双重挑战时,这类研究照亮了伦理和有效AI部署的道路。
(全文结束)


