收集患者的病史一直是诊断的基石,指导医生做出临床决策。然而,随着患者数量的增加、医疗资源的有限以及咨询时间的缩短,这一过程受到了压力。COVID-19大流行加速了远程医疗的普及,进一步复杂化了传统的医患互动。这些挑战突显了创新解决方案的重要性,以保持病史采集和诊断准确性的质量。
最近生成式人工智能(AI)的进步,特别是大型语言模型(LLM),为应对这些挑战提供了有希望的方向。LLM在处理复杂对话方面表现出色,使其成为协助患者病史采集和初步诊断支持的有力候选者。然而,它们是否准备好用于现实世界的临床应用仍是一个争论的话题。
对LLM在医疗环境中的评估通常集中在标准化测试格式上,例如选择题。虽然这些测试可以评估知识,但无法评估真实世界医疗互动中的动态对话性质。这一差距凸显了需要开发模拟真实患者接触的测试框架。
为解决这一不足,研究人员引入了医学对话推理评估框架(CRAFT-MD)。与传统评估不同,CRAFT-MD通过模拟医患对话来测试LLM。这个创新框架采用多代理系统:一个AI患者模拟自然的患者反应,一个AI评分员评估LLM的诊断准确性,医疗专家验证结果。通过整合这些组件,CRAFT-MD提供了一种可扩展、伦理且真实的评估方法。
在《自然医学》期刊最近发表的研究中,CRAFT-MD被用来评估包括GPT-4、GPT-3.5等在内的知名LLM在12个医学专科中的诊断能力。研究发现,尽管LLM在结构化测试问题上表现良好,但在对话评估中的准确性显著下降。例如,这些模型难以提出相关后续问题、综合分散的患者信息以及适应医疗访谈的细微变化。在多模态模型如GPT-4V中,这些挑战更为明显,这类模型集成了文本和视觉数据。
项目高级研究员Pranav Rajpurkar博士强调了这一悖论:“虽然这些AI模型在医学考试中表现出色,但它们在医生问诊的基本来回对话中却遇到困难。医疗对话的动态性质带来了远超选择题的独特挑战。”这表明需要更复杂的AI模型和评估工具。
CRAFT-MD框架展示了如何通过现实模拟推进该领域。通过模拟实际临床互动,该框架评估LLM收集病史、提出相关问题和做出准确诊断的能力。该过程效率极高,AI评估员可以在不到三天的时间内处理10,000次对话,而人类评估员完成类似评估则需要超过1,000小时。
除了诊断缺陷外,CRAFT-MD框架还提供了优化LLM性能的可行建议。这些建议包括设计能够进行开放式对话交流的模型;整合文本和非文本数据,如医学图像;创建能解释非语言线索如语调和肢体语言的AI系统。纳入这些元素有助于弥合理论知识和实际应用之间的差距。
博士生Shreya Johri和研究合著者指出当前测试方法的局限性:“这种方法假设所有相关信息都清晰简洁地呈现出来。在现实中,这个过程要混乱得多。”向更现实的测试方法转变对于确保LLM能够应对临床环境的复杂性至关重要。
CRAFT-MD还通过模拟互动减少了伦理风险,防止未经验证的AI模型直接与真实患者互动。通过模拟互动,该框架保护了患者安全,同时加速了可靠AI工具的开发。系统的可扩展性使研究人员能够跟上AI技术的快速发展,确保模型性能的持续改进。
CRAFT-MD共同高级作者Roxana Daneshjou博士强调了更广泛的影响:“CRAFT-MD创建了一个更接近现实互动的框架,帮助推动AI模型在医疗保健领域的测试向前发展。”随着该领域的演变,像CRAFT-MD这样的框架可能会成为有效和道德地评估和部署临床AI工具的关键。
将LLM引入医疗保健有望彻底改变患者护理,但也肩负着确保这些工具达到严格标准的责任。最紧迫的挑战之一是使LLM能够处理现实世界对话的非结构化和复杂性质。患者很少以整齐简明的方式呈现症状,而是提供分散的细节,交织相关和不相关的资讯。有效的诊断要求能够解析这些信息,提出澄清问题,并综合一个连贯的叙述。
当前模型虽然强大,但往往缺乏这种灵活性。它们在结构化环境中表现优异,但在开放式对话中表现不佳。这凸显了像CRAFT-MD这样的评估框架的重要性,这些框架推动模型在更具挑战性和现实的情景中运行。
例如,临床LLM必须判断患者提到的疲劳是否与新药物、潜在疾病或仅仅是生活方式因素有关。这些细微差别在没有强大的对话能力的情况下很难捕捉到。
另一个重大挑战在于整合多模态数据。现实世界诊断通常需要综合文本信息与其他形式的数据,如实验室结果、影像研究,甚至是患者的非语言线索。
多模态模型如GPT-4V旨在弥补这一差距,但当前版本仍然难以将多样化的数据流整合为准确的临床见解。
克服这些挑战的潜在好处巨大。AI工具可以通过自动化常规任务(如采集病史或分流患者)来减轻临床医生的工作负担。这将使医疗专业人员能够专注于患者护理的更复杂方面,提高效率和效果。
此外,通过标准化某些诊断方面,AI可以减少护理的差异,并帮助识别可能被个别医生忽视的模式。
然而,这些进步必须伴随强有力的保障措施。患者安全是首要任务,任何临床AI工具的部署都必须优先考虑最小化风险。CRAFT-MD的多代理系统,包括人类监督,提供了一个实现这种平衡的模型。通过结合AI的效率和医疗专业人员的专业知识,该框架确保工具既有效又合乎伦理。
未来的道路不仅涉及改进AI模型,还需要重新思考如何将其集成到医疗保健系统中。AI开发者、临床医生和监管机构之间的合作至关重要。开发者必须优先创建符合临床现实的模型,而临床医生需要提供反馈,以确保这些工具满足现实需求。监管机构必须建立明确的指南来评估和批准临床AI工具,在创新与安全之间取得平衡。
随着AI的不断发展,像CRAFT-MD这样的框架将在塑造其未来中发挥关键作用。通过设定高标准的评估,它们确保AI的进步转化为对患者和提供者的实际益处。最终目标不仅是创造更智能的工具,还要建立对其增强医疗保健能力的信任。
(全文结束)


