大型语言模型(LLM)通过董事会考试的报道激发了医学界将其融入临床的热情。通过叙述性综述,我们思考了临床医生在LLM赋能的世界中取得成功所需的技能转变,以实现益处并最小化风险。我们建议医学教育必须如何发展,以培养能够驾驭人类-人工智能系统的临床医生。
最近大型语言模型(LLM)技术的进步引发了人们对其在临床实践中可能发挥的作用的兴奋。即使是像OpenAI的ChatGPT这样的通用模型,在这些应用中也显示出了显著的前景,也许最引人注目的是一篇广为宣传的论文,其中该模型成功通过了美国医疗执照考试(USMLE)。对于特定领域的模型,如谷歌的Med-PaLM2或GatorTron,结果甚至更加令人印象深刻,它们能够以专家水平回答各种医疗问题。这些引人注目的结果提出了一个重要问题:医学教育系统是否为下一代临床医生与这些模型一起工作做好了充分准备?
在本文中,我们简要概述了LLM与医疗保健相关的最新进展,并试图设想这些模型以及其他人工智能(AI)技术如何改变临床实践的性质。我们批判性地研究了在这种情况下价值会增加和减少的临床能力,并特别强调了临床医生在解决此类模型存在的安全、伦理和偏差漏洞方面的作用。虽然我们强调LLM是特别具有变革性的工具,但我们试图将它们置于更广泛的健康信息学领域,并概述了广泛的信息学、特定于AI和特定于LLM的技能。最后,我们研究了现有的医学教育背景,并概述了为使医疗保健工作者能够充分利用这些工具提供的机会同时避免其相关陷阱而必须进行的变革。
自从2017年谷歌发明了Transformer架构以来,LLM领域在能力和复杂性方面都迅速发展。在最基本的层面上,这些模型的目标是预测和生成文本字符串中的下一个标记(单词或单词的一部分)。然而,生成的模型展示出了显著的新兴行为以及解释各种输入以生成复杂、细致和上下文适当的文本的能力。因此,LLM作为一种深度学习算法,在通用语言和文本解释的自然语言处理应用中显示出了强大的效果。
在临床层面,这些模型已经展示出了准确回答复杂、特定情境的医疗知识问题的能力,以及构建和总结临床数据的能力。因此,不难想象未来日常临床实践的许多方面都将由LLM辅助。在研究层面,LLM有望通过从大规模训练数据集中识别、总结、翻译、预测和生成文本来帮助从临床记录和其他与健康相关的数据库中理解和生成医疗保健见解。鉴于医学文献的广泛语料库迅速扩展,LLM可能在生成最新且与患者相关的指南方面发挥重要作用。
此外,Transformer架构的灵活性意味着跨模态组合模型可以创建一个强大的多模态模型,能够利用来自多个上下文的信息,例如放射图像、患者笔记、实验室测试和基因组数据等。这些模型在放射学报告的生成以及临床诊断和患者结果的预测方面已经显示出了令人印象深刻的能力。随着卫生系统数字化程度的提高,能够更紧密地链接电子病历(EMR)数据,多模态模型可能在促进更具情境化的预测方面发挥越来越大的作用。
然而,尽管机器学习在医疗保健(MLHC)方面有广阔的前景,但也存在患者受到伤害的重大风险。许多模型,包括那些已在临床实践中实施的模型,已被证明在少数患者群体中表现不佳。关于此类模型的“可解释性”也存在争议,以及清晰检查导致模型决策的过程存在困难。
LLM架构和文本的首要地位也存在特定风险。首先,这些模型没有强大的世界因果模型,因为它们主要依赖于联想手段。LLM也容易出现所谓的“幻觉”,即生成听起来合理但不正确的结果,并充满自信,有时甚至包括生成和引用完全虚构的科学文献。
此外,LLM模型是基于广泛的未选择文本语料库生成的,这些语料库反映了过去和现在的差距和偏差。例如,预先训练的文本嵌入模型已被证明在性别和种族等特征上表现出不同的性能,预测好斗的白人患者被“送往_医院_”,而好斗的非裔美国患者被“送往_监狱_”。
正如阿马拉定律的流行格言所述,人们往往在短期内高估一项技术的影响,而在长期内低估它。深度学习先驱杰弗里·辛顿在2016年著名地认为,“我们现在应该停止培训放射科医生。很明显,在五年内,深度学习将比放射科医生做得更好”。但在七年之后,这一预测尚未实现。其他评论员预测临床医生和AI之间的关系是增强而不是替代,实验证据已经证明了合作的机会。类似的考虑可能适用于LLM的情况,实现潜力同时最小化风险不仅需要技术的修改,还需要临床医生用户的适应。
随着技术的变化,临床医生所需的技能和优先事项总是会发生变化。例如,床边参考资源(如UpToDate或DynaMed)的普及和易用性已经开始降低死记硬背的相对价值。然而,随着临床试验的增多和网络搜索技术的普及,快速阅读和总结文献的能力变得越来越重要。正如所讨论的,这些模型的广泛性质可能会重新排列一系列临床医生技能的重要性。
此外,这种技术的力量如此之大,以至于理想的理解框架可能会从仅从对临床医生有用的角度看待模型,转变为从对整个医疗系统有用的角度看待临床医生和模型。这一概念在其他安全关键领域(如航空)中已经得到了探索,将人和机器组件视为共享系统的合作元素。虽然这些领域中的人类行为者在新情况中的创造力等方面比机器同行具有优势,但他们也有相对的缺陷,如易疲劳和认知偏差。理想的系统旨在确保这两组能力的互补。
鉴于这种技术的快速变化和进步,灵活性可能是提供者的核心优点。根据进步的速度,这些技术的使用变化可能每隔几年就会发生。因此,提供者必须能够并且愿意随着技术的发展而在实践中不断发展,同时要求对这些技术进行严格评估,以确定其应用的稳健性和实用性。临床医生及其组织将被要求辨别市场上哪些技术满足他们的特定需求,同时在资源有限的情况下工作。
随着医学知识等信息在在线资源和LLM模型中越来越准确地嵌入和容易获取,临床医生作为医学知识存储库的作用可能会降低。同时,临床医生在医疗决策中的评估者角色将会增加,因为他们需要在特定的临床背景下评估和整合模型提供的信息。临床医生必须运用他们的专业判断来评估模型输出,并将信息作为决策的辅助,而不是取代强大的推理。临床医生还必须了解这些技术针对其特定患者群体的局限性。然而,重要的是要确保这些技术不会导致责任的放弃,并且临床医生要对他们通过临床算法促成的决策背书负责。
类似的考虑也适用于临床文件的生成和应用。AI辅助可能会减少在访问总结、文件生成和行政任务完成上花费的时间和精力。但必须理解,总结仍然是文件记录的一个关键要素,具有法律和伦理影响,不能被认为是LLM实施的一个简单、低风险的空间。临床文件记录起着重要的法律作用,临床医生必须接受他们对所编写和签署文件的全面性和准确性的法律和伦理责任。
此外,临床医生在理解患者的个性和价值观方面的同理心作用仍然至关重要。每个患者的健康和疾病经历都受到复杂的生物、心理和社会背景的影响,这些不能通过联想总结完全降低。LLM返回的信息必须仔细地根据上下文进行解释,认识到“理想的治疗过程”可能会根据个体患者的特殊价值观和偏好而有很大的不同。临床医生必须被信任能够作为患者的坚定倡导者,确保这些模型的使用基于医学伦理的基本原则和共同的理解。在效率方面,应该注意的是,只有当医生不被迫将效率的提高转化为更高的总体产出(例如在更短的时间内看更多的患者)时,LLM才能增加医生与患者的接触。
在研究和开发用于临床的LLM时应谨慎判断,确保风险得到缓解,伦理被嵌入到模型本身中。因此,我们必须努力培训专门的临床科学家和领导者,他们将在医疗保健中任何基于LLM的技术的设计、评估和实施中发挥重要作用。鉴于广泛的炒作,该技术有可能成为“寻找问题的解决方案”,在不适当或非最优的临床情况下使用。因此,应谨慎开发和应用LLM。
任何在医疗保健中使用的机器学习模型都需要由于“数据集漂移”的挑战以及模型输出的性能和准确性可能会随着基础临床现实的变化而随时间下降的担忧而进行持续的仔细监测。此外,必须理解与偏差和不公平相关的众所周知的风险,并将其作为基础挑战而不是次要的事后考虑来解决。临床医生领导者必须努力建立组织管理流程,以满足这些要求,并且不能将这一责任交给那些离患者关注更远的人。对于适当监管框架的发展需求也存在类似的关注。
随着医学知识的不断增长,对专业化的需求也在增加。然而,医学生并非只在一个领域接受培训,他们会在每个专业轮岗,了解每个领域。期望临床医生对每个专业的职责范围有所了解,对关键的紧急情况/危险信号有所认识,并知道何时寻求专家建议。对于AI,可能也会有类似的情况,既要为所有临床医生建立一个基本的理解水平,也要为该领域的专家提供更具体的知识体系。
所有临床医生都应该具备一系列基本的能力,包括了解临床数据中可能出现的偏差形式、预测的不确定性、因果推断和混杂因素。临床医生必须了解这些系统如何应用于他们的个体患者,特别强调公平问题,并意识到这些系统并非对所有人都表现相同。例如,普通医生只需要对MRI扫描背后的粒子自旋物理学有一个粗略的了解,但必须清楚地知道何时为给定的患者订购MRI,如何在临床环境中解释和说明其结果,以及何时MRI可能有限甚至具有误导性。
除了这些基本能力外,我们还必须培养具有医学和计算机科学综合知识的AI专家临床医生,他们能够在这些模型的开发和实施中发挥重要作用。这些临床医生需要对基本模型架构以及给定方法的能力和局限性有更深入的理解。除了在模型开发和监测方面的工作外,我们设想这些临床医生能够就与AI相关的问题提供具体的咨询。这里一个有启发性的类比是放射科医生在帮助指导选择合适的成像方式以及讨论不明确或意外结果的影响方面的作用。
利用LLM所需的技能并非孤立存在。相反,它们必须在健康信息学能力的长期基础工作以及更近期关于AI的广泛工作的背景下被理解。特定于LLM的教育必须是互补的,而不是绕过这些基础并“重新发明轮子”。总结在表1中,普通临床医生和AI专家临床医生都需要在所有三个领域具备技能才能取得成功。
许多基于现代LLM的系统在获取输入数据或向临床医生传达输出时,都与电子病历(EMR)及其基础数据库协同构建。虽然有可能利用LLM本身来提高EMR数据的质量和结构,但许多与医疗数据相关的现有挑战仍然存在,并且随着医疗AI能力的增强,这些挑战可能只会变得更加重要。每个医生都必须能够有效和高效地使用这些系统,同时保护患者的隐私和利益。AI专家领导者必须能够更进一步,有效地领导组织转型,使健康数据能够实时为护理增强系统做出贡献。
随着AI系统从仅仅提供信息发展到提供建议和更具体的判断,从业者所需的技能变得更加具体。这需要了解这些系统的特定优势和劣势,特别关注它们可能表现不佳或完全失败的情况。虽然普通临床医生必须学会适当地处理信息并识别这些失败,但AI专家临床医生必须能够更进一步,首先设计和评估系统以减轻失败。AI专家还必须能够应对这些技术的复杂的社会、法律和伦理影响,并在开发和实施过程中在技术和非技术利益相关者之间进行转换。
与生成式AI(特别是LLM)的接触需要这些技能更加细致,并关注这种新兴技术的特定优势和局限性。“提示工程”(即设计文本输入以获得适当的输出)的新技能对于普通医生和AI专家都是必要的。前者必须能够在临床工作流程的背景下有效地提示,而后者必须能够系统地分析和优化提示技术(最近的研究表明,这可以大大提高模型性能)。LLM在“幻觉”时也能自信地具有说服力,这就需要临床医生有一定程度的适当怀疑,并能够验证所提供的信息。随着该领域的迅速发展,AI专家临床医生必须跟上新的生成式AI研究的技术细节,并有效地将其与医疗实践联系起来。
尽管医学中对人工智能的兴趣不断增加,但目前关于该主题的医学教育方法不一致,各中心之间的内容差异很大。目前几乎不存在针对LLM的特定教育。我们认为,这些技术的巨大进步速度需要在解决这方面的医学教育挑战方面进行大量持续的投资。2024年进入医学院的学生将在2030年代早期至中期开始独立实践,更不用说现有临床医生所需的培训了。培训必须具有前瞻性,必须紧急采取早期步骤,以确保医疗系统能够胜任这项任务。
首先是“教什么”的问题。关于在这个主题上必须向医学生教授哪些核心能力,机构之间存在很大的分歧,例如哈佛大学和多伦多大学。需要广泛的、多利益相关者的努力来建立共享的能力框架,并促进合作以开发集体资源。这可能采取类似于现有的CanMEDS框架开发的特定类似形式,概述广泛的临床医生能力的多个领域。此外,必须有一个核心认识(如我们上面所概述的),即所有人都必须知道的东西与培训临床AI专家必须做的事情之间的区别。
其次是“谁来教”的问题。AI技术的跨学科性质不仅需要临床医生、医学教育工作者及其在解剖学和生理学等临床前部门的现有主要合作者的见解和专业知识。在技术方面,需要计算机科学家、工程师、网络安全专家和生物信息学家等的专业知识。此外,为了理解这些模型的背景和风险,需要伦理学家、社会学家、医学人类学家和其他人的投入。这种技术的极其复杂和多学科性质将需要创建跨越这些分歧的新的专业关系和组织。这将需要对医学院现有的等级制度和招聘途径进行上游调整,以创建一个强大和响应迅速的教师队伍。
第三是“怎么教”的问题。鉴于对于必须教授的内容几乎没有共识,对于AI教育的最佳方法几乎没有共识也就不足为奇了。我们认为,最近的进展不仅对特定于AI的教育有重大影响,而且对更广泛的医学教育也有影响。该领域的进展必须促使对医学教育进行更彻底的重新概念化。例如,这些模型相对容易通过USMLE考试,这可能会质疑该考试过程的结构,以及花费在死记硬背事实上的大量学习时间。随着临床医生指尖上有大量的事实信息,我们认为必须从强调“知识”向强调“技能”进行广泛转变。令人鼓舞的是,在过去的一年中,USMLE考试的评分已改为通过/不通过,而不是数字分数。
同时,我们主张从更传统的医学教育模式转向路径驱动模式,在这种模式下,学习者可以在选定领域(如医学计算、公共政策/社会医学、临床研究等)拥有更深入的专业知识离开医学院。这样,医学教育更好地反映了其他专业学校,如商业、法律和工程,并将为专注于当代重要主题(如AI和LLM)提供必要的时间。同样,当学生利用他们的基础医学培训来确定他们的实践领域时,他们也将有机会磨练非临床技能和知识,并找到在更大范围内影响医学的方法。
在这方面的关注不能仅仅集中在本科和研究生医学教育水平。如果在未来十年内在医疗保健中实施基于LLM的技术,大多数用户将是现有的临床医生,他们在这个主题上几乎没有接受过特定的培训。必须在继续医学教育方面做出努力,为临床医生做好有效使用这些技术的准备。同样重要的是研究和检查AI技术方面现有的医疗保健流程,并确保安全和有效的实施。
在这个过程中,承认已建立的教育理论的贡献也至关重要。特别是建构主义理论,与在快速发展的领域教授AI技能的挑战非常契合。该理论强调学习者通过经验和与环境的互动积极构建知识,而不是被动地接收信息。在为医学专业人员进行AI教育的背景下,建构主义方法将涉及临床护理环境中的体验式、主动学习。这尤其相关,因为学习者(医学生和住院医生)和教师(监督医生)可能都在同时发展他们的AI能力。基于问题的学习、案例研究和涉及医疗保健中真实世界AI应用的实践项目可能是基于建构主义理论的有效策略。这种方法不仅有助于技能发展,还培养了批判性思维和适应性——这些是驾驭医学中动态AI环境的关键属性。
最终,医学教育的“怎么教”、“谁来教”和“教什么”的变化也应反映在评分和测试实践中。由于LLM已多次被证明可以轻松通过标准化测试(如USMLE),这就提出了一个紧迫的问题,即是否需要从知识转向理解、推理和批判性思维。
最近LLM技术的进步在规模和速度上都令人瞩目,为这些技术深度融入临床实践的未来带来了前景。这些发展带来了通过快速总结和呈现医学知识来提高护理质量的机会,以及显著减轻行政负担。同时,这些模型存在重大风险,特别是与嵌入现有社会偏差的数据集相关,以及LLM对答案过度自信的“幻觉”的特定倾向。
尽管如此,这些系统


