当41岁的梅根·梅拉诺开始经历剧烈的、刺痛性的腹痛并导致严重痉挛时,她完全不知道是什么原因引起的不适。
"我以为是我的阑尾出了问题,"她说。
梅拉诺联系了罗切斯特大学医学中心(URMC)网络内的初级保健医生,后者将她转诊给了一位胃肠病专家。这位专家安排了一次紧急CT扫描,但她的疼痛原因仍然不明。
可能提供答案的后续影像检查要等上数周才能进行,这让她在没有诊断的情况下继续忍受疼痛。等待只会加深她的忧虑。
"问题在于做这些检查所需的时间,"她说,"不知道哪里出了问题,再加上疼痛。"
最终,疼痛变得难以忍受。梅拉诺去了斯特朗纪念医院的急诊室,同样的循环再次开始:等待、疼痛和挫败感。
她的经历凸显了当代医学中的一个核心问题:人工智能能否加速患者诊断,还是会为患者护理带来额外风险?
在罗切斯特大学医学中心,这个问题已经变得切实可见。
URMC每年为纽约州北部和手指湖地区的约100万患者提供服务,是一个庞大的学术医疗系统,以897张床位的斯特朗纪念医院为中心。
在放射科,人工智能辅助软件支持医生口述报告、起草发现摘要,以及从患者之前的影像历史中检索相关信息。预期的好处是在一个紧张的系统中实现更高效、更有条理的工作流程。
然而,固有风险也很显著,因为医疗错误可能会产生重大后果。
应用范围有限
URMC实施的技术范围比公众对"医疗保健中的人工智能"的普遍认知更为有限。它并非独立诊断患者或取代放射科医生,而是作为软件集成到现有的放射学报告工作流程中。
URMC的 cardiothoracic radiologist(心胸放射科医生)肖恩·克利瑞医学博士表示,该部门长期以来一直使用微软的PowerScribe 360作为其口述平台。放射科医生在一个屏幕上查看图像,在另一个屏幕上向PowerScribe口述报告。
"PowerScribe基本上只是一个口述平台,"克利瑞说,"人工智能部分直到最近两年才开始使用。"
较新的层级PowerScribe One为放射学报告过程增加了人工智能功能。其中一项功能是Smart Impression(智能印象)。在放射学报告中,"发现"部分包含医生在扫描中看到内容的完整描述。"印象"则是结尾处的简短摘要,突出最重要的临床结论。
克利瑞表示,Smart Impression不会独立阅读扫描结果或自行做出诊断。相反,在放射科医生口述完发现部分后,软件会根据放射科医生已经说过的内容起草第一印象。
"用不太恰当的表达来说,印象部分就像是报告的'太长不看'(TLDR)版本,"克利瑞解释道,"它们真正擅长的是总结信息。它们不做独立思考。"
URMC还在试点微软的Dragon Copilot,克利瑞将其描述为一种用于总结患者早期放射学报告的工具。对于有多年先前影像的患者,Dragon Copilot会压缩旧报告,并将每个总结点链接回原始来源。
"它为你提供每个句子的可点击链接,这些句子是它获取摘要的来源,"克利瑞说,"这样我就知道这些信息的出处。"
URMC描述的这些工具用于起草报告语言、总结大量发现、加快先前信息的检索,并帮助放射科医生更高效地管理高工作量。放射科医生继续解释图像、审查AI生成的内容、编辑报告并提供最终批准。
正如克利瑞所指出的,"最终的保障措施是放射科医生。"
紧张的系统
采用人工智能的动力源于放射学领域的巨大压力。常规MRI预约可能要等上数周才能有空档,还需要额外几天进行解读。
克利瑞表示,人工智能带来的效率提升是渐进的,而非变革性的,估计改进幅度约为5%。虽然在个别案例中这可能看起来微不足道,但一整天累积起来的影响可能相当显著。
然而,放射科医生工作量的效率提升可能不会直接惠及患者,患者可能仍会因成像中心进行的检查数量庞大(或成像中心满负荷运转)而经历等待时间。
URMC的首席医疗信息官格雷格·尼坎德里医学博士表示,该机构在推出新的人工智能工具之前持怀疑态度。
"我们对部署的任何东西都采取循证方法,"他说,"我们希望确保它有效且安全,然后再启动它。"
尼坎德里表示,审查过程在签订合同之前就开始了。委员会评估工具是否实现其声称的功能,是否符合隐私和法律标准,以及是否具备网络安全保护措施。当涉及大型语言模型时,他说,URMC不希望员工将患者数据输入公共AI工具。
"我们制定了自己的AI政策,基本上禁止任何人使用任何公开可用的AI工具处理患者信息,"他指出。相反,医疗中心已为员工提供安全的内部版本。"任何输入其中的信息,我们都进行控制和保护。它不会用于训练大型模型。"
探索其他用途
报告起草并非人工智能在放射学中使用的唯一方式。
尼坎德里举例说明了人工智能如何帮助识别扫描中可能的中风,并将其在阅读队列中提前,以便放射科医生更快地解读。
"你基本上是识别了可以改变患者结果的早期干预机会,"他说。
另一个例子是在乳腺X光检查中的应用,人工智能可以帮助确定患者仍在现场时是否需要额外的影像视图,而不是让她们回家等待另一次预约。
"为她们节省额外的就诊次数,减轻她们的焦虑,"尼坎德里说。
然后是资金问题。人工智能在医疗保健中的财务影响是多方面的。
实施需要在软件、安全评估、内部验证、试点项目、员工培训和持续监督方面进行大量投资。然而,URMC领导人认为,效率的提高和预防代价高昂的下游并发症可以抵消这些费用。
例如,尼坎德里提到中风护理,其中紧急扫描的加速识别可能使早期干预成为可能,并减少对长期康复和延长护理的需求。此外,人工智能可以缩短某些MRI扫描的持续时间,提高吞吐量并减少患者的时间负担。
因此,财务理由不仅限于机构节省,还包括在紧张的医疗系统中更有效地利用时间、劳动力和治疗资源。这些好处包括加速优先级排序、简明摘要、快速获取先前信息,以及在某些情况下更早的临床干预。
罗切斯特区域健康中心(RRH)也在基于影像的护理中使用人工智能,尽管是在不同的背景下。今年2月,该系统宣布在罗切斯特综合医院安装Ethos自适应放射治疗系统。
RRH表示,该系统使用每日CT影像、人工智能和快速重新规划,实时生成定制的放射治疗计划,调整各次治疗之间的解剖变化。该医疗系统表示,医生仍然审查并批准每个计划,"保持完全的临床决策权",这种方法可能提高精度,同时减少对健康组织的辐射暴露。
虽然URMC将AI描述为放射学中用于报告、摘要和工作流程的工具,但RRH强调了其在癌症治疗中的应用,其中AI帮助实时适应患者的解剖结构调整放射计划。
风险因素
虽然人工智能的使用提供了明显的优势,但它们伴随着重大风险。虽然该技术可以总结、标记和起草信息,但也容易出错。
一些专家警告说,人工智能的危险不仅在于AI可能出错,还在于它可能以人们尚未完全理解的方式出错。
罗切斯特理工学院的教授兼AI研究员阿什克·库达布赫什表示,这正是他对在医疗保健环境中部署大型语言模型最担心的问题。
PowerScribe One本身不是大型语言模型。它是一个基于云的放射学报告平台,包含AI功能,其中一些功能由大型语言模型提供支持。相比之下,Dragon Copilot更直接地依赖LLM技术。
"我看到的最大风险是,当你拥有非常复杂且不易理解的系统时……它们可能会以非常意想不到的方式失败,"库达布赫什说,"我们对人类失败的理解要好得多得多,因为我们已经做了很多年。"
他提供了一个关于AI流畅性如何误导人的尖锐例子。
"你可以拥有能够写一首华丽诗歌的LLM,"他说,"然后却不能计数。"换句话说,一个系统可能听起来很流畅且令人信服,但仍以奇怪的方式崩溃。"如果它只是插入一句话,"他说,"可能是医生本来不想说的那句话呢?"
库达布赫什指出了他自己关于大型语言模型在压力下弯曲频率的研究。
在最近一项由RIT领导的研究中,研究人员不仅测试了流行AI聊天机器人是否了解事实,还测试了它们在对话压力下是否会坚持这些事实。使用名为HAUNT的三步框架,研究团队首先让聊天机器人生成关于知名电影和小说的真实和虚假陈述,然后要求它们验证这些陈述,最后在后续交流中将它们推向错误陈述。结果:测试的五个模型中没有一个完全自洽,有些——尤其是Gemini和DeepSeek——在微妙提示下近一半时间接受并重复了错误信息。
"我们对AI故障的理解就像一个演变过程,"库达布赫什说,"我们没有足够的时间理解当前的事物,而新事物又不断出现。"
在这种即使一个小错误也可能产生真实人类后果的领域,这种不确定性变得令人不安。
库达布赫什表示,大型语言模型还创造了一个更微妙的问题:过度依赖。
"在某个时候,有一种认知卸载,"他说,"我把思考负荷转移到机器上。"如果因为系统大部分时间表现良好而加深这种信任,他补充道,"你可能会错过一些东西。"
尼坎德里在医疗界内部提出了一个类似的问题。他说,一个更大的问题是,如何在AI辅助可能成为常态的时代培训年轻医生。
AI已经成为许多青少年日常生活的一部分,特别是在学校。今年2月发布的一项皮尤研究中心调查显示,64%的13至17岁美国青少年使用过AI聊天机器人,约三成表示他们每天使用。超过一半的人表示他们使用聊天机器人搜索信息,54%的人表示他们将其用于学业。皮尤还发现,十分之一的青少年表示聊天机器人帮助完成了他们全部或大部分学业,而更大比例的人表示他们将其用于至少部分作业。
"我们如何在AI时代培训学员,使他们不依赖AI?"尼坎德里说。他表示,URMC的教职员工通常在住院医师之前学习这些工具,而住院医师则在更严格的监督下使用它们。"你确实需要专家人类在循环中。"
另一项警告来自哈佛医学院、麻省理工学院和斯坦福大学研究人员在2024年进行的一项研究,该研究发现AI辅助对放射科医生的影响并不均衡。在对140名放射科医生进行的15项胸部X光诊断任务的大规模分析中,研究人员发现,有些临床医生在AI支持下表现更好,而另一些则表现更差。该研究得出结论,"个体临床医生的差异以研究人员尚未完全理解的关键方式塑造了人机交互",这一发现表明AI在放射学中的价值可能不仅取决于工具本身,还取决于特定医生如何使用它。
另一种风险
在急诊室就诊几个月后,梅拉诺终于接受了结肠镜检查。几周后,她又做了超声波检查。
她的医生表示问题可能与她的胆囊或果糖不耐受有关,但她仍需要更多检查才能得到明确答案。
在此期间,疼痛一直持续。
"在这一点上,我已经习惯了,"她宣称。
对于URMC的医生来说,争论不仅关乎使用AI的风险,也关乎拒绝使用它的风险。
克利瑞表示,放射科正在应对不断增长的工作量和专科医生短缺。"放射科医生的缺乏是一个主要驱动因素,"他说。
尼坎德里进一步扩大了视野。"医生总体短缺。"他指出,即使国家今天决定需要更多医生,培训他们仍需数年时间。
与此同时,克利瑞表示,放射学在现代医学中变得更加核心,因为医生现在可以看到更多、捕捉更多,并比以往更密切地跟踪疾病。由于治疗方法的改进,癌症患者接受更频繁的扫描。筛查项目,如肺癌筛查,增加了对影像的需求。更好的扫描仪扩大了放射学可以检测的范围。所有这些都带来了临床效益,但也给系统增加了压力。
克利瑞认为,人工智能不能仅凭其带来的危险来评判。
"每个人总是考虑使用它的风险,"他说,"但你也必须考虑不使用它的风险,因为有些事情也会被遗漏。"在他看来,该技术的最佳用途是狭窄而实用的:帮助放射科医生更准确地总结信息,更快地检索重要病史,并避免从报告中遗漏任何内容。"它是提高效率的强大工具,但讽刺的是,它也是一种患者安全工具。"
尼坎德里从流程角度阐述了同样的想法。
"我的担忧是在证明有价值之前就自动化和采用,"他说,"我们试图看看,可能出什么问题,以及如何衡量其影响?想法是AI加人类应该减少错误。"
对于URMC的患者来说,医疗保健中的人工智能不太可能以戏剧性机器接管检查室的形式出现。
克利瑞表示,从患者的角度来看,大部分变化仍然不可见。
"对普通患者来说,现在大部分变化都是在幕后,"他说。
他也看到了技术中更充满希望的未来,超越了速度。在描述AI的潜力时,他谈到了在家里为他7岁的女儿创建个性化的中文学习材料,根据她的兴趣定制课程。在医疗保健领域,他看到了类似的可能:不是AI取代护理,而是帮助使护理更加个性化,更与个别患者相关。"我认为我们也会在医疗保健领域实现这一点。"
尽管如此,医生和研究人员都表示,医学中AI的兴起不应被误认为是信任AI本身的理由。克利瑞承认,患者已经在向聊天机器人询问健康问题,他说这些工具有时比基本的互联网搜索更清晰。但他补充说,"你仍然需要和你的医生交谈。"
尼坎德里警告说,消费者AI可能成为"升级版的谷歌医生"。
库达布赫什表示,患者应该清楚地了解何时使用AI,并应该对影响其护理的程度有发言权。
"人们应该有知情同意,"他说,"个人选择想要多少AI的权利应该存在。"
尼坎德里表示,选择并不总是简单的。在某些情况下,可以征询患者的许可。在其他情况下,AI越来越多地被整合到提供护理的系统中。"越来越难"退出,因为某些技术"是我们提供护理方式的一部分。"
作为当地医院的住院精神病护士,梅拉诺表示,如果AI能帮助像她这样的患者在疼痛时更快地得到答案,她支持使用AI。但她担心医生会过度依赖它,特别是因为对她来说,AI总体上是"可怕的"。
"我希望能对医疗系统有信心,"她说,"另外,作为一名护士,我觉得我需要信任它并愿意适应这些变化。"
这一切对患者未来意味着什么,仍在书写中。
AI可能会提高放射学的效率并帮助更快地发现紧急发现,但其使用仍然取决于人类审查、机构监督和患者信任。
Rob Bell是Rochester Beacon的撰稿人,也是前民主党与纪事报的记者、摄影师和编辑。他还是"Plants & Beats"播客的制作人和主持人,该播客探讨正念、音乐和文化。
【全文结束】

