当患者初次踏入急诊室时,安大略省医生诺尔·哈提卜博士(Dr. Nour Khatib)表示,确定诊断结果、治疗方案以及患者安全回家所需的条件可能就像解谜一样复杂。
哈提卜博士在橡树谷健康中心(Oak Valley Health)的马克姆-斯托夫维尔医院(Markham Stouffville Hospital)和厄克斯布里奇医院(Uxbridge Hospital)的急诊室工作,她与其他越来越多的医生一样,正逐渐依靠人工智能来提高这一过程的效率。
"这只是帮助我们为患者提供最优质护理的又一工具,"她说。
周四发表在《科学》(Science)杂志上的一项新研究可能是朝这一方向迈出的又一步。
该研究考察了大型语言模型(LLMs)在急诊室的表现,这些模型能够分析大量在线信息以生成类似人类的回应。研究发现,LLMs在诊断病例方面可以达到与实际医生相当甚至更好的水平。
然而,即使技术不断发展,哈提卜和其他医生——包括这项研究的作者——都坚持认为,计算机无法取代训练有素的急诊医疗专业人员的眼睛、耳朵和技能。
人工智能如何在急诊室中使用?
哈提卜已经与AI抄写员合作,这些抄写员可以转录医生和患者之间的交流并创建详细的医疗记录。这是与橡树谷健康中心进行的一项试点项目,并已事先获得患者的同意。
她说,医院也在探索使用人工智能进行自我排班,以及可以帮助患者更好地了解特定疾病的聊天机器人。
这项近期研究中使用的LLM是一种称为推理模型(reasoning model)的特殊类型,它通过在给出最终答案前解释其思考过程来训练解决复杂任务。该研究的主要作者、波士顿贝斯以色列女执事医疗中心(Beth Israel Deaconess Medical Center)的医生亚当·罗德曼博士(Dr. Adam Rodman)表示,这种模型在美国医院中已经变得"司空见惯"。
"推理模型与标准的大型语言模型不同,因为它被指示像人类一样大声思考、解决问题,"他告诉加拿大广播公司(CBC)新闻。
他说,当你观察这些"推理者"如何做出诊断时,它与医生解决问题所采取的步骤相似。
"让模型以这种方式思考,"他说,"它提高了诊断准确性。"
人工智能如何接受测试?
研究人员使用急诊科记录中的"非结构化"数据,对真实患者案例和合成案例进行了多次试验,旨在"模拟"医生和护士在急诊室中做出的高风险决策。
他们在波士顿一家急诊室中,在患者互动的三个阶段使用了OpenAI的o1-preview模型:初步分诊、急诊室医生检查以及转入内科病房或重症监护室。该研究仅依赖数据。所有测试均不涉及实际的医患互动,对真实诊断或治疗没有影响。
罗德曼表示,对于真实患者案例,模型在每个阶段都被问及一组非常狭窄的、专注于症状表现的问题,以产生"最可能"的诊断。
他解释说,对于合成案例,该工具还被询问其输出的推理以及患者管理的下一步措施。
总体而言,罗德曼的研究发现,该模型能够识别出准确或非常接近的诊断,在某些情况下甚至超过了参与试验的医生在每个治疗阶段的表现。
"这并不意味着计算机可以行医,但在这一狭窄任务中,它可以比人类更好地解决诊断问题,"罗德曼说。
这对医生和患者意味着什么?
多伦多圣迈克尔医院(St. Michael's Hospital)的内科医生兼科学家阿莫尔·维尔马博士(Dr. Amol Verma)看到了AI工具在回答医学问题和诊断患者病例方面已经变得多么出色。
但他表示,说它们"比医生更好"是一种"错误的比较"。
"我不知道有任何一位医生仅基于文本信息就做出所有决定,"他说。
他表示,诊断的形成基于身体检查——即某人的外观、声音和感觉。
哈提卜也表达了同样的观点,并举了她最近治疗的一位急诊室患者为例。
她说,分诊期间从患者那里获得的信息提供了与现有疾病相符的症状细节。
但当她用听诊器听诊时,她对患者状况的理解发生了变化——这是人工智能无法做到的。
她说,人工智能也不会在急诊室为患者插管或为受伤肢体打石膏。
仍存在哪些挑战和担忧?
罗德曼承认他的研究存在局限性,需要更多工作来了解人类和机器如何在急诊医疗环境中有效协作。
但他认为这是一个开端,尽管需要进行更多"强有力的"临床试验,以确保实际应用中的有效性和安全性。
维尔马不仅希望看到推理模型在急诊室中得到进一步评估,还希望在加拿大环境下进行评估。
OpenAI是一家美国公司——他表示这让他对患者信息隐私感到担忧——该研究依赖于在一个很大程度上私有化的医疗保健系统中使用美国数据训练的模型。
"它可能不适用于加拿大环境,"他说。
尽管这项研究有助于证明推理模型在某些情况下可以有效诊断急诊室患者,但哈提卜表示,医院环境中所有人工智能的探索都必须负责任地进行,并且必须由合适的人安全、可靠、准确地使用。
"我们在处理AI时首先设置护栏,"她说。"我们不会首先追逐AI头条。"
【全文结束】

