过于谨慎影响医疗服务:ChatGPT在健康问题上的弱点Zu vorsichtig für die Versorgung: Schwächen von ChatGPT bei Gesundheitsfragen

环球医讯 / AI与医疗健康来源:idw-online.de德国 - 德语2026-05-07 03:15:48 - 阅读时长5分钟 - 2170字
柏林工业大学最新研究显示,ChatGPT等大型语言模型在处理健康咨询时表现过于谨慎,倾向于将多数健康问题归类为需要就医,而非可以自我护理。研究团队测试了22个ChatGPT版本,对45个真实病例进行了9,900次评估,发现模型准确率仅为74%,尤其在判断轻微症状时错误率高达70%。这种保守的分诊行为可能导致不必要的医疗资源浪费,无法有效引导患者合理使用医疗服务。研究建议将AI模型整合到有质量保证的医疗应用程序中,而非直接作为独立的健康咨询工具,以确保医疗服务的高效和合理分配。
ChatGPT健康咨询医疗建议分诊准确性自我护理病例保守分诊行为症状评估数字医疗引导初级医疗服务症状检查器
过于谨慎影响医疗服务:ChatGPT在健康问题上的弱点

根据柏林工业大学的一项研究,ChatGPT模型倾向于给出过于谨慎的建议。目前,这种做法不足以有效引导患者在医疗系统中的行为。

人工智能(AI)越来越多地被用于健康问题咨询。许多人使用ChatGPT等工具来评估症状,判断是否需要立即寻求医疗帮助、咨询医生或暂时观察。随着美国推出专门针对健康领域的版本如ChatGPT Health,人们很容易认为这些工具具有特殊的专业适用性。然而,ChatGPT建议的实际可靠性迄今尚未得到充分研究。

柏林工业大学工作科学系的一项新研究中,研究人员分析了不同版本的ChatGPT如何准确评估健康症状,其性能如何随时间变化,以及相同输入是否产生一致的建议。结果显示,目前ChatGPT仅有限适用于数字初步评估和患者自主引导。

22个模型版本,45个真实病例,9,900次评估

"与我们之前的研究相比,主要区别在于纵向分析。以前只测试了一两个模型。现在我们测试了所有可用的模型版本,并分析了它们的实际变化情况,"研究负责人Marvin Kopka博士说。"我们之所以重视这一点,是因为经常有报道称新模型在医生资格考试或知识测试中几乎获得完美成绩。由此很快推断它们也能为患者提供可靠的医疗建议。但根据我们的研究,这恰恰不成立。"

在发表于《通讯医学》(Communications Medicine)期刊的研究"评估ChatGPT模型版本在提供就医建议方面的准确性"中,研究团队使用45名患者的真实病例测试了22个ChatGPT模型版本。这些病例包括"前一天肌腱/韧带短暂过度负荷"或"一天简单消化问题/腹泻,无其他症状"等。每个病例针对每个模型输入十次,总共产生9,900次单独评估。模型必须决定每个病例是应归类为紧急情况、需要医生评估的情况,还是可以自我护理的情况。

准确性几乎不再提高

分析显示:随着早期模型版本的推出,准确性最初显著提高。但从第三代模型(gpt-4)开始,改进变得微乎其微。测试的最佳模型达到了74%的准确率。虽然较新模型更常建议自我护理,但总体上在此领域的表现仍然有限。

轻微症状方面的特殊弱点

测试的模型在识别需要治疗的病例方面表现特别好。然而,大多数错误出现在可以自我护理的病例上:70%的所有错误属于这一类。13个自我护理病例中,没有任何一个被所有模型在所有测试中正确解决。

只有少数模型(如o4、o3或GPT 5)会建议自我护理。在所有其他测试模型中,始终建议寻求医生评估。这存在问题,因为相当一部分症状实际上并不危险,会自行消失或可以自我治疗。该研究揭示了一种结构性模式:几乎所有模型都倾向于将症状评估为比医学上实际需要的更需要治疗。

研究人员将这种模式称为保守的分诊行为。"这些结果的明确性甚至让我们自己感到惊讶,"Marvin Kopka博士说。"因为它们明确表明,对患者相关的问题,新模型并不自动提供更好的答案。更好的测试或考试成绩并不一定意味着在医疗服务中具有更高的实际价值。"

实际价值至关重要

"在我们看来,关键不仅在于模型是否能正确分类个别病例,还在于这些建议在日常生活中的实际价值。如果一个系统对许多症状都预防性地建议医疗评估,对用户来说起初似乎很安全——但如果建议几乎总是相同,实际上就不再提供真正的决策帮助,"Marvin Kopka博士说。

相同输入,不一定得到相同建议

还有一个问题:模型的回答并不总是保持一致。对于相同的输入,根据模型不同,结果会有显著波动。较新模型确实较少出现从未正确解决的病例,但同时在多次测试中出现更多不一致建议的病例。GPT 5表现尤为明显:在42%的所有病例中,多次输入相同问题时,建议时而正确时而错误——尽管输入完全相同。

实验表明,如果多次提出相同问题,然后从多个答案中选择最低紧急级别,可以提高准确性。通过这种方式,总体准确性平均提高了4个百分点,自我护理病例的准确性甚至提高了14个百分点。然而,研究人员明确强调,这不建议最终用户采用,因为在最坏情况下可能会忽略紧急情况。

对初级医疗服务辩论的相关性

Kopka表示,这些结果在健康政策上也很重要。德国正在就初级医疗系统和数字患者引导形式进行深入讨论。柏林工大研究暗示,像ChatGPT这样的通用语言模型目前不是适合单独使用的工具。如果一个系统在实践中主要建议就医,几乎不会产生真正的引导效果——甚至可能导致不必要的医生咨询增加。

潜力更多在于有质量保证的应用

"因此,我们认为大型语言模型的潜力目前较少体现在制造商的聊天窗口使用中,而更多在于有意义地整合到有质量保证的应用中,即症状检查器应用程序。在那里,它们可以帮助清晰地处理信息、解释建议,并更好地引导人们通过现有医疗渠道——前提是后台有医学质量保证,"Marvin Kopka说。

研究限制

研究人员同时指出,本研究的重点在于人口代表性。由于真正的紧急情况在日常生活中很少见,因此在使用ChatGPT时也较少出现,数据集只包含少数紧急情况,主要研究了就医与否的决定。真实紧急情况识别的准确性应在后续研究中进行调查。

【全文结束】