七种AI模型在10,000次聊天机器人测试中投票剔除医疗幻觉Seven AI models vote out medical hallucinations in 10,000 chatbot tests

环球医讯 / AI与医疗健康来源:medicalxpress.com美国 - 英语2026-05-29 03:38:24 - 阅读时长4分钟 - 1609字
宾汉姆顿大学研究人员开发了一种创新方法,利用七种AI模型通过投票机制消除医疗聊天机器人中的幻觉问题。在10,000次测试中,76.85%的答案获得至少四个模型支持,23.15%获得至少两个模型支持,无一出现幻觉。该方法结合检索增强生成技术,要求AI参考权威医学数据库,并通过多模型交叉验证提高准确性。这项研究不仅适用于医疗诊断领域,还可扩展至法律、学术等领域的AI内容验证,为知识验证的民主化迈出重要一步,有望解决AI生成虚假信息的行业难题。
医疗幻觉AI模型聊天机器人医疗诊断生物医学验证检索增强生成精准医学数字孪生药物反应疾病
七种AI模型在10,000次聊天机器人测试中投票剔除医疗幻觉

随着由人工智能驱动的聊天机器人日益融入我们的日常生活,人们越来越频繁地使用它们来帮助诊断医疗问题。我应该担心这个皮疹吗?如果这个虫咬感染了怎么办?这种疼痛是否是更大问题的症状?在处理健康问题时,答案需要尽可能准确。

去年,宾汉姆顿大学研究人员测试了OpenAI的ChatGPT,它在识别疾病术语、药物名称和遗传信息方面表现出很高的准确性。然而,该AI机器人也产生了大量虚假的"幻觉"。

一项后续研究可能找到了消除这种自信地提供但虚假信息的方法。托马斯·J·沃森工程与应用科学学院系统科学与工业工程学院的研究员Ahmed Abdeen Hamed与系统科学George J. Klir教授Luis M. Rocha合作,开发了一种创新的验证方法,期刊《STAR Protocols》最近发表了他们的结论。

从日常语言到诊断

新协议利用了日益增多的开源AI选项,每个选项都有不同的方式得出问题的答案。Hamed和Rocha选择了其中七个大型语言模型,并强制它们使用检索增强生成(Retrieval-Augmented Generation, RAG),这要求它们在给出回应前参考权威的医学术语数据库。

在超过10,000次实验中,这七个聊天机器人都收到了相同的日常语言症状描述,每个机器人都提出了它认为对应的医学术语,并附有官方识别编号。然后,这些机器人对答案进行了"投票"。

结果:76.85%的答案得到了至少四个大型语言模型的支持,剩余的23.15%得到了至少两个模型的支持。没有不匹配的术语——也没有幻觉。

Hamed表示:"这种新工作流程令人惊叹,因为它可以从生物医学角度验证任何内容——包括疾病和遗传的生物学知识、从疾病到治疗和临床试验的转化知识,以及从症状和治疗角度的医疗保健知识。"

这种新协议的一大优势是,它可以以近乎无限数量的排列方式进行复制,以加强其准确性。

Hamed表示:"可以有100个开源的大型语言模型,每次我们都可以从该列表中随机选择七个LLM进行实验。当我们多次、多次地进行实验时,我们会增加对投票结果的信心。"

展望更广泛的应用

Rocha表示,该协议是增强对疾病大规模多尺度网络模型信心的重要一步,这是他在宾汉姆顿大学复杂适应系统与计算智能实验室的关键课题。

研究内容包括为精准医学开发"数字孪生"。这些物理过程的动态虚拟复制品利用AI和实时数据不断更新,以创建精确的、预测性的人体反应模拟,使医疗保健提供者能够在实际测试前优化结果。

Rocha表示:"例如,该协议可以提取并提供多智能体验证证据,用于临床试验、科学文献、药理数据库甚至社交媒体讨论中可用的特定药物的不良反应。它还可以帮助从多组学到流行病学和行为数据源等多个层面提取证据,我们已经开始通过构建ER+乳腺癌的多层模型进行试点。"

Hamed高度评价了合作者的贡献:"Rocha教授的指导至关重要,从获取资助到帮助决定这项研究的方向,以及指导我们开发使一切正常运作所需的协议。"

尽管这项研究主要集中在生物医学应用上,但宾汉姆顿团队的发现可用于抑制或消除其他类型的LLM幻觉,例如伪造的法律引用、虚假的学术引用或明显的史实错误。

Hamed表示:"该协议是知识验证民主化的重要一步。"

更多信息

Ahmed Abdeen Hamed等人,《使用支持RAG的跨模型多数投票工作流程评估ChatGPT在生物医学关联生成和验证中的协议》,《STAR Protocols》(2026)。DOI: 10.1016/j.xpro.2026.104533

关键医学概念

药物反应

疾病

由宾汉姆顿大学提供

编辑:Lisa Lock,审阅:Andrew Zinin

【全文结束】