随着由人工智能驱动的聊天机器人日益融入我们的日常生活,人们越来越频繁地使用它们来帮助诊断医疗问题。我应该担心这个皮疹吗?如果这个虫咬感染了怎么办?这种疼痛是否是更大问题的症状?在处理健康问题时,答案需要尽可能准确。
去年,宾汉姆顿大学研究人员测试了OpenAI的ChatGPT,它在识别疾病术语、药物名称和遗传信息方面表现出很高的准确性。然而,该AI机器人也产生了大量虚假的"幻觉"。
一项后续研究可能找到了消除这种自信地提供但虚假信息的方法。托马斯·J·沃森工程与应用科学学院系统科学与工业工程学院的研究员Ahmed Abdeen Hamed与系统科学George J. Klir教授Luis M. Rocha合作,开发了一种创新的验证方法,期刊《STAR Protocols》最近发表了他们的结论。
从日常语言到诊断
新协议利用了日益增多的开源AI选项,每个选项都有不同的方式得出问题的答案。Hamed和Rocha选择了其中七个大型语言模型,并强制它们使用检索增强生成(Retrieval-Augmented Generation, RAG),这要求它们在给出回应前参考权威的医学术语数据库。
在超过10,000次实验中,这七个聊天机器人都收到了相同的日常语言症状描述,每个机器人都提出了它认为对应的医学术语,并附有官方识别编号。然后,这些机器人对答案进行了"投票"。
结果:76.85%的答案得到了至少四个大型语言模型的支持,剩余的23.15%得到了至少两个模型的支持。没有不匹配的术语——也没有幻觉。
Hamed表示:"这种新工作流程令人惊叹,因为它可以从生物医学角度验证任何内容——包括疾病和遗传的生物学知识、从疾病到治疗和临床试验的转化知识,以及从症状和治疗角度的医疗保健知识。"
这种新协议的一大优势是,它可以以近乎无限数量的排列方式进行复制,以加强其准确性。
Hamed表示:"可以有100个开源的大型语言模型,每次我们都可以从该列表中随机选择七个LLM进行实验。当我们多次、多次地进行实验时,我们会增加对投票结果的信心。"
展望更广泛的应用
Rocha表示,该协议是增强对疾病大规模多尺度网络模型信心的重要一步,这是他在宾汉姆顿大学复杂适应系统与计算智能实验室的关键课题。
研究内容包括为精准医学开发"数字孪生"。这些物理过程的动态虚拟复制品利用AI和实时数据不断更新,以创建精确的、预测性的人体反应模拟,使医疗保健提供者能够在实际测试前优化结果。
Rocha表示:"例如,该协议可以提取并提供多智能体验证证据,用于临床试验、科学文献、药理数据库甚至社交媒体讨论中可用的特定药物的不良反应。它还可以帮助从多组学到流行病学和行为数据源等多个层面提取证据,我们已经开始通过构建ER+乳腺癌的多层模型进行试点。"
Hamed高度评价了合作者的贡献:"Rocha教授的指导至关重要,从获取资助到帮助决定这项研究的方向,以及指导我们开发使一切正常运作所需的协议。"
尽管这项研究主要集中在生物医学应用上,但宾汉姆顿团队的发现可用于抑制或消除其他类型的LLM幻觉,例如伪造的法律引用、虚假的学术引用或明显的史实错误。
Hamed表示:"该协议是知识验证民主化的重要一步。"
更多信息
Ahmed Abdeen Hamed等人,《使用支持RAG的跨模型多数投票工作流程评估ChatGPT在生物医学关联生成和验证中的协议》,《STAR Protocols》(2026)。DOI: 10.1016/j.xpro.2026.104533
关键医学概念
药物反应
疾病
由宾汉姆顿大学提供
编辑:Lisa Lock,审阅:Andrew Zinin
【全文结束】

