两个脑袋总比一个好——即使这些脑袋并非人类。
尽管大型语言模型(LLMs)具有实用价值,但其可靠性问题依然存在。一项新研究表明,由多个AI协同工作的团队能在美国医师执照考试中取得最高97%的分数,表现优于任何单一AI系统。
尽管近期大型语言模型的进展已使其能够通过专业和学术测试,但其表现仍不稳定。它们仍易产生“幻觉”——即听起来合理但错误的陈述——这限制了其在医疗和金融等高风险领域的应用。
然而,LLMs在医学考试中已取得令人瞩目的成绩,表明若能控制其不一致性,该技术可能在该领域发挥重要作用。如今,研究人员证明,让五个AI模型组成的“委员会”通过讨论而非单独工作来解答问题,可在美国医师执照考试(USMLE)中创下破纪录的分数。
约翰霍普金斯大学的亚希娅·谢赫(Yahya Shaikh)在新闻稿中表示:“我们的研究表明,当多个AI共同讨论时,它们在医学执照考试中达到了前所未有的最高表现。这展示了AI系统间协作与对话的力量,能够得出更准确可靠的答案。”
研究团队的方法利用了模型的一个特性,该特性源于其生成响应的非确定性方式。若向同一模型重复提问相同的医学问题,它可能产生两个不同答案——有时正确,有时错误。
在《PLOS医学》期刊发表的一篇论文中,团队描述了如何利用这一特性创建AI“委员会”。他们启动了五个OpenAI的GPT-4实例,并引导它们在算法主持的结构化交流中讨论每个问题的答案。
当响应出现分歧时,主持算法会总结不同推理并促使小组重新考虑答案,重复此过程直至达成共识。
在针对USMLE三个阶段共325道公开试题的测试中,AI委员会分别取得97%、93%和94%的准确率。这些分数不仅超越了任何单个GPT-4实例的表现,还超过了人类考生的平均通过标准。谢赫表示:“我们的工作首次明确证明,AI系统能通过结构化对话实现自我校正,集体表现优于任何单一AI。”
作为该方法有效性的佐证,当模型初始意见分歧时,讨论过程修正了超半数的早期错误。总体而言,当初始答案不一致时,委员会最终有83%的概率得出正确结论。
同为约翰霍普金斯大学的合著者齐尚·西迪基(Zishan Siddiqui)在新闻稿中指出:“本研究并非评估AI的USMLE应试能力。我们描述了一种将AI自然响应变异性视为优势的方法,通过多次尝试、比对笔记和自我校正来提高准确性,该机制应被整合到未来的教育工具及适当场景的临床护理中。”团队强调,其结果源于受控测试而非真实临床环境,因此AI委员会距离实际应用仍有很长的路要走,但他们认为该方法在其他领域同样可能发挥作用。
看来,那句“两个脑袋总比一个好”的古老谚语,即便应用于非人类的“脑袋”也依然成立。
【全文结束】


