研究人员使用协作式人工智能参加美国医师执照考试。图片来源:Nguyen Dang Hoang Nhu,Unsplash
根据美国巴尔的摩研究人员Yahya Shaikh及其同事发表在《PLOS Medicine》上的一项研究,由五个AI模型组成的委员会通过迭代讨论过程共同工作,在涵盖美国医师执照考试(USMLE)三个阶段的325道医学考试题中,分别取得了97%、93%和94%的准确率。
在过去几年中,许多研究评估了大型语言模型(LLMs)在医学知识和执照考试中的表现。虽然LLMs的得分有所提高,但当同一个问题多次询问LLM时,其表现会有所波动——会产生各种不同的回答,其中一些是错误的或产生"幻觉"。
在新研究中,研究人员开发了一种方法,创建了一个由多个OpenAI GPT-4实例组成的AI智能体委员会,这些智能体进行协调和迭代交流,旨在达成共识回答。当出现不同回答时,一个协调算法会促进审议过程,总结每个回答中的推理,并要求委员会审议并重新回答原始问题。
当委员会面对325道公开可用的USMLE问题(包括关注基础生物医学科学以及临床诊断和管理的问题)时,该系统在第一步(Step 1)、第二步临床知识(Step 2 CK)和第三步(Step 3)中分别有97%、93%和94%的时间达成正确共识回答,表现优于单实例GPT-4模型。在没有初始一致回答的情况下,AI审议委员会有83%的时间达成正确答案的共识。对于需要审议的问题,委员会纠正了多数投票所得到的53%以上的错误回答。
作者建议,AI之间的集体决策可以提高准确性,并为医疗保健提供更可靠的工具,而在医疗保健中准确性至关重要。然而,他们指出,这种范式尚未在真实临床场景中进行测试。
作者表示:"通过证明不同的AI视角可以改进答案,我们挑战了仅一致性定义'良好'AI的观点。相反,通过团队合作接受变异性可能会为医学乃至更广泛领域的AI解锁新的可能性。"
Shaikh表示:"我们的研究表明,当多个AI共同审议时,它们在医师执照考试中取得了前所未有的表现,在第一步至第三步中分别得分97%、93%和94%,且无需任何特殊医学数据训练或访问。这证明了AI系统之间通过协作和对话达成更准确、更可靠答案的力量。我们的工作首次明确证明,AI系统可以通过结构化对话进行自我纠正,集体的表现优于任何单一AI。"
研究员Zishan Siddiqui指出:"这项研究不是为了评估AI参加USMLE考试的能力,那种会让它的'妈妈'自豪、'爸爸'夸耀并吸引头条新闻的能力。相反,我们描述了一种通过将AI自然的响应变异性视为优势来提高准确性的方法。它允许系统尝试几次,比较笔记并自我纠正,这种方法应该被纳入未来用于教育以及适当临床护理的工具中。"
研究员Zainab Asiyah补充道:"语义熵不仅测量数据,还讲述了一个故事。它展示了斗争、起伏和解决方案,非常像人类的旅程。它揭示了LLM的人性一面。数据表明,LLM实际上可以说服彼此采纳观点并通过对话改变彼此的想法……即使答案是错误的。"
【全文结束】


