随着人工智能技术的发展,特别是像ChatGPT这样的大型语言模型的应用越来越广泛。因此,越来越多的人希望利用AI模型来解释医疗信息,作为做出关键医疗决策的工具。以色列本古里安大学的一个研究团队决定评估专门处理医疗信息的大型语言模型(LLMs)的能力,并进行了比较。这项研究的惊人结果发表在《计算机生物学与医学》杂志上。
人工智能应用于医疗信息已成为一种常见工具,用于通过医疗聊天机器人回答患者问题、预测疾病、生成合成数据以保护患者隐私或为医学生生成医疗问答。处理文本数据的AI模型在分类信息方面已被证明是有效的。然而,当数据成为挽救生命的临床医疗信息时,需要理解医疗代码的深层含义及其之间的差异。
本古里安大学软件与信息系统工程系的博士生奥菲尔·本·肖姆(Ofir Ben Shoham)和纳达夫·拉波波特博士(Dr. Nadav Rappoport)决定评估大型语言模型在多大程度上理解医疗领域并能回答相关问题。为此,他们对通用模型和经过医疗信息微调的模型进行了比较。
研究人员构建了一个专门的评估方法MedConceptsQA,用于回答关于医疗概念的问题。研究人员生成了超过80万个涵盖国际医疗概念的闭合问题和答案,难度分为三个级别,以评估使用语言模型的人如何解释医疗术语并区分医疗概念,如诊断、程序和药物。研究人员使用他们开发的算法自动生成请求描述医疗代码的问题。虽然简单的问题只需基本知识,但复杂的问题需要详细的理解和识别相似医疗概念之间细微差别的能力。中等难度的问题则需要稍微更多的基本信息。
研究人员使用现有的临床数据标准来评估临床代码,这使他们能够区分用于医疗编码实践、总结、自动计费等任务的医疗概念。研究结果表明,大多数模型的表现较差,相当于随机猜测,包括那些在医疗数据上训练的模型。唯一例外的是ChatGPT-4,其平均准确率约为60%,尽管仍然远未令人满意。
“似乎专门为医疗目的训练的模型在这项测试中的准确率接近随机猜测,尽管它们已经预先训练了医疗数据。”拉波波特博士指出。值得注意的是,为一般用途创建的模型(如Llama3-70B和ChatGPT-4)表现更好。ChatGPT-4表现出最佳性能,尽管其在研究人员构建的一些特定医疗代码问题上的准确性仍显不足。ChatGPT-4的平均改进率为9-11%,相比之下,Llama3-OpenBioLLM-70B是表现最好的临床语言模型。
“我们的评估指标是评估大型语言模型解释医疗代码和区分医疗概念能力的宝贵资源。我们展示了大多数临床语言模型的表现相当于随机猜测,而ChatGPT-3.5、ChatGPT-4和Llama3-70B这些并非专门针对医疗领域的模型却超过了这些临床模型。”博士生肖姆解释道。“通过我们的问题库,我们可以非常容易地评估未来发布的其他模型,并进行比较。”
临床数据通常包括标准医疗代码和自然语言文本。这项研究强调了模型需要更广泛的临床语言来理解医疗信息,以及在广泛使用这些模型时所需的谨慎态度。“我们提供了一个基准,用于评估医疗代码信息的质量,并提醒用户在使用这些信息时需要谨慎。”拉波波特博士总结道。
(全文结束)


