在涉及关键医疗决策时,人工智能(AI)大多是在猜测。根据本-古里安大学的研究团队发现,尽管基于大型语言模型的AI在社会各个领域越来越普遍,但在处理复杂的医疗信息方面表现不佳。
研究人员决定检查专门用于医疗信息的大型语言模型的能力,并进行比较。这项研究首次发表在《计算机在生物医学中的应用》杂志上。
人工智能应用于医疗信息已成为一种常见的工具,用于通过医疗聊天机器人回答患者问题、预测疾病、创建保护患者隐私的合成数据或生成供医学生使用的医疗问答。处理文本数据的AI模型在分类信息方面已证明是有效的。
然而,当数据变成救命的临床医疗信息时,需要理解医疗代码的深层含义及其之间的差异。研究人员决定检查大型语言模型在多大程度上理解医疗世界并能回答相关问题。为此,他们对比了一般模型和经过医疗信息微调的模型。
研究人员建立了一个专门的评估方法来回答关于医疗概念的问题。他们生成了超过80万个涵盖国际医疗概念的封闭式问题和答案,分为三个难度级别,以评估使用语言模型的人如何解释医疗术语和区分医疗概念,如诊断、程序和药物。研究人员使用他们开发的算法自动生成要求描述医疗代码的问题。简单的问题需要基本知识,而困难的问题则需要详细的理解和识别相似医疗概念之间的小差异。中等难度的问题需要稍微更多的基本信息。研究人员使用现有的临床数据标准来评估临床代码,以便在医疗编码实践、总结、自动计费等任务中区分医疗概念。
研究结果表明,大多数模型的表现较差,相当于随机猜测,即使那些经过医疗数据训练的模型也是如此。唯一例外的是ChatGPT-4,其表现优于其他模型,平均准确率约为60%,但仍远未达到满意水平。
“似乎大部分专门为医疗目的训练的模型在这项测量中的准确率接近随机猜测,尽管它们已经预先接受了医疗数据的训练,”本-古里安大学软件和信息系统工程系的Nadav Rappoport在一份声明中表示。
研究人员指出,为一般目的创建的模型(如Llama3-70B和ChatGPT-4)表现更好。ChatGPT-4表现出最佳性能,尽管其准确度仍不足以回答研究人员构建的一些特定医疗代码问题。ChatGPT-4相比Llama3-OpenBioLLM-70B(表现最好的临床语言模型)平均提高了9-11%。
“我们的测量方法是一种有价值的资源,用于评估大型语言模型解释医疗代码和区分医疗概念的能力。我们展示了大多数临床语言模型的表现相当于随机猜测,而ChatGPT-3.5、ChatGPT-4和Llama3-70B这些并非专门针对医疗领域的模型却表现更好,”博士生Ben Shoham表示。“通过我们的问题库,我们可以非常轻松地评估未来发布的其他模型,并进行比较。”
临床数据通常包括标准医疗代码和自然语言文本。这项研究强调了模型需要更广泛的临床语言来理解医疗信息,以及在广泛使用这些模型时所需的谨慎。“我们提供了一个基准,用于评估医疗代码信息的质量,并提醒用户在使用这些信息时需谨慎,”Rappoport表示。
(全文结束)


