研究发现大型语言模型在医疗保健评估中缺乏真实患者数据和偏见评估Study finds health care evaluations of large language models lacking in real patient data and bias assessment

环球医讯 / AI与医疗健康来源:www.news-medical.net美国 - 英语2024-10-18 18:00:00 - 阅读时长4分钟 - 1931字
一项新的系统综述揭示,只有5%的医疗保健评估使用了真实患者数据,评估偏见、公平性和多种任务方面存在显著差距,强调了需要更全面的评估方法。
大型语言模型医疗保健评估真实患者数据偏见评估系统综述JAMA评估方法医疗任务
研究发现大型语言模型在医疗保健评估中缺乏真实患者数据和偏见评估

一项新的系统综述揭示,只有5%的医疗保健评估使用了真实患者数据,评估偏见、公平性和多种任务方面存在显著差距,强调了需要更全面的评估方法。

研究:大型语言模型在医疗保健应用中的测试与评估。图片来源:BOY ANTHONY/Shutterstock.com

最近发表在《JAMA》上的一项研究中,美国研究人员进行了一项系统综述,以评估现有大型语言模型(LLMs)在医疗保健应用中的各个方面,包括评估的医疗任务和数据类型,旨在确定LLMs在医疗保健中最有效的应用领域。

背景

人工智能(AI)在医疗保健领域的应用迅速发展,尤其是大型语言模型(LLMs)的发展。与用于预测过程结果的预测AI不同,使用LLMs的生成式AI可以创建各种新内容,如图像、声音和文本。

基于用户输入,LLMs可以生成结构化且连贯的文本响应,这使它们在医疗保健领域具有重要价值。在美国的一些医疗系统中,LLMs已经应用于笔记记录,并正在医疗领域探索以提高效率和患者护理。

然而,对LLMs的突然兴趣也导致了在各个领域对LLMs的无序测试,LLMs在临床环境中的表现参差不齐。一些研究表明,LLMs的响应大多肤浅且经常不准确,而另一些研究则发现其准确率与人类医生相当。

这种不一致性突显了系统评估LLMs在医疗保健环境中性能的必要性。

研究概述

为了这项全面的系统综述,研究人员检索了2022年1月至2024年2月期间发表的关于LLMs在医疗保健评估中的预印本和同行评审研究。选择这一两年的时间窗口是为了包括2022年11月推出AI聊天机器人ChatGPT之后发表的论文。

三位独立审稿人筛选了这些研究,纳入综述的研究需集中在医疗保健领域的LLMs评估。基础生物研究或多模态任务的研究被排除在外。

这些研究随后根据评估的数据类型、医疗任务、自然语言处理(NLP)和自然语言理解任务、医学专业和评估维度进行了分类。分类框架是基于现有的医疗任务列表、已建立的评估模型和医疗专业人员的输入开发的。

分类框架考虑了是否评估了真实患者数据,并检查了19个医疗任务,包括护理和行政职能。此外,分类中还包括六个NLP任务,如总结和问答。

此外,还确定了七个评估维度,包括事实性、准确性和毒性等方面。研究还按22个医学专业类别进行了分组。研究人员使用描述性统计方法总结了研究结果,并计算了每个类别的百分比和频率。

结果

综述发现,LLMs在医疗保健中的评估是异质的,任务覆盖和数据使用方面存在显著差距。在纳入综述的519项研究中,只有5%使用了真实患者数据,大多数研究依赖于专家生成的数据片段或医学考试题目。

大多数研究集中在LLMs的医学知识任务上,特别是通过美国医学执照考试等评估。患者护理任务,如诊断患者和治疗建议,也是LLMs任务中相对常见的。然而,行政任务,如临床笔记记录和账单代码分配,在LLMs任务中很少被探讨。

在NLP任务中,大多数研究集中在问答上,包括通用查询。大约25%的功能使用LLMs进行文本分类和信息提取,但对话对话和总结等任务在LLMs评估中并未得到充分探讨。

通过LLMs最常评估的评价维度是准确性(95.4%),其次是全面性(47%)。非常少的研究使用LLMs进行与偏见、毒性和公平性相关的伦理考量。

超过20%的研究没有特定的医学专业,内科、眼科和外科在LLMs评估研究中最为代表。医学遗传学和核医学研究在LLMs评估中是最少被探讨的。

结论

总体而言,综述强调了标准化评估方法和评估LLMs在医疗保健应用中的共识框架的必要性。

研究人员表示,应促进在LLMs评估中使用真实患者数据,并扩大LLMs在行政任务和其他医学专业领域的应用将非常有益。

参考文献:

Bedi, S., Liu, Y., OrrEwing, L., Dash, D., Koyejo, S., Callahan, A., Fries, J. A., Wornow, M., Swaminathan, A., Lehmann, L. S., Hong, H. J., Kashyap, M., Chaurasia, Akash R, Shah, N. R., Singh, K., Tazbaz, T., Milstein, A., Pfeffer, M. A., & Shah, N. H. (2024). Testing and Evaluation of Health Care Applications of Large Language Models: A Systematic Review. JAMA. **doi:**10.1001/jama.2024.21700.


(全文结束)

大健康
大健康