摘要
背景与目的:人工智能(AI)在医疗系统中的应用可通过降低成本提升患者护理质量和运营效率。本研究旨在探索生成式人工智能与大型语言模型(LLMs)在西班牙语真实临床记录中的肿瘤学信息提取能力。
方法:使用Python的Ollama框架调用7个Ollama模型及GPT-4.5,采用上下文学习策略。模型生成包含12类肿瘤学命名实体的JSON文件,测试数据集由100份临床记录组成。
结果:通过与乳腺癌专家标注的金标准对比,GPT-4.5在12类实体中的平均F1得分为0.88,其中Ki 67值检测表现最佳。开源模型中,llama 3作为性能最优的LLM聊天机器人,其效果仍显著落后于GPT-4.5。
结论:本地部署的开源模型在精准度上尚未达到人类专家水平。但针对特定模型(如llama 3)的输出进行定制化后处理,可显著提升性能。
注:
资助信息:本研究获得西班牙科学与创新部(MICINN)通过PID2020-116898RB-I00/AEI/10.13039/501100011033项目、马拉加大学与安达卢西亚政府通过UMA20-FEDERJA-045项目,以及辉瑞公司(Pfizer S.L.)、马拉加大学和马拉加大学基金会(UMA-FGUMA-Pfizer)的私人资金支持。
利益冲突:所有作者声明无任何可能影响研究结果的经济利益或个人关系。
关键词:信息抽取,自然语言处理,电子健康记录,肿瘤学,西班牙语
【全文结束】


