三语种英简体中日脑梗塞患者-护士床边对话合成数据集及元数据Trilingual (EN/ZH-CN/JP) synthetic dataset of cerebral infarction patient-nurse bedside dialogs with metadata | medRxiv

环球医讯 / AI与医疗健康来源:www.medrxiv.org日本 - 英语2026-01-08 21:04:42 - 阅读时长2分钟 - 833字
日本京都大学与国家脑心血管中心团队开发出全球首个英/简体中/日三语种脑梗塞患者-护士床边对话合成数据集,该数据集通过大语言模型关联患者临床协变量表、护士特征及护理场景,生成标准化JSONL格式的结构化对话(每日7个场景),已通过日本学术振兴会资助验证;该合成数据不包含任何患者隐私信息,可应用于临床实践时间受限场景下的护理教学、护理记录质量评估实验研究,以及无法共享真实文本时的AI模型训练与基准测试,为医疗人工智能研发提供重要基础资源,同时规避了传统医疗语料因隐私限制导致的稀缺性问题。
脑梗塞患者护士床边对话合成数据集元数据三语种护理教学临床实践医疗对话语料库AI模型隐私保护
三语种英简体中日脑梗塞患者-护士床边对话合成数据集及元数据

摘要

我们提出一个大规模合成数据集,该数据集将患者脑梗塞实际分布的结构化背景信息、护士特征与多样化场景中的护患对话相关联。由于隐私和访问限制,医疗对话语料库十分稀缺;即使存在,也主要聚焦于医患互动,且元数据(临床协变量、医护人员特征等)有限。为弥补这一缺口,本资源通过患者协变量表和护士特征条件化大语言模型,采用标准化JSONL模式生成多语种日常结构化对话(每日7个场景)。潜在应用包括:在临床实践时间受限条件下支持护理教学(助力基于场景的治疗性沟通与形成性评估)、涉及护理记录格式及质量指标的受控实验研究,以及在无法共享真实文本时训练或基准测试AI模型(需符合所选模型的使用条款)。所有内容均为合成数据,不含任何受保护的健康信息。可复现脚本可实现患者与护士的配对、护理路径分配,并按比例生成对话内容。

利益冲突声明

作者声明不存在利益冲突。

资金声明

本研究获得日本学术振兴会(JSPS KAKENHI 25K13935)资助。

作者声明

本人确认已遵循所有相关伦理准则,并获得必要的机构审查委员会(IRB)和/或伦理委员会批准。

本人确认已获取所有必要的患者/参与者知情同意,并归档了适当机构表格;且任何患者/参与者/样本标识符均不为研究组外部人员(如医院工作人员、患者或参与者本人)所知,故无法用于识别个体。

本人理解所有临床试验及任何前瞻性干预研究必须在ICMJE认证注册机构(如ClinicalTrials.gov)注册。本人确认稿件中报告的此类研究已完成注册并提供试验注册ID(注:如事后注册前瞻性研究,需在试验ID字段说明原因)。

本人已遵循所有适用的研究报告指南,如相关EQUATOR Network研究报告清单及其他必要材料(如适用)。

数据可用性

所有生成数据均可在线获取:

本预印本版权归作者/资助方所有,其已授予医学预印本平台medRxiv永久展示许可。根据知识共享CC-BY 4.0国际许可协议提供使用权限。

【全文结束】

大健康
大健康