三语种英简体中日脑梗塞患者-护士床边对话合成数据集及元数据 - AI与医疗健康

三语种英简体中日脑梗塞患者-护士床边对话合成数据集及元数据Trilingual (EN/ZH-CN/JP) synthetic dataset of cerebral infarction patient-nurse bedside dialogs with metadata | medRxiv

环球医讯 / AI与医疗健康来源：www.medrxiv.org日本 - 英语2026-01-08 21:04:42 - 阅读时长2分钟 - 833字

日本京都大学与国家脑心血管中心团队开发出全球首个英/简体中/日三语种脑梗塞患者-护士床边对话合成数据集，该数据集通过大语言模型关联患者临床协变量表、护士特征及护理场景，生成标准化JSONL格式的结构化对话（每日7个场景），已通过日本学术振兴会资助验证；该合成数据不包含任何患者隐私信息，可应用于临床实践时间受限场景下的护理教学、护理记录质量评估实验研究，以及无法共享真实文本时的AI模型训练与基准测试，为医疗人工智能研发提供重要基础资源，同时规避了传统医疗语料因隐私限制导致的稀缺性问题。

摘要

我们提出一个大规模合成数据集，该数据集将患者脑梗塞实际分布的结构化背景信息、护士特征与多样化场景中的护患对话相关联。由于隐私和访问限制，医疗对话语料库十分稀缺；即使存在，也主要聚焦于医患互动，且元数据（临床协变量、医护人员特征等）有限。为弥补这一缺口，本资源通过患者协变量表和护士特征条件化大语言模型，采用标准化JSONL模式生成多语种日常结构化对话（每日7个场景）。潜在应用包括：在临床实践时间受限条件下支持护理教学（助力基于场景的治疗性沟通与形成性评估）、涉及护理记录格式及质量指标的受控实验研究，以及在无法共享真实文本时训练或基准测试AI模型（需符合所选模型的使用条款）。所有内容均为合成数据，不含任何受保护的健康信息。可复现脚本可实现患者与护士的配对、护理路径分配，并按比例生成对话内容。

利益冲突声明

作者声明不存在利益冲突。

资金声明

本研究获得日本学术振兴会（JSPS KAKENHI 25K13935）资助。

作者声明

本人确认已遵循所有相关伦理准则，并获得必要的机构审查委员会（IRB）和/或伦理委员会批准。

是

本人确认已获取所有必要的患者/参与者知情同意，并归档了适当机构表格；且任何患者/参与者/样本标识符均不为研究组外部人员（如医院工作人员、患者或参与者本人）所知，故无法用于识别个体。

是

本人理解所有临床试验及任何前瞻性干预研究必须在ICMJE认证注册机构（如ClinicalTrials.gov）注册。本人确认稿件中报告的此类研究已完成注册并提供试验注册ID（注：如事后注册前瞻性研究，需在试验ID字段说明原因）。

是

本人已遵循所有适用的研究报告指南，如相关EQUATOR Network研究报告清单及其他必要材料（如适用）。

是

数据可用性

所有生成数据均可在线获取：

本预印本版权归作者/资助方所有，其已授予医学预印本平台medRxiv永久展示许可。根据知识共享CC-BY 4.0国际许可协议提供使用权限。

【全文结束】