医疗数字化的快速发展催生了对管理临床数据安全并确保患者隐私解决方案的迫切需求。本研究评估了GPT-3.5和GPT-4模型在临床笔记去标识化和生成合成数据方面的能力,利用API访问和零样本提示工程优化计算效率。结果显示,GPT-4显著优于GPT-3.5,达到了0.9925的精度、0.8318的召回率、0.8973的F1分数和0.9911的准确性。这些结果表明,GPT-4有潜力作为保护患者隐私的强大工具,同时增加临床数据用于研究的可用性。这项工作为在医疗数据管理中平衡数据效用和隐私设定了基准。
引言
医疗数字化带来了处理临床笔记的新前景,并显著改变了医学研究的开展方式。临床笔记是详细的患者记录,包含人口统计学、病史和治疗计划等信息,对连续护理和大规模健康分析至关重要。
由于临床笔记中包含的数据敏感性,需要强大的机制来确保患者隐私和数据保密。美国将《健康保险可携性和责任法案》(HIPAA)视为保护患者敏感数据的标准法规。这突显了寻找有效匿名化和去标识化技术的必要性,这些技术不会损害数据完整性。HIPAA规定,医疗机构和实体必须实施物理、网络和流程安全措施,以保护受保护的健康信息(PHI)。
自然语言处理(NLP)是医疗数字化领域的有希望的解决方案。它能够处理大量文本并从非结构化数据源(如临床笔记)中提取信息。NLP在推进医学研究中发挥着重要作用,被用于多种应用,包括提高诊断准确性、预测患者结果等。
现代人工智能应用,包括生成预训练转换器(GPT)模型的发展,提供了增强患者隐私和安全性的机会。GPT-3.5和GPT-4具有出色的文本生成能力,可以模仿人类文本,使其适合创建合成临床笔记。理想情况下,这些合成笔记应在语言质量、临床效用和相关性方面与真实临床笔记相似,但不包含可能危及患者隐私的个人信息。
虽然在开放式生成任务中幻觉是一个已知挑战,但在结构化任务(如PHI识别和去标识化)中影响较小。结构化任务侧重于从定义明确的输入中提取特定信息或进行分类,显著减少了生成未经验证或多余信息的可能性。研究表明,幻觉现象在生成任务中比在结构化提取和分类任务中更为普遍。例如,一项分析教育调查反馈的研究发现,GPT-4在提取任务中表现出0%的幻觉率,突显了GPT模型在结构化、基于规则的应用中的可靠性。通过精确的提示工程并将HIPAA指南整合到提示中,本研究进一步降低了幻觉风险,确保了确定性和可靠的输出。
本研究评估了GPT-3.5和GPT-4在识别和去标识化受保护的健康信息(PHI)方面的表现,生成合成笔记,在保持隐私法规的同时维持研究效用。数据来自侯赛因国王癌症中心(KHCC)的电子健康记录(EHR),确保了真实世界和高保真度的背景。遵循伦理指南和机构审查委员会(IRB)批准,临床笔记使用上下文学习(ICL)技术处理。基于HIPAA标识符的精确和结构化提示指导模型准确识别和删除PHI。评估框架使用精度、召回率、F1分数和准确性等指标评估模型的有效性和可靠性。通过结合手动和自动审查,研究确保生成的合成笔记保持语言质量和临床效用,同时符合隐私标准。
本研究解决了当前方法在使用NLP和GPT模型去标识化和生成合成临床笔记中的关键差距。传统模型依赖于计算密集型训练方法,需要大量资源,这并非所有医疗机构都能负担得起。我们的方法使用先进的GPT模型,利用预训练能力,减少了对广泛计算资源的需求。与之前使用可能存在偏差的开源数据集的研究不同,本研究使用KHCC的实际患者数据,确保高保真的合成笔记和有效的现实性能。
这项研究的重要性不仅在于这些模型的技术成就,而是在于这种方法可能会改变医疗数据的使用方式,因为它增强了数据的可用性而不危及患者的隐私。这可以加速治疗策略和临床实践的创新,最终改善患者护理和健康结果。
(全文结束)


