引言:随着医学文献复杂性的不断上升,提高患者的可读性变得至关重要。本研究旨在评估ChatGPT-4在简化神经学和神经外科摘要及患者教育材料(PEMs)方面的能力,同时使用潜在语义分析(LSA)评估内容保真度。
方法:共收集了100篇摘要(分别来自《神经外科杂志》、《神经外科杂志》、《柳叶刀神经学》和《美国医学会神经学杂志》,每种期刊25篇)和340篇PEMs(66篇来自美国神经外科协会,274篇来自美国神经病学学会)。使用GPT-4.0提示符请求将文本转换为五年级阅读水平。转换前后使用Flesch-Kincaid年级水平(FKGL)和Flesch阅读易度(FKRE)评分。内容保真度通过LSA(范围0-1,1表示主题相同)和专家评估(0-1)进行验证,后者针对一个子集(n=40)。皮尔逊相关系数用于比较评估结果。
结果:摘要的FKGL从12年级降至5年级,PEMs从13年级降至5年级(p < 0.001)。FKRE评分也显示出类似的改善(p < 0.001)。LSA确认摘要(平均余弦相似度0.746)和PEMs(平均0.953)的内容相似度较高。专家评估显示摘要的平均主题相似度为0.775,PEMs为0.715。摘要的LSA与专家评估的文本相似度之间的皮尔逊系数为0.598,PEMs为-0.167。分段分析显示,450字以下的文本相关系数为0.48(p=0.02),450字以上的文本相关系数为-0.20(p=0.43)。
结论:GPT-4.0显著提高了医学文本的可读性,主要保持了内容的完整性,这一点得到了LSA和专家评估的证实。LSA作为评估中等长度文本内容保真度的工具表现出可靠性,但在处理较长文档时效用降低,高估了相似度。这些发现支持了AI在应对低健康素养方面的潜力,但相似度评分表明专家验证是必要的。未来的研究必须努力提高转换精度并开发验证方法。
(全文结束)


