评估AI简化医学文本的效果：可读性和内容保真度 - AI与医疗健康

评估AI简化医学文本的效果：可读性和内容保真度(PDF) Assessing AI Simplification of Medical Texts: Readability and Content Fidelity

环球医讯 / AI与医疗健康来源：www.researchgate.net美国 - 英语2024-12-15 00:00:00 - 阅读时长2分钟 - 800字

本文评估了ChatGPT-4在简化神经学和神经外科摘要及患者教育材料（PEMs）方面的效果，通过Flesch-Kincaid可读性评分和潜在语义分析（LSA）验证了内容保真度。

引言：随着医学文献复杂性的不断上升，提高患者的可读性变得至关重要。本研究旨在评估ChatGPT-4在简化神经学和神经外科摘要及患者教育材料（PEMs）方面的能力，同时使用潜在语义分析（LSA）评估内容保真度。

方法：共收集了100篇摘要（分别来自《神经外科杂志》、《神经外科杂志》、《柳叶刀神经学》和《美国医学会神经学杂志》，每种期刊25篇）和340篇PEMs（66篇来自美国神经外科协会，274篇来自美国神经病学学会）。使用GPT-4.0提示符请求将文本转换为五年级阅读水平。转换前后使用Flesch-Kincaid年级水平（FKGL）和Flesch阅读易度（FKRE）评分。内容保真度通过LSA（范围0-1，1表示主题相同）和专家评估（0-1）进行验证，后者针对一个子集（n=40）。皮尔逊相关系数用于比较评估结果。

结果：摘要的FKGL从12年级降至5年级，PEMs从13年级降至5年级（p < 0.001）。FKRE评分也显示出类似的改善（p < 0.001）。LSA确认摘要（平均余弦相似度0.746）和PEMs（平均0.953）的内容相似度较高。专家评估显示摘要的平均主题相似度为0.775，PEMs为0.715。摘要的LSA与专家评估的文本相似度之间的皮尔逊系数为0.598，PEMs为-0.167。分段分析显示，450字以下的文本相关系数为0.48（p=0.02），450字以上的文本相关系数为-0.20（p=0.43）。

结论：GPT-4.0显著提高了医学文本的可读性，主要保持了内容的完整性，这一点得到了LSA和专家评估的证实。LSA作为评估中等长度文本内容保真度的工具表现出可靠性，但在处理较长文档时效用降低，高估了相似度。这些发现支持了AI在应对低健康素养方面的潜力，但相似度评分表明专家验证是必要的。未来的研究必须努力提高转换精度并开发验证方法。

(全文结束)