生成式AI在准确识别全球卫生政策方面存在不足
- 下载PDF副本
由Sanchari Sinha Dutta 博士撰写,Lily Ramsey 律师审核,2024年12月17日
虽然人工智能工具加速了数据收集,但一项研究揭示了其在政策解读方面的显著不准确性,尤其是在非洲和东地中海地区。
研究:评估生成式人工智能在卫生政策识别和解读方面的局限性。图片来源:Thapana_Studio/Shutterstock.com
美国乔治敦大学全球健康科学与安全中心的科学家们进行了一项研究,评估生成式人工智能(GAI)工具在全球范围内识别和解读卫生政策的准确性和精确度。该研究发表在《PLOS ONE》杂志上。
背景
“新兴传染病政策分析与地图绘制”项目利用人类专家系统地发现、分析和分类所有联合国成员国的卫生政策。
最近出现的生成式人工智能(GAI)技术开发了用于快速筛选和检查大量医疗数据的工具。
GAI技术的迅速普及鼓励将其纳入“新兴传染病政策分析与地图绘制”项目中,以减少完成工作所需的人力资源。
在这项研究中,科学家们评估了GAI工具在识别和解读相关卫生政策方面的效能和准确性。
具体而言,他们使用了两个经过验证的政策(紧急情况和儿童疫苗接种政策以及隔离和检疫政策),并在每个联合国成员国中系统地评估和比较了GAI工具和主题专家的响应。
重要观察
研究中使用的GAI工具显著提高了疫苗接种和隔离及检疫政策数据集的数据收集效率。该工具将疫苗数据收集所需的时间减少了88%,并将效率提高了90%。
疫苗政策数据集分析
对于疫苗数据集,GAI工具用于评估是否存在法律强制的常规儿童疫苗接种规定或危机期间对国内人口进行强制疫苗接种的紧急权力。
在此评估中,工具与人类主题专家之间的吻合率为78%。然而,在排除了专家和工具都无法找到任何普遍法律强制接种规定的国家后,吻合率降至63%。
在世界卫生组织(WHO)各区域中,吻合率存在差异。西太平洋和欧洲地区的国家之间吻合率最高,而东南亚和东地中海地区的国家之间吻合率最低。
研究发现,在排除了专家和工具都一致认为缺乏法律疫苗要求的响应后,GAI工具存在显著的系统性不准确和不精确。
GAI工具在非洲、东南亚和东地中海地区的超过50%的国家中生成了不准确的疫苗响应。然而,西太平洋、欧洲和美洲地区仍然是工具表示最准确的WHO区域。
对于五个国家,GAI工具识别出了专家之前未识别的政策。
隔离和检疫政策数据集分析
对于隔离和检疫数据集,GAI工具用于识别和解读与国内人口中感染者的隔离和接触者的检疫相关的现有政策。
在此评估中,专家和工具的吻合率为67%。类似于疫苗响应,关于隔离和检疫响应的吻合率在WHO各区域中也存在差异。
西太平洋地区的国家之间吻合率最高,而非洲和东地中海地区的国家之间吻合率最低。东南亚、欧洲和美洲地区的国家之间则表现出中等程度的吻合。
正如科学家们所提到的,西太平洋地区最高的吻合率是由于这些地区的国家使用英语作为官方语言,因此通常用英语发布政府文件。
根据这一假设,研究发现,对于61个政策用英语撰写的国家,GAI工具81%的时间与专家响应完全匹配或提供更多信息。
然而,对于133个政策不是用英语撰写的国家,GAI工具63%的时间与专家响应完全匹配或提供更多信息。
关于专家和工具之间的总体不吻合,研究发现,工具在21%的总响应中遗漏了专家发现的信息,而在8.8%的总响应中提供了与专家提供的信息不符的错误信息。对于2%的总响应,工具提供了专家遗漏的信息。
研究意义
研究发现,GAI工具在卫生政策识别的质量保证和质量控制过程中是有用的。
然而,该工具需要进一步改进,以准确识别不同全球区域和语言的政策并解释特定背景下的信息。
鉴于研究结果,科学家建议不应将GAI工具用作卫生政策识别或解读的主要审查者。相反,这些工具可以有效地用作卫生政策识别的第二或第三审查者。
参考文献:
- Wilson R. 2024. 评估生成式人工智能在卫生政策识别和解读方面的局限性。《PLOS ONE》。
(全文结束)


