人类编码员,即那些将健康记录转换为标准化字母数字代码的专业人员,可能会从人工智能(AI)技术中受益。然而,在最近的一项研究中,一种旨在分类复杂医疗病例文档的人工智能模型被其人类对手击败——但研究人员表示,这项AI技术仍可能带来巨大的益处。
最近由詹姆斯库克大学(James Cook University)领导的一项研究,让五位人类临床文档编码员与基于ChatGPT的大规模语言模型进行对抗,分析了随机选择的100份具有挑战性的临床患者摘要,涵盖了五大类疾病。
ChatGPT的准确率为22%,而研究中表现最好的人类编码员达到了47%的准确率。
“我们看到几位人类编码员在几乎所有的案例中都超过了工具的表现,”研究首席作者、詹姆斯库克大学博士生阿克拉姆·穆斯塔法(Akram Mustafa)说。
“有些编码员表现较差,但如果将五个类别的综合结果放在一起,总体上人类编码员表现更好。”
编码员将健康记录转换为标准化字母数字代码,这些代码随后用于州和联邦的数据报告、卫生服务规划和医院资金模式。
穆斯塔法先生表示,虽然之前的研究已经比较了人类编码员与AI在分类医疗文件方面的能力,但此次研究更进一步。
“一些临床病例很容易分类,以前的机器学习模型或普通映射工具已经可以很好地处理。但我们想看看对于主流工具难以分类的临床文档,在某些信息缺失或记录信息不足的情况下,大规模语言模型AI工具与人类编码员相比如何表现。”
研究合著者、詹姆斯库克大学电子与计算机工程教授莫斯塔法·拉希米·阿兹加迪(Mostafa Rahimi Azghadi)表示,团队还比较了ChatGPT 3.5与ChatGPT 4在这项研究中的表现,发现后者在重复输入相同的临床文档时产生了更为一致的疾病分类。
“ChatGPT 4更加稳定。86%到89%的时间内,它给出了完全相同的疾病预测,”阿兹加迪教授说。
“这类似于将一份临床记录交给一位医生并询问诊断,然后第二天再次询问同一个问题。”
阿兹加迪教授表示,该模型应被视为一种可以补充人类编码的工具,特别是在减少不一致性和提高效率方面。
“目前,所有这些文档都需要由人类编码。他们需要坐下来看大量的文本,包括关于患者的医院评估、治疗和进展以及使用了哪些药物的信息,”他说。
“一种混合方法可能是利用大规模语言模型的速度和标记困难案例的能力,并结合人类监督处理分类较为困难的情况。这可能会提高编码准确性并简化流程。”
阿兹加迪教授表示,下一步将是增加模型的“可解释性”,使其能够提供更详细的理由说明为何将某患者分类为特定条件。
麦考瑞大学(Macquarie University)计算学院的纳斯姆博士(Usman Naseem)也参与了这项研究。
(全文结束)


