波士顿大学的一项新研究强调了生成式人工智能在改善医疗保健中患者安全方面的潜力。
发表于《联合委员会关于质量与患者安全杂志》的这项研究,对广泛使用的人工智能模型 GPT-4 进行了“患者安全认证专业人员(CPPS)”考试测试,其答对了 88%的问题。研究人员认为,人工智能可以通过协助临床医生识别和解决医院及诊所中的安全风险,帮助减少每年估计导致 40 万人死亡的医疗失误。
该研究首次对 GPT-4 在患者安全方面的能力进行了深入测试,重点关注其在风险解决方案、绩效测量和系统思维等关键领域的表现。GPT-4 在患者安全和解决方案等领域表现出色,但在文化和领导领域表现较弱,特别是在存在多个正确答案的情况下。
研究作者认为,人工智能有望帮助医生更好地识别、处理和预防医院和诊所中的错误或意外伤害。
GPT-4 在 CPPS 考试中答对 88%的问题 | 图片来源:LALAKA - stock.adobe.com
“虽然需要更多的研究来充分了解当前的人工智能在患者安全方面能做什么,但这项研究表明,人工智能在通过协助临床医生处理可预防的伤害来改善医疗保健方面有一定的潜力,”波士顿大学乔巴尼安和阿维迪西安医学院的医学助理教授、波士顿医疗中心质量和患者安全医疗主任 Nicholas Cordella 医学博士、理学硕士说道。
然而,该研究也强调了当前人工智能技术的关键局限性,包括偏差风险、捏造数据和错误的回答自信。另外,CPPS 考试的确切及格分数未公开,但研究人员认为 GPT-4 的分数与熟练的人类患者安全从业者的表现一致。值得注意的是,GPT-4 在所有问题上都表现出高度自信,即使给出了错误答案,在 6 个答错的问题中有 5 个显示出“高度”的确定性。
“我们的研究结果表明,人工智能有可能显著增强患者安全,这是朝着利用该技术减少可预防的伤害并实现更好的医疗保健结果迈出的有力一步,”Cordella 说。“然而,重要的是要认识到这只是第一步,我们必须严格测试和改进人工智能应用,以真正造福患者护理。”
将人工智能融入患者护理是一个日益热门的讨论话题。在欧洲呼吸学会大会上展示的另一项研究中,研究人员发现 ChatGPT 在评估儿科呼吸系统疾病(如囊性纤维化和哮喘)方面的表现优于实习医生。实习医生和 3 个大型语言模型——ChatGPT 3.5 版、谷歌的 Bard 和微软必应的聊天机器人——对情景给出回答,根据正确性、全面性、有用性、合理性和连贯性进行 9 分制评分。实习医生与必应得分相同,均为 4 分,Bard 得分更高,为 6 分,ChatGPT 得分最高,为 7 分。
值得注意的是,评委认为 ChatGPT 给出的回答比其他聊天机器人更像人类,但它们都没有出现幻觉的迹象。两项研究都表明,虽然人工智能可以极大地协助临床医生,但需要进行广泛的测试和保障措施,以确保该技术在预防伤害和优化护理服务方面的可靠性。
参考文献
- Cordella N, Moses J. 人工智能与患者安全实践:GPT-4 在安全知识标准化测试中的表现. Jt Comm J Qual Patient Saf. 50:745-747. doi:10.1016/j.jcjq.2024.05.007
- 波士顿大学研究人员称,人工智能可能增强患者安全. 新闻稿. 波士顿大学医学院. 2024 年 9 月 26 日. 访问于 2024 年 9 月 26 日.
- Klein HE. ChatGPT 在评估儿科呼吸系统疾病方面优于实习医生. The American Journal of Managed Care ®. 2024 年 9 月 9 日. 访问于 2024 年 9 月 26 日.


