美国国防部(DoD)首席数字和人工智能办公室(CDAO)完成了一项红队演练试点项目,该项目识别出在使用大型语言模型(LLM)增强军事医疗服务时存在超过800个漏洞。此次Crowdsourced AI Red-Teaming(CAIRT)保障计划试点重点关注在军事医学背景下使用LLM聊天机器人。根据1月2日的公告,CAIRT计划支持国防部生成自下而上的、众包的方法来确保人工智能的安全性和风险缓解。
红队演练试点旨在识别在临床笔记总结和医疗咨询聊天机器人等新兴工具使用中的潜在系统漏洞和弱点。该试点由Humana Intelligence进行,与国防医疗管理系统项目执行办公室及国防卫生局(DHA)合作,涉及超过200名参与者,包括来自DHA、军医大学和各军种的临床医生和分析师。演习比较了三种流行的LLM。
据国防部称,演习发现了“超过800个与在这些预期用例中使用这些功能相关的潜在漏洞和偏见”。CDAO此项目的负责人Matthew Johnson表示:“由于在国防部内将生成式AI应用于此类目的尚处于试点和实验的早期阶段,因此该计划作为重要的探路者,生成大量测试数据,提出需要考虑的领域,并验证可能塑造未来研究、开发和生成式AI系统保障措施的缓解选项。”
国防部进一步解释说,这项演习将产生“可重复和可扩展的输出”,通过开发基准数据集来评估未来的供应商和工具,确保其“符合性能预期”。此外,这些结果将有助于塑造未来国防部关于负责任地使用生成式AI(GenAI)的政策和最佳实践,最终改善军事医疗服务。
(全文结束)


