美国国防部完成众包人工智能RTAP试点项目DoD concludes crowdsourced AI RTAP pilot

环球医讯 / AI与医疗健康来源:medicalbuyer.co.in美国 - 英语2025-01-06 19:00:00 - 阅读时长3分钟 - 1171字
美国国防部的首席数字和人工智能办公室与技术非营利组织Humane Intelligence宣布,完成了众包人工智能红队测试保障计划(CAIRT)试点项目,该项目旨在测试用于军事医疗服务的大规模语言模型聊天机器人,通过发现潜在漏洞和偏见来改进军事医疗护理。
美国国防部众包人工智能红队测试军事医疗服务大规模语言模型LLM医疗咨询聊天机器人算法评估AI偏见临床护理生成式AI信任性能期望医疗公平开发生命周期解决方案部署测试数据缓解选项研发保障工作
美国国防部完成众包人工智能RTAP试点项目

美国国防部(DoD)的首席数字和人工智能办公室与技术非营利组织Humane Intelligence宣布,完成了国防部的众包人工智能红队测试保障计划(CAIRT)试点项目。该试点项目专注于测试用于军事医疗服务的大规模语言模型(LLM)聊天机器人。

此次试点项目的发现最终可能通过遵守所有必要的风险管理实践来改善军事医疗护理,国防部官员表示。

为什么这很重要

在周四的公告中,国防部表示,CAIRT项目最近的一次红队测试涉及超过200名机构临床提供者和医疗分析师,他们比较了三种LLM在两个预期用例中的表现:临床笔记总结和医疗咨询聊天机器人。他们发现了超过800个潜在的漏洞和偏见,这些LLM正在被测试以增强军事医疗服务。

CAIRT旨在通过与国防健康局和国防医疗管理系统项目执行办公室的合作,围绕算法评估建立一个实践社区。2024年,该计划还提供了一项针对LLM中未知风险的金融AI偏见赏金,从开源聊天机器人开始。

众包可以广泛收集来自多个利益相关者的大量数据。国防部表示,CAIRT项目所有红队测试的结果对于制定负责任使用生成式AI的政策和最佳实践至关重要。

国防部还表示,继续通过CAIRT保障计划测试LLM和AI系统对于加速AI能力的发展和确保国防部生成式AI用例的信心至关重要。

更大的趋势

信任对于临床医生接受AI至关重要。为了在临床护理中使用生成式AI,大规模语言模型必须满足关键性能期望,以确保提供者相信这些工具是有用的、透明的、可解释的和安全的,正如梅奥诊所平台应用信息学医学主任索尼娅·马赫尼博士在接受《Healthcare IT News》采访时所说。

尽管AI在医疗保健交付方面具有巨大的积极潜力,“解锁这一潜力是具有挑战性的”,马赫尼在去年9月的HIMSS医疗AI论坛上表示。

“因为在AI开发生命周期的每个步骤都会做出假设和决策,如果这些假设不正确,可能会导致系统性错误”,马赫尼解释说,当被问及如何实现AI的安全使用时。“这些错误可能会使算法的结果偏向于某一类患者,最终对医疗公平构成风险。”她补充道,“这种现象已经在现有的算法中得到证实。”

为了测试性能并消除算法偏见,临床医生和开发人员必须在整个AI开发生命周期和解决方案部署过程中进行合作,“双方的积极参与对于预测潜在的偏见和/或次优性能区域至关重要”,她补充道。“这种知识将有助于澄清更适合给定AI算法的上下文,以及那些可能需要更多监控和监督的上下文。”

记录在案

“由于在国防部内部应用生成式AI仍处于试点和实验的早期阶段,该计划作为生成大量测试数据的关键路径,揭示了需要考虑的领域,并验证了未来可能部署的生成式AI系统的缓解选项,这些都将塑造未来的研发和保障工作”,CAIRT项目负责人马修·约翰逊博士在1月2日关于该倡议的声明中表示。


(全文结束)

大健康
大健康