6月2日,美国食品药品监督管理局(FDA)推出了名为Elsa的人工智能工具,这是一种大型语言模型,旨在协助阅读、撰写和总结文档,以期加速临床协议审查、缩短科学评估所需时间,并识别高优先级的检查目标。据FDA局长Marty Makary宣布,Elsa比原计划提前近一个月上线,并且预算低于预期。然而,该机构尚未详细说明AI生成内容将如何使用和评估,这引发了行业专业人士和AI专家的一系列疑问。
在一段视频声明中,Makary表示:“Elsa将用于加速临床协议审查并减少完成科学审查的总体时间。”他提到一位科学评审员曾花费两到三天的工作现在只需六分钟。与此同时,Makary与FDA生物制品评价与研究中心主任Vinay Prasad在《JAMA》杂志上发表了一篇评论文章,概述了“新FDA”的五个优先事项之一即为充分释放AI的潜力。他们指出,AI可以对提交给FDA的文件进行初步审核。
尽管如此,Elsa的推出却遭到了FDA内部员工的强烈批评。一些员工向《STAT News》透露,这一实施过程过于仓促,部分回应不准确或仅部分正确。据NBC News报道,其他消息来源称,该AI在执行简单任务时表现不佳,最终并未显著节省员工的时间。此外,有员工指出,FDA未能为该工具的使用建立明确的规范。
一位未参与Elsa开发的FDA内部人士告诉BioSpace:“我听说它远未达到可以推出的程度。”
Elsa的部署正值特朗普政府解雇数千名FDA员工并提议削减卫生与公众服务部(HHS)预算25%之后。一些外部专家对AI提高效率的能力持乐观态度,但许多人呼吁FDA提供更多细节,说明该模型的工作原理以及是否有任何评估其输出的标准。“这是一把双刃剑,”专注于生物技术监管的霍根·洛弗斯律师事务所律师Jason Conaty告诉BioSpace,“令人兴奋,但也令人担忧。”
透明度不足
专家表示,大型语言模型(LLMs)确实适合某些任务,例如总结文档和查找特定信息。斯坦福大学生物医学数据科学副教授James Zou告诉BioSpace:“LLMs可以在许多领域提高效率。”然而,对于许多任务而言,使用LLMs存在风险。即使是最先进的模型也可能将虚假或误导性信息呈现为事实。目前尚不清楚FDA是否有有效的方法来评估Elsa输出的准确性。作为FDA上级部门的卫生与公众服务部未回应BioSpace的置评请求。
Zou指出:“他们声称使用AI的任务范围相当广泛。”例如,FDA表示Elsa将用于识别不良事件,这可能带来高风险。“即使是在总结文档时,这些模型仍然可能出现‘幻觉’。”为了确保AI生成内容的准确性和可靠性,FDA强调“人在回路中”是关键环节。人类评审员负责核实引用并确认信息来自可信来源。
然而,哈佛医学院医学助理教授Adam Rodman表示,人类并不总是能够完美地识别LLMs提供的错误信息。“人们倾向于信任AI系统,”Rodman告诉BioSpace,“听起来很直观的是,让人类审查所有内容会奏效,但文献普遍表明这并不容易。”
FDA采用Elsa是各行各业采用AI模型自动执行某些任务的广泛趋势的一部分。“我们现在在各个行业中都能看到这一点,”Rodman说,“他们遇到的问题与其他领域相同,即如何知道它运行得有多好?”
据《STAT》报道,Elsa基于Anthropic公司的Claude LLM,并由咨询公司德勤开发。Claude使用检索增强生成(RAG)框架,允许AI工具访问其训练数据之外的信息并将其纳入答案中。Rodman表示,尽管这种方法减少了错误,但幻觉仍可能发生,尤其是对于更复杂的任务,“RAG可能会降低整体发生率,但使剩余的幻觉更难发现。”
Zou补充道:“我们不知道它究竟将如何被使用。我认为还需要更多关于这种人机协作监督和验证如何进行的信息。”
敏感信息与法律灰色地带
FDA尚未澄清Elsa在科学审查中的具体应用方式,而利用AI做出任何关键监管决策则引发了诸多法律问题。Conaty指出,目前尚不清楚FDA将如何防止该工具访问专有信息和商业秘密。
根据FDA的公告,Elsa并未基于受监管行业提交的数据进行训练。专家指出,LLMs可以在不将新数据纳入决策过程的情况下对其进行评估。公告还称,Elsa是在高安全性的GovCloud环境中构建的,并提供了一个“供FDA员工访问内部文档的安全平台,同时确保所有信息都保留在机构内部”。
目前也不清楚AI将如何融入监管上诉程序。特别是,如果FDA的决定在法庭上受到挑战,将会发生什么情况仍存疑问。通常情况下,“你会获得行政记录的汇编,”Conaty说,“但如果人工智能在任何阶段参与了决策,考虑到我们对AI决策机制了解有限,可能无法知道这些决策是如何做出的。”
Conaty继续说道:“该机构的使命是确保国家新药供应的安全性和有效性。希望这些保护措施已经到位,并且在所有关键节点都有人类参与。”
FDA及其他使用AI的公司或机构可以采取措施来评估和改进基于AI的工具。Zou建议,首先应培训官员与这些模型合作并识别潜在错误。
Rodman认为,为了测试AI工具的有效性和准确性,FDA需要创建基准,以评估模型的表现与人类用户相比如何。这意味着要为模型设定有意义的目标,并系统地将其决策与人类决策进行比较,以发现偏差和错误的来源。
“FDA是评估医疗设备和AI系统的权威机构,”Zou说,“因此,当FDA使用自己的系统时,应该对如何审查或评估内部工具保持透明。”
(全文结束)


