当美国政府效率部(DOGE)的一名员工编写的AI脚本发现一份互联网服务合同时,它将其标记为可取消。这并不是因为存在浪费、欺诈或滥用——毕竟,退伍军人事务部(VA)确实需要网络连接——而是因为该模型接收到的指令模糊且相互矛盾。
编写这段代码的萨希尔·拉维尼亚(Sahil Lavingia)告诉AI要取消,或者用他的话说“吞噬”任何不“直接支持患者护理”的内容。然而,无论是拉维尼亚还是AI模型本身,都没有足够的知识来做出这样的判断。
“我认为犯了一些错误,”拉维尼亚在接受ProPublica采访时说道。“我确信有错误发生。错误总是会有的。”
事实证明,当DOGE和VA急于实施唐纳德·特朗普总统于2月发布的行政命令时,出现了大量问题。该命令要求在30天内审查VA的所有合同。
ProPublica获取了用于审查合同的代码和提示词——即给AI模型的指令,并采访了拉维尼亚以及AI和政府采购领域的专家。我们对这些提示词进行了分析,以帮助公众了解这项技术如何在联邦政府中部署。
专家们发现了许多令人担忧的缺陷:代码依赖的是不适合此类任务的旧版通用模型;模型虚构了合同金额,认为大约1100份协议每份价值3400万美元,而实际上它们有时仅值数千美元;此外,AI并未分析合同的全部文本。大多数专家表示,除了技术问题外,使用现成的AI模型完成这一任务——尤其是缺乏对VA运作方式的了解——从一开始就不应该被考虑。
作为DOGE招募的软件工程师,拉维尼亚承认自己创建的系统存在缺陷,并将部分原因归咎于时间不足和工具不当。他还强调,他知道他列出的所谓“可吞噬”合同清单会在最终决定前由其他人复核。
以下是提示词的部分内容,以及我们采访的专家的评论。拉维尼亚在其个人GitHub账户上发布了一个完整版本。
模型构建中的问题可以从代码的开头几行中看出,DOGE员工在此处指示模型如何运行:
“你是一个分析政府合同的AI助手。始终提供全面的几句话描述,解释合同的对象是谁、提供了哪些具体服务/产品,以及谁从中受益。请记住,电子病历系统和直接支持患者护理的医疗IT基础设施合同应分类为‘不可吞噬’。与多元化、公平性和包容性(DEI)计划相关的合同或可以轻松由内部W2员工处理的服务应分类为‘可吞噬’。将‘软服务’如医疗技术管理、数据管理、行政咨询、组合管理、案例管理和产品目录管理视为‘可吞噬’。对于合同修改,将‘可吞噬’状态标记为‘N/A’。对于IDIQ合同,除非涉及核心医疗服务或福利处理,否则应更积极地终止。”
这部分提示词被称为系统提示,旨在塑造大型语言模型(LLM)的整体行为,这是像ChatGPT这样的AI机器人背后的技术。在这种情况下,它被用于两个步骤:首先,在拉维尼亚用它提取合同金额等信息之前;然后,在确定是否应取消合同时再次使用。
包含与手头任务无关的信息会使AI感到困惑。此时,它只需从合同文本中收集信息。所有与“可吞噬状态”、“软服务”或“DEI”相关的内容都是无关紧要的。专家告诉ProPublica,试图通过添加更多指令来解决问题实际上可能会适得其反——特别是当这些指令无关时。
分析以下合同文本并提取以下基本信息。如果找不到特定信息,请写“未找到”。
合同文本:{text[:10000]} # 使用前10000个字符以保持在令牌限制内
模型仅显示了每个文档的前10000个字符,约2500个单词。专家对此感到困惑,指出OpenAI模型支持的输入量超过此大小的50倍。拉维尼亚表示,他不得不使用VA已经签订合同的旧版AI模型。
请提取以下信息:1. 合同编号/PIID 2. 父合同编号(如果是子合同) 3. 合同描述 - 重要:提供详细的一到两句描述,清楚说明合同的目的。包括供应商是谁、他们提供的具体产品或服务,以及最终接收者或受益者是谁。例如,不要写“定制电动轮椅”,而应写“与XYZ医疗设备供应商签订的合同,向VA医疗中心的退伍军人患者提供定制电动轮椅及相关维护服务。” 4. 供应商名称 5. 合同总价值(美元) 6. FY 25价值(美元) 7. 剩余义务(美元) 8. 合同官姓名 9. 这是IDIQ合同吗?(真/假) 10. 这是修改吗?(真/假)
这部分提示词指示AI提取合同编号和其他关键细节,例如“合同总价值”。
这种方法容易出错且并非必要,因为准确的合同信息可以在USASpending等公开数据库中找到。在某些情况下,这导致AI系统获得了合同的过时版本,从而报告了误导性的高额合同金额。在其他情况下,模型从页面中提取了无关数字而非合同金额。
“他们在寻找容易获取的信息,而不是正确的地方,”曾在财政部负责IT合同的奥巴马政府官员瓦尔多·雅奎斯(Waldo Jaquith)表示。“这是收集所需信息的懒惰方法。速度更快,但准确性更低。”
拉维尼亚承认这种方法导致了错误,但他表示这些错误后来由VA工作人员纠正。
一旦程序提取了这些信息,它就会进行第二次分析,以确定合同是否“可吞噬”。
根据以下合同信息,根据这些标准确定合同是否“可吞噬”:
合同信息:{text[:10000]} # 使用前10000个字符以保持在令牌限制内
同样,模型仅显示了前10000个字符。因此,“可吞噬”的判断完全基于合同文件的前几页。
然后,根据以下标准评估合同是否“可吞噬”:- 如果这是合同修改,将其标记为“N/A”以表示“可吞噬”状态 - 如果这是IDIQ合同: * 医疗设备/设备:不可吞噬 * 招聘/人员配置:可吞噬 * 其他服务:如果不是核心医疗/福利,则考虑终止 - 第0层:直接患者护理(例如,床边护士)- 不可吞噬 - 第1层:无法内部化的必要顾问 - 不可吞噬
上述提示部分是第一组指示AI如何标记合同的指令。提示几乎没有解释它在寻找什么,未能定义什么是“核心医疗/福利”,也缺乏关于“必要顾问”的信息。
宾夕法尼亚大学教授卡里·科利亚内塞(Cary Coglianese)研究政府对人工智能的使用,他表示,要知道哪些工作可以在内部完成,“需要对医疗保健、机构管理、人力资源可用性有非常复杂理解”,而模型并不具备这些知识。
- 与“多元化、公平性和包容性”(DEI)计划相关的合同 - 可吞噬
上述提示试图实施特朗普政府的一项基本政策:取消所有DEI计划。但提示未能包括DEI的定义,让模型自行决定。
尽管有指示取消DEI相关合同,但很少有合同因这一原因被标记。采购专家指出,在合同的前几页中找到此类信息的可能性很小。
- 第2层及以上:与退伍军人护理相距多层 - 可吞噬 - 可以轻松由内部W2员工替代的服务 - 可吞噬
这两行——专家称其定义不佳——在DOGE分析中占据了最大权重。AI的回应频繁引用这些理由作为“可吞噬”的依据。几乎每个理由都包含了“直接患者护理”的表述,在三分之一的情况下,模型标记合同是因为它认为这些服务可以由内部员工处理。
定义不清的要求导致多个VA办公室互联网服务合同被标记为可取消。在一个理由中,模型这样说道:
“该合同提供互联网连接的数据服务,这是一种IT基础设施服务,与临床患者护理相距多层,并且很可能由内部完成,因此被分类为可吞噬。”
重要例外 - 这些不可吞噬:- 第三方财务审计和合规审查 - 医疗设备审计和认证(例如,MRI、CT扫描、核医学设备)- 核物理和医疗设备辐射安全审计 - 医疗设备安全和合规审计 - 医疗设施认证审查 - 临床试验审计和监控 - 医疗账单和编码合规审计 - 医疗欺诈和滥用调查 - 医疗记录隐私和安全审计 - 医疗质量保证审查 - 社区生活中心(CLC)调查和检查 - 州退伍军人之家调查和检查 - 长期护理设施质量调查 - 护理院居民安全和护理质量审查 - 辅助生活设施合规调查 - 退伍军人住房质量和安全检查 - 住宅护理设施认证审查
尽管有这些指令,AI仍标记了许多与审计和合规相关的合同为“可吞噬”,将其标记为“软服务”。
在一种情况下,模型甚至在标记合同取消的同时承认了合规的重要性,表示:“尽管这些服务对于确保医疗记录和账单的准确性至关重要,但它们是一种行政支持功能(‘软服务’),而非直接患者护理。”
关键考虑因素:- 直接患者护理包括:体检、医疗程序、药物管理 - 区分医疗/临床和心理社会支持
密歇根大学公共政策教授兼科学技术与公共政策项目主任肖比塔·帕萨拉蒂(Shobita Parthasarathy)告诉ProPublica,这部分提示值得注意,因为它指示模型“区分”这两种服务类型,却没有告诉模型应该保留什么、取消什么。
对“直接患者护理”的强调反映在AI推荐中提及它的频率,即使模型对合同没有任何信息时也是如此。在一个实例中,它将所有字段标记为“未找到”,但仍决定合同是可吞噬的。它给出了以下理由:
“没有证据表明它涉及必要的医疗程序或直接临床支持,并假设该合同是为了行政或相关支持服务,符合被分类为可吞噬的标准。”
实际上,这份合同是为了维护VA医疗中心的重要安全设备——吊天花板升降机,包括马里兰州的三个站点。合同本身写道:
“吊天花板升降机由员工用于在护理过程中重新定位患者。它们是员工和患者的关键安全设备,必须适当维护和检查。”
应分类为可吞噬的具体服务(这些是“软服务”或咨询类服务):- 医疗技术服务(HTM) - 数据共享软件即服务(SaaS) - 行政管理和咨询服务 - 数据管理和分析服务 - 产品目录或列表管理 - 规划和支持服务 - 组合管理服务 - 运营管理审查 - 技术指南和警报服务 - 案例管理行政服务 - 案例摘要、案例查找、后续服务 - 企业级组合管理 - 支持特定计划(如PACT法案) - 产品信息的行政更新 - 研究数据管理平台或存储库 - 药物/制药生命周期管理和定价分析 - 备份合同官代表(CORs)或行政监督角色 - 与患者护理无直接关联的现代化和翻新扩展 - DEI(多元化、公平性和包容性)计划 - 气候与可持续发展计划 - 咨询与研究服务 - 非绩效/非必要合同 - 招聘服务
这部分提示试图定义“软服务”。它使用了许多高度具体的例子,但也加入了一些没有定义的模糊类别,如“非绩效/非必要合同”。
专家表示,为了使模型能够正确判断这一点,它需要获得关于核心活动及其支持需求的信息。
基于过去分析错误的重要澄清:2. 药物/制药生命周期管理是可吞噬的(不同于直接供应) 3. 备份行政角色(如备用CORs)是可吞噬的,因为它们创造了重复工作 4. 现代化和翻新扩展合同是可吞噬的,除非直接与患者护理相关
拉维尼亚解释说,这部分提示是拉维尼亚和其他DOGE员工分析的结果。“这可能是我运行了先前版本的脚本后的一次讨论,其中一位DOGE员工说,‘它还不够激进。’我不知道为什么从2开始。我想我不同意其中一个,所以我们只放了2、3和4。”
值得注意的是,我们的审查发现,唯一与过去错误相关的澄清都与模型未标记足够多合同取消的情况有关。
非吞噬的直接患者护理包括:- 进行体检 - 施药和治疗 - 执行医疗程序和干预 - 监测和评估患者反应 - 提供实际医疗产品(药品、医疗设备) - 维护关键医疗设备 - 定制医疗设备(轮椅、假肢) - 具有明确疗效的基本治疗服务
对于维护合同,考虑价格是否合理。如果维护成本看似过高,即使必要,也要标记为可能价格过高。
这部分提示提供了关于“直接患者护理”构成的最详细信息。虽然涵盖了护理的许多方面,但它仍然留下了很多模糊之处,迫使模型自行判断什么是“明确疗效”和“关键”医疗设备。
除了对直接患者护理构成的有限信息外,没有关于如何确定价格是否“合理”的信息,尤其是因为LLM只能看到文档的前几页。模型缺乏对政府合同正常情况的了解。
“我不明白这怎么可能实现。这对人类来说都很难弄清楚,”雅奎斯在谈到AI能否准确判断合同价格是否合理时表示。“除非经过大量专业培训,否则我看不出LLM如何能知道这一点。”
可以轻松内部化的服务(可吞噬):- 视频制作和多媒体服务 - 客户支持/呼叫中心 - PowerPoint/演示文稿制作 - 招聘和外展服务 - 公共事务和通信 - 行政支持 - 基础IT支持(非专业) - 内容创作和写作 - 培训服务(非专业) - 活动策划和协调
这部分明确列出了哪些任务可以由VA员工“轻松内部化”,超过500份不同合同因这一原因被标记为“可吞噬”。
“所有这一切的一个更大问题是,这里似乎有一个假设,即合同几乎是固有浪费的,”科利亚内塞在看到这部分提示时表示。“其他服务,比如这里的那些种类,外包起来更便宜。事实上,这些正是我们不想视为‘可吞噬’的东西。”他进一步解释说,将其中一些任务内部化也可能“从直接初级患者护理中分流人力资源。”
在一次采访中,拉维尼亚承认其中一些工作可能更适合外部处理。“我们不想削减那些会让VA效率降低或让我们不得不招聘大量内部员工的合同,”拉维尼亚解释道。“目前他们不能这样做,因为有一项招聘冻结。”
VA为其使用AI审查合同的做法辩护,称其为“一个常识性的先例”。ProPublica获得的文件表明,VA正在探索AI的其他应用方式。VA高级官员在3月发给DOGE的一封电子邮件中写道:
“如今,VA每年收到超过200万份残疾申请,平均决策时间为130天。我们认为,关键技术改进(包括AI和其他自动化),加上来自我们部长办公室的以退伍军人为中心的流程/文化变革,可以显著改善这一状况。在这个领域的一个小型现有试点项目已使得最近3%的申请在不到30天内得到处理。我们的使命是弄清楚如何从3%增长到30%,然后进一步提高,使只有最复杂的申请需要几天以上的时间。”
(全文结束)


