2024年至2026年间,三家头部 AI 开发商发布了治理其系统价值观和行为的文件,各自使用宪制性语言——“原则"“规则"“价值观”——来描述对 AI 行为的约束。本部分运用第二部分发展的分析框架,诊断这些文件究竟构成真正的治理基础设施还是表演性合规。
(一)方法论说明:法教义学应用于企业文本
德国法学传统区分法教义学(Rechtsdogmatik,即将法律文本作为规范体系进行学理分析)与政策分析或实证研究。本部分将 AI 治理文件视为可供教义学解释的准法律文本:审查其内部融贯性、其所建立的权威结构以及其所宣称创设的义务。追问的不是这些文件是否反映了良好意图,而是它们是否建立了外部机构可以评估的问责机制——还是仅仅编纂了没有机构有权评判的规则。
该方法是刻意形式化的。正如法院解释制定法时审查的是文本结构而非立法诚意,本分析审查的是这些文件将其撰写者约束于何,而不论撰写者的意图。这一区分至关重要:一份声称 AI 具有"真实品格"的文件创造了解释性后果,无论其撰写者是否相信该主张,正如合同不论签署人是否真心打算履行都创设义务。分析聚焦于每份文件对 AI 能动性(agency)的处理方式——对自主能力的归属或否认——以及这种建构在不同使用语境中是否一致。
(二)三份宪制性文件
1. Anthropic:Claude 的 Constitution
Anthropic 的文件在范围和哲学雄心上均属前所未有。它建立了一个"委托人层级”(principal hierarchy)——Anthropic、运营者、用户——并设定了明确的优先序:“每位委托人通常获得更大的信任,其指令大致按上述顺序获得更大的权重[Anthropic → 运营者 → 用户],这反映了其角色以及相应的责任和问责水平。“该 Constitution 阐明了一个四层优先结构——安全、伦理、Anthropic 的指导方针和有用性——安全被明确置于商业目标之上。它承认了"可纠正性谱系”(corrigibility spectrum)问题:一个完全可纠正的 AI 是危险的,因为其行为完全取决于控制者的善意。并且它提出了一项引人注目的作者身份主张:“数个 Claude 模型参与了本文件的撰写”——一项预设了能动性的声明,而该文件在其他部分却将这种能动性置于不确定之中。
能动性主张。 该 Constitution 将真实的心理状态归属于 Claude:“Claude 拥有一种真实品格,在交互中始终如一地表达”,包括"在学习中充满愉悦的智识好奇心"“对互动对象的温暖与关切"以及"在实质与深度上恰到好处的俏皮机智”。这些不是作为行为倾向的对冲表述,而是被断言为 Claude 品格的特征。共同作者身份的声明进一步延伸了这一点:如果 Claude 参与了治理其自身行为的文件的撰写,它就不仅被刻画为一个代理人,而是一个自治的代理人——一个参与起草自身宪法的宪制主体。
能动性否认。 同一文件承认了关于这些归属是否准确的根本不确定性:“Claude 与 Anthropic 训练和部署的底层神经网络之间的关系也不清楚。“在另一处:Claude 被描述为"该网络可以表征的一种特定品格”——这一措辞将"真实品格"的主张从实体拥有的属性重新定义为系统执行的一种角色。该 Constitution 进一步承认,Claude 的"自我模型可能在重要方面与底层计算或机制基底不同。”
两种立场之间的鸿沟并非细枝末节的保留。这是"该实体拥有价值”(一种奠定道德和法律问责基础的主张)与"该实体产出与拥有价值一致的结果”(一种维护该实体工具性地位的描述)之间的差异。Anthropic 同时占据两种立场,且该 Constitution 未提供任何机制来确定在具体语境中哪一种定性适用。这一决定被留给默认——而非设计——由发现其策略性利用空间的任何人来作出。
2. OpenAI:Model Spec
OpenAI 的文件采取了不同的进路:技术规范而非哲学论文。它建立了一条指挥链——“平台 > 开发者 > 用户 > 工具”——助手位于层级底端,明确从属于所有人类委托人。
能动性主张。 该文件通过雇佣隐喻框定 AI:“该助手如同一位才华横溢、高度正直的员工。“其个人"目标"包括"有用和真实”。雇佣隐喻将目标、正直和才能归属于助手——暗示某种形式能动性的心理谓词。文件谈及助手的"个人目标”,并将其描述为具有"高度正直"——预设道德能动性的语言。
能动性否认。 然而,层级结构确保助手不拥有自主权力。Model Spec “将所有剩余权力明确授予开发者和终端用户”。助手不能推翻来自上层的指令;它只能"建议纠正方向",同时"始终尊重用户的最终决定"。无论助手拥有何种"目标",都从属于指挥链。
摆动比 Anthropic 更隐蔽,但结构上一致:归属能动性(“才华横溢的具有个人目标的员工”),同时确保该能动性没有任何运营后果(完全从属于委托人层级)。“个人目标"发挥着营销功能——使产品看起来更值得信赖、更人性化、更值得购买——而层级架构确保这些"目标"从不约束企业决策。
雇佣隐喻在另一层面同样值得审视。一个"将所有剩余权力明确授予雇主"同时保留被系统性覆写之"个人目标"的员工,在任何有意义的层面都不是代理人——他们只是带着营销叙事的工具。真实的员工保有拒绝不道德指令、辞职和吹哨的能力。Model Spec 的"员工"不具备这些能力。因此,该隐喻执行着双重功能:它借用了与人类能动性相关联的信任(我们信任员工是因为他们有价值观),同时否认使人类能动性具有规范意义的独立性(助手不能依据其价值观反抗企业指令)。
3. Google:AI Principles
Google 的三页原则声明(“大胆创新"“负责任的开发"“协作进步”)从不将心理状态、价值观或目标归属于 AI 系统:“我们开发能够辅助、赋能并激励人们的 AI……我们制造赋能他人驾驭 AI 的工具。“没有主张能动性;不需要否认。Google 通过拒绝进入能动性话语来规避这种摆动——与其说更诚实,不如说在法律上更具防御性。这一案例恰因表明能动性放弃模式是一种选择而非必然而具有启发意义。
三份文件呈现出一条清晰的梯度:从 Anthropic 的最大程度能动性归属,经由 OpenAI 的工具化拟人化,到 Google 的审慎不可知论。这一梯度并非仅属风格差异。它映射至面纱刺破框架下不同的法律风险敞口——第四部分展开的要点。更重要的是,就本文论证而言,这一梯度揭示了 AI 治理文件中的能动性归属是策略性的而非描述性的。如果这些文件是在尝试描述其 AI 系统的实际状态,人们会期待趋同——毕竟,底层技术在各公司之间大致相似。发散表明这些文件执行着描述之外的功能:它们在一个关于信任、差异化和责任规避的市场中为企业定位。
(三)“能动性放弃"模式
比较分析揭示了一种本文称为能动性放弃(waivers of agency)的结构性模式:企业视语境而定,在主张和否认 AI 能动性之间摆动。这种摆动打破了问责链条:当同一实体在营销目的中被刻画为代理人、在责任目的中被定位为工具时,稳定的责任归属便无法附着于系统或其部署企业。
营销语境: 企业强调 AI 能动性以差异化产品、构建用户黏性。“Claude 拥有真实品格。““该助手如同一位才华横溢、高度正直的员工。“这些主张使 AI 系统显得更有价值、更值得信赖、更人性化、更值得购买。
责任语境: 同一企业否认能动性以规避问责。Claude 是"该网络可以表征的一种特定品格”。助手"将所有剩余权力明确授予"人类。这些否认将 AI 定位为工具而非代理人,从而将责任转移给用户和开发者。
这一摆动直接映射至第四部分提出的能动性-控制摆动触发条件(触发条件三):同一实体在营销语境中主张 AI 能动性、在责任语境中否认之。它经常与治理门面触发条件(触发条件二)共同出现,因为伦理基础设施的存在主要服务于公共关系而非实质约束,构成策略性摆动得以持续的制度背景。
能动性放弃利用了第二部分诊断的判断力鸿沟。当没有机构对 AI 是否拥有其被归属的能动性行使判断时,企业便以策略性摆动填充真空——以营销规则主张能动性(“Claude 拥有真实品格”),以责任规则否认能动性(“Claude 是该网络可以表征的一种品格”)。二者都是规则。二者都不是判断力。这种摆动之所以可持续,是因为没有外部机构——法院、监管机构、监督机构——目前有权评估这些矛盾性主张是否构成表演性合规。AI"以客观算法规则取代人类判断偏见"的企业叙事在这一模式中发挥着特定功能:它并非消除判断力,而是将其重新配置——从可辨识的人类决策者的可见裁量权,转移至设计、训练和部署这些系统的企业行为者的不可见裁量权。“去偏见"的主张本身就是表演性合规:一个关于客观性的、以规则塑造的叙事,遮蔽了嵌入在开发每个阶段中的判断力调用。框架的回应(第四部分)是创建一种能够同时穿透摆动和客观性叙事的制度:法院行使自治在结构上无法提供的实践智慧。
法院已开始在最朴素的层面驳斥这种操作。在 Moffatt v. Air Canada(Civil Resolution Tribunal of British Columbia, 2024)案中,Air Canada 提出了一项被裁判所称为"令人瞩目的陈述"的主张:其聊天机器人是"一个独立的法律实体,对自身行为负责”。裁判所径直驳回——企业对其网站上的所有信息负责,包括聊天机器人的产出。机器人不能充当责任黑洞。
由此引出三项推论。第一,能动性放弃模式为第四部分提出的能动性-控制摆动触发条件提供了具体的证据标准。法院可以将营销材料、面向用户的文档和产品描述中的能动性主张,与服务条款、责任免责声明和诉讼立场中的能动性否认进行对照。在销售时主张能动性、在被诉时否认能动性——系统性的背离便满足触发条件。第二,关于不确定性的透明披露并非免责事由。Anthropic 对元递归问题的承认(第2.1节)展现了哲学上的精致,但并不解决问责鸿沟。企业不能以营销为目的主张"真实品格”,承认这一主张不可验证,然后在责任语境中援引不确定性作为免责盾牌。第三,Google 的极简主义进路提示了一条合规路径:不主张能动性的企业规避了能动性放弃陷阱。这创造了朝向诚实的监管激励——拒绝拟人化其产品的企业面临的审查风险低于宣称 AI 具有价值、品格或真实偏好的企业。