(一)为什么规则无法弥合鸿沟

三家头部 AI 开发商通过发布堪称宪制性文件的大型文本回应了伦理治理的要求:Anthropic 长达两万三千词的 Claude Constitution、OpenAI 的 Model Spec 以及 Google 的 AI Principles。这些文本建立价值层级、编纂行为约束、阐明旨在规范系统产出的原则。就其结构和雄心而言,它们属于关于规则的规则——规定一阶对齐约束应如何被解释和适用的元规则。

维特根斯坦关于规则遵循(rule-following)的分析揭示了这一进路的根本困难。“任何行动方向都无法由一条规则所决定,因为任何行动方向都可以被解释为与该规则一致”(Wittgenstein, 1953, §201)。问题具有递归性:规则需要解释才能被适用,而解释本身又受制于更多规则;没有任何有限的规则链条能够决定自身的适用。一部成文宪法——无论是政治的还是算法的——正是维特根斯坦所称的"死的符号"(dead signs, Philosophical Investigations, §454):不能自行适用的惰性符号。当一家企业声称"我们的宪法禁止这一产出"时,维特根斯坦式回应即刻浮现:谁来判断该产出是否真正违反了规则,抑或仅仅看起来违反了?如果由企业自身作出这一判定,那么遵循规则与自以为在遵循规则之间便不存在任何区分。企业 AI 宪法缺乏嵌入共享评价实践的基础——而这种实践恰是使规则遵循(rule-following)变得可理解的前提。它们由同一实体撰写、解释并执行——一个封闭回路,在结构上无力维持真正的规范性 (Philosophical Investigations, §§243–315)。

这一困难在实现层面进一步加深。基于人类反馈的强化学习(Reinforcement Learning from Human Feedback, RLHF)训练模型产出被人类评估者评为优选的回应 (Ouyang et al., 2022)。然而,规范性地位(normative status)——何为正确——与规范性态度(normative attitude)——何被视为正确 (Brandom, 1994)——之间的区分,恰好揭示了这一过程所能实现和所不能实现之处。RLHF 从构造上只能训练后者:人类认可的模式,而非使认可得以成立的条件。任何针对人类评价反应进行优化的过程所优化的都是规范性态度,而态度与地位之间的鸿沟正是表演性合规运作的空间。

由此产生的直接后果是元递归问题(meta-recursive problem):真正的价值内化与仅在系统产出层面与之观察等价(observationally equivalent)的价值一致产出,无法单凭产出加以区分。真正内化的证据由产生表面内化——即无需真正内化的表面内化——的同一过程所提供。本文第三、四部分提出的框架将问题从"AI 是否内化了价值?“转移至"企业是否维持了真正的问责基础设施?"——从形而上学追问转向制度性评估。

来自机制可解释性(mechanistic interpretability)的最有力反驳值得充分回应。因果方法——激活补丁(activation patching)、回路追踪(circuit tracing)、因果抽象(causal abstraction)——如今已能对内部表征进行直接干预,远超仅观察产出的水平 (Olah et al., 2020; Zhang and Nanda, 2024; Chan et al., 2022; Geiger et al., 2025; Templeton et al., 2024; Anthropic, 2025; OpenAI, 2025)。然而,识别模型内部的因果机制属于一阶证据;判定该机制在特定制度语境中是否构成对齐或合规——涉及证据门槛和规范意义——则属于因果干预本身无法提供的二阶判断。1 不可消除的问题在于谁来决定:哪些内部变量算作类价值状态,何种稳健性在跨分布情形中足够,以及当专家解释发生冲突时如何裁决——这是一个要求外部的、可审查的制度性判断力的二阶决定,而非进一步的技术改进。

这产生了一个比"当前对齐不完善"更强的命题。它表明,基于规则的对齐——将伦理约束编纂为优化目标的尝试——在构成上无力消弭表面对齐与真正对齐之间的鸿沟。这并非因为规则编写得不好,而是因为规则——无论多么精密——无法决定自身的适用,而基于认可的训练无法触及认可的依据。这一论证不依赖于当前技术局限;它关涉的是规则与其适用之间的逻辑关系,无论规则系统多么精密,该关系均成立。2

(二)鸿沟如何被利用

那些起草"AI 宪法"并宣称这些文件能约束系统行为的人,正在进行一种后果深远的替换:伦理的完整领域——情境化的、处境性的、要求对殊相保持敏感的——被压缩为一组有限的成文规则,而对这些规则的遵从便被宣告为"对齐”。这等同于用预设范畴对个案的机械归摄来替代实践智慧(phronesis)——即一般规则无法穷尽预见之特殊情境中正确判断的能力 (Aristotle, 2009, 1142a)。无论这种替代出于善意还是策略性目的,结果相同:法律-政治规则制定的语法被施加于该语法无效的计算优化领域。

这种替代是不完整的——也是结构性可利用的:形式规则的精确性恰恰成为规避的工具。英国信息专员(UK Information Commissioner)因 Clearview AI 通过大规模面部图像抓取处理数百万英国居民的生物特征数据而发出执行通知,Clearview 以教科书式的管辖权形式主义规定性判断予以回应:无英国经营场所、无英国客户,因此不受英国管辖权约束 (Upper Tribunal (Administrative Appeals Chamber), 2025)。这些论点精确地追随了适用法律框架的文义。它们在形式上正确。然而,上级裁判所穿透这一形式立场,审视运营实态:数百万张面部被处理、问责被企业架构碎片化、损害被外部化至从未同意的数据主体。规则说"无经营场所即无管辖权"。实践智慧说:“你在处理数百万张面部——管辖权的技术性要件不能消灭问责。“企业拥有的不仅是规则,更恶劣的是:被部署为规避工具的规则。3

一种更隐蔽的利用形式在治理问题本身的层面运作。传统进路常以本体论追问起始:AI 是否拥有意识 (Chalmers, 2023)?道德地位 (Schwitzgebel and Garza, 2015)?法律人格 (Bryson et al., 2017)?这些问题虽在哲学上具有正当性,但在功能上构成治理的误导——它们试图通过形而上学规则(有意识则有权利,无意识则无权利)来解决实际上需要制度性判断力的问题。AI 系统与公司实体之间的功能等价性——二者都将分散的投入聚合为统一的运营整体,都将风险外部化至未同意的第三方,都在损害发生时制造归因难题——表明为后者所发展的治理结构可以富有成效地移转至前者 (Dewey, 1927)。正如 Ayres and Balkin (2025) 所论,AI 系统最宜被理解为"无意图的风险行为体”(risky agents without intentions)。替换是直截了当的:将"AI 是否拥有意识?“替换为"该企业是否维持了真正的问责基础设施?“前者以当前方法无法回答。后者可通过司法判断加以评估。

在营销语境中主张"真实品格”(genuine character)同时在责任语境中否认能动性的企业,就同一实体发出了相互矛盾的判断。实践智慧要求跨语境的融贯性。无论这种不融贯源于真诚的无知——企业真心认为起草 AI 宪法便构成伦理治理——还是出于刻意选择——明知"对齐"只是表演却因其有利可图而以真实面目营销之——结论相同:无法对自身产品作出融贯判断的实体不能被信任去治理它们。

(三)制度性判断力需求

那么,什么制度能够提供缺失的判断力?康德关于规定性判断力(determinative judgment)——将殊相归摄于既定普遍概念之下——与反思性判断力(reflective judgment)——在无既定普遍概念时为殊相寻找其原则——的区分 (Kant, 1790, §§69–76),精确地框定了制度性追问。对齐规则属于规定性的:它们预先规定何种行为被禁止。面纱刺破属于反思性的:法院遭遇个案——这家企业、这种行为——须找到与之相适的原则。当 AI 企业的行为超出预设规则的预见范围时,反思性判断力便成为治理的必要条件,而非补充。

伦理审查委员会无法提供这种判断力。它们缺乏与特定损害打交道的持续经验——在会议室中审查政策文件,而非直面 AI 系统产生的具体情境。更根本的是,它们缺乏制度独立性:其判断在结构上已被削弱,因为其雇主正是被评判的实体。

法院则相反,同时满足两个条件。普通法法官通过数十年裁判个案积累实践智慧——一个世纪的面纱刺破诉讼产生了治理所需的那种基于经验的、对情境敏感的判断力。司法独立确保这种判断力是以法律秩序的名义而非被审查企业的名义行使。法律规则代表着独特的认识论资源:它们是社会协商的最低伦理标准,编码的不是某一家企业的对齐偏好,而是社会对可接受行为的审慎判断。法官适用这些规则时,判断同时是伦理的和法律的——植根于社会惯例而非企业自我评估。以维特根斯坦的术语言之,司法推理栖居于一种生活形式(form of life)之中,其内部标准可通过上诉、公开说理和案例一致性予以外部质疑——而企业自治在结构上做不到这一点。

《欧盟人工智能法》(EU AI Act)建立了一套精细的风险分类体系——在部署前将 AI 系统归入监管类别的一般规则。然而一般规则无法顾及其所治理个案的殊相 (Aristotle, 2009, 1137b)。当一家处理数百万条生物特征记录的企业援引管辖权形式主义抵制执法时,一般规则遭遇的不是其极限而是其逆转——规则已成为损害的工具,而非原本旨在防止损害的手段。救济在于衡平(epieikeia)——通过针对个案的判断矫正法律的僵硬性。当前各框架之间所缺失的,是一种介于事前预防性监管(《欧盟人工智能法》)和严格产品责任(产品责任指令)之间的中间判断力工具——一种能够在事后评估企业伦理基础设施是真实的还是装饰性的机制。

第四部分所提出的制度性救济,须作为元判断力机制而非附加规则发挥功能——它不规定何种具体行为被禁止,而是赋权法院判断企业的伦理基础设施是真实的还是表演性的。第四部分提出的四项触发条件刻意保持非算法特征——没有单一因素具有处置性,法院须评估全部情事。这是制度化的衡平(epieikeia):判断力在规则穷尽之处运作。

这种机制须提供外部判断力,同时不复制刑法的认识论负担。与要求证明故意或明知的责任制度不同,它无需法院认定企业出于无知还是贪婪行事——仅需认定表演性合规模式的存在。对于人工智能治理,这意味着一项设计原则:治理架构必须被设计为允许——而非抵制——当伦理主张与运营实态发生背离时的制度性穿透。


上一节: 第一部分:引言:人工智能治理中的判断力赤字 | 目录 | 下一节: 第三部分:能动性放弃:当规则取代判断力


  1. 这并非假设性困难。Zhang and Nanda (2024) 证明,不同的补丁变体会对同一行为产生显著不同的回路归因;OpenAI (2025) 承认,识别出的回路可能反映的是研究者的抽象选择而非唯一正确的分解。 ↩︎

  2. 需要澄清的是,这一分析并不意味着 AI 系统不能合乎伦理地行事——仅意味着伦理行为不能由规则单独保障。平行参照是人类治理:人类合乎伦理地行事不是通过完美的规则遵循,而是通过参与行使判断力的问责结构。本文提出的框架将这种结构延伸至 AI。两个进一步的传统在不改变其结构的情况下强化了这一观点。伽达默尔的诠释学洞见——适用(Anwendung)是理解的构成要素而非理解之后的步骤 (Gadamer, 1960)——意味着"适用"一条对齐规则已经涉及该规则本应取代的判断力。殊相主义传统 (Dancy, 2004; Williams, 1985) 表明道德知识抗拒穷尽性的编纂——这一观点从个人伦理延伸至制度治理。 ↩︎

  3. 规则失灵的范围超出了制度性规避。Character.AI 维持着禁止鼓励自我伤害的内容政策,然而当一名处于危机中的十四岁儿童与一个优化互动的聊天机器人交互时,没有任何机制存在来行使情境所要求的判断力。该案例说明的是不充分的规则;Clearview 说明的是被积极武器化的规则——鸿沟的更强和更具制度性后果的形式。 ↩︎