能动性放弃：人工智能企业如何利用规则与判断力之间的鸿沟

摘要

人工智能治理所欠缺的并非规则，而是判断力。本文认为，当前主流治理方案存在一个结构性缺陷：它们致力于创造无需情境化人类判断力的条件，由此为行为体提供了履行合规表象同时规避问责的空间。本文将这一结构性状况定义为表演性合规（performative alignment）。本文主张，规则与其适用之间的鸿沟是构成性的而非偶然性的：规则无法决定自身的适用，基于认可的训练无法触及认可的依据，而由此产生的鸿沟已被策略性地利用。通过对 Anthropic 的 Claude Constitution、OpenAI 的 Model Spec 以及 Google 的 AI Principles 进行比较法教义学（Rechtsdogmatik）分析，本文识别出表演性合规的典型机制——能动性放弃（waivers of agency），即在营销语境中主张 AI 具有能动性、而在责任语境中否认该能动性的策略性摆动。针对这一诊断，本文主张，公司面纱刺破（veil-piercing）学说——经由四项治理专属触发条件加以改造——为当前人工智能治理所缺失的制度性判断力机制提供了解决方案。

关键词

人工智能治理（AI governance）；判断力（judgment）；表演性合规（performative alignment）；能动性放弃（waivers of agency）；刺破公司面纱（veil-piercing）；企业问责（corporate accountability）

术语对照表

中文	English	备注
能动性放弃	waivers of agency	本文核心概念——营销语境中主张、责任语境中否认 AI 能动性的策略性摆动
表演性合规	performative alignment	本文核心概念——形式遵从替代实质约束
刺破公司面纱	corporate veil-piercing	公司法学说——穿透形式结构审查运营实态
公司面纱	corporate veil	法人独立人格的形式屏障
判断力	judgment	康德意义上的规定性判断力与反思性判断力
规定性判断力	determinative judgment	康德——将殊相归摄于既定普遍概念
反思性判断力	reflective judgment	康德——在无既定普遍概念时为殊相寻找原则
法教义学	Rechtsdogmatik	德国法学传统——将法律文本作为规范体系进行学理分析
实践智慧	phronesis	亚里士多德——情境化的实践判断能力
衡平	epieikeia	亚里士多德——通过针对个案的判断矫正法律僵硬性
死的符号	dead signs	维特根斯坦 PI §454——不能自行适用的惰性符号
规则遵循	rule-following	维特根斯坦意义上的规则遵循问题
生活形式	form of life	维特根斯坦——规范性实践的社会嵌入
规范性地位	normative status	Brandom——何为正确
规范性态度	normative attitude	Brandom——何被视为正确
元递归问题	meta-recursive problem	本文概念——真正内化与表面内化不可由产出区分
观察等价性	observational equivalence	两种状态在可观察产出层面不可区分
人工智能治理	AI governance
对齐	alignment	AI alignment
算法问责	algorithmic accountability
人在回路中	human-in-the-loop
治理架构	governance architecture
制度承载力	institutional capacity
制度实践智慧	institutional phronesis	制度化的 phronesis
触发条件	trigger	本文提出的四项程序性启动机制
程序性启动条件	procedural openers	触发条件的功能定位——开启调查而非决定结果
结构性规避	structural evasion	触发条件一
治理门面	governance façade	触发条件二
能动性-控制摆动	agency-control oscillation	触发条件三
审计阻碍	audit obstruction	触发条件四
不利推定	adverse inference
举证责任转移	burden shift
穿透式信息披露	penetrative disclosure
监管俘获	regulatory capture
隐瞒	concealment	Prest v. Petrodel 中的法律概念
规避	evasion	Prest v. Petrodel 中的法律概念
证据毁损	spoliation	诉讼中销毁相关证据
决疑法	casuistry	Jonsen and Toulmin——逐案道德推理
可纠正性谱系	corrigibility spectrum	AI 安全概念
委托人层级	principal hierarchy	Anthropic Constitution 术语
严格责任	strict liability
产品责任	product liability
比例原则	proportionality
问责	accountability
数据主体	data subject	GDPR 术语
《欧盟人工智能法》	EU AI Act	Regulation 2024/1689
《通用数据保护条例》	GDPR
基于人类反馈的强化学习	RLHF	Reinforcement Learning from Human Feedback
机制可解释性	mechanistic interpretability
激活补丁	activation patching
回路追踪	circuit tracing
因果抽象	causal abstraction

摘要#

关键词#

目录#

术语对照表#

摘要

关键词

目录

术语对照表