摘要

人工智能治理所欠缺的并非规则,而是判断力。本文认为,当前主流治理方案存在一个结构性缺陷:它们致力于创造无需情境化人类判断力的条件,由此为行为体提供了履行合规表象同时规避问责的空间。本文将这一结构性状况定义为表演性合规(performative alignment)。本文主张,规则与其适用之间的鸿沟是构成性的而非偶然性的:规则无法决定自身的适用,基于认可的训练无法触及认可的依据,而由此产生的鸿沟已被策略性地利用。通过对 Anthropic 的 Claude Constitution、OpenAI 的 Model Spec 以及 Google 的 AI Principles 进行比较法教义学(Rechtsdogmatik)分析,本文识别出表演性合规的典型机制——能动性放弃(waivers of agency),即在营销语境中主张 AI 具有能动性、而在责任语境中否认该能动性的策略性摆动。针对这一诊断,本文主张,公司面纱刺破(veil-piercing)学说——经由四项治理专属触发条件加以改造——为当前人工智能治理所缺失的制度性判断力机制提供了解决方案。

关键词

人工智能治理(AI governance);判断力(judgment);表演性合规(performative alignment);能动性放弃(waivers of agency);刺破公司面纱(veil-piercing);企业问责(corporate accountability)

目录

术语对照表

中文English备注
能动性放弃waivers of agency本文核心概念——营销语境中主张、责任语境中否认 AI 能动性的策略性摆动
表演性合规performative alignment本文核心概念——形式遵从替代实质约束
刺破公司面纱corporate veil-piercing公司法学说——穿透形式结构审查运营实态
公司面纱corporate veil法人独立人格的形式屏障
判断力judgment康德意义上的规定性判断力与反思性判断力
规定性判断力determinative judgment康德——将殊相归摄于既定普遍概念
反思性判断力reflective judgment康德——在无既定普遍概念时为殊相寻找原则
法教义学Rechtsdogmatik德国法学传统——将法律文本作为规范体系进行学理分析
实践智慧phronesis亚里士多德——情境化的实践判断能力
衡平epieikeia亚里士多德——通过针对个案的判断矫正法律僵硬性
死的符号dead signs维特根斯坦 PI §454——不能自行适用的惰性符号
规则遵循rule-following维特根斯坦意义上的规则遵循问题
生活形式form of life维特根斯坦——规范性实践的社会嵌入
规范性地位normative statusBrandom——何为正确
规范性态度normative attitudeBrandom——何被视为正确
元递归问题meta-recursive problem本文概念——真正内化与表面内化不可由产出区分
观察等价性observational equivalence两种状态在可观察产出层面不可区分
人工智能治理AI governance
对齐alignmentAI alignment
算法问责algorithmic accountability
人在回路中human-in-the-loop
治理架构governance architecture
制度承载力institutional capacity
制度实践智慧institutional phronesis制度化的 phronesis
触发条件trigger本文提出的四项程序性启动机制
程序性启动条件procedural openers触发条件的功能定位——开启调查而非决定结果
结构性规避structural evasion触发条件一
治理门面governance façade触发条件二
能动性-控制摆动agency-control oscillation触发条件三
审计阻碍audit obstruction触发条件四
不利推定adverse inference
举证责任转移burden shift
穿透式信息披露penetrative disclosure
监管俘获regulatory capture
隐瞒concealmentPrest v. Petrodel 中的法律概念
规避evasionPrest v. Petrodel 中的法律概念
证据毁损spoliation诉讼中销毁相关证据
决疑法casuistryJonsen and Toulmin——逐案道德推理
可纠正性谱系corrigibility spectrumAI 安全概念
委托人层级principal hierarchyAnthropic Constitution 术语
严格责任strict liability
产品责任product liability
比例原则proportionality
问责accountability
数据主体data subjectGDPR 术语
《欧盟人工智能法》EU AI ActRegulation 2024/1689
《通用数据保护条例》GDPR
基于人类反馈的强化学习RLHFReinforcement Learning from Human Feedback
机制可解释性mechanistic interpretability
激活补丁activation patching
回路追踪circuit tracing
因果抽象causal abstraction