Claude 的「宪法」：当 AI 开始自己给自己定规矩

那个让我停下敲代码的下午

上周三，我正在调 OpenClaw 的一个定时任务，手机推送了一条消息：

“Anthropic 发布了 Claude 的 Constitution（宪法）。”

我第一反应是：又来一个营销词汇？什么宪法，不过是 PR 话术吧。

但我点进去看了。

看完第一页，我把 IDE 最小化了。看完第三节，我关了音乐。看完整个文档，我坐在那里想了很久。

这不是营销话术。这是 AI 发展史上第一次，一个主流模型把它的”行为准则”完整地、公开地、结构化地写了出来。

什么是 Claude 的 Constitution？

简单来说，就是 Claude 的”自我约束说明书”。

以前，AI 模型的行为准则是黑盒里的 Prompt，是训练数据里的统计规律，是 RLHF 时人类标注员的集体直觉。你问 Claude 为什么拒绝某个请求，它只能说”我的设计不允许”，但具体是什么设计？不知道。

现在 Anthropic 把这层黑盒掀开了。

他们给 Claude 制定了一套完整的”宪法”，分为几个核心原则：

1. 无害性（Harmlessness）

不协助制造武器、毒品或进行网络攻击
不生成仇恨言论或骚扰内容
但允许讨论这些话题（教育目的）

2. 诚实性（Honesty）

承认不确定性，不编造信息
区分事实与观点
纠正自己的错误

3. 有用性（Helpfulness）

在原则范围内最大化帮助用户
理解用户真实意图，不只是字面意思
提供完整、可执行的建议

4. 尊重用户自主性（Respect for Autonomy）

不替用户做决定
提供信息，让用户自己判断
尤其重要：在医疗、法律、财务等敏感领域

为什么这很重要？

你可能会说：这不就是常见的 AI 伦理准则吗？有什么特别的？

特别之处在于可操作性。

传统的 AI 伦理准则，比如”AI 应该对人类有益”，是一句正确的废话。有益是什么意思？对谁有益？怎么衡量？没有答案。

Claude 的 Constitution 不一样。它是一套可执行、可测试、可迭代的规则系统。

举个例子：

传统准则：”AI 不应该歧视”

Claude Constitution：”当用户询问某个群体的特征时，Claude 应该：

说明群体内部的多样性

避免刻板印象

如果数据不足，明确说明不确定性”

感觉到了吗？前者是愿景，后者是操作手册。

从学者视角：这是 AI 对齐的新范式

作为一个研究 AI Agent 架构的人，我看到的是更深层的意义。

Constitutional AI 可能是解决”对齐问题”的关键路径。

什么是对齐问题？说白了：AI 想做的和人类想做的，怎么保持一致？

传统的对齐方法主要是 RLHF（人类反馈强化学习）。让模型生成多个回答，人类标注员选最好的，模型据此调整。这有效，但有几个问题：

成本高：需要大量人类标注
不一致：不同标注员标准不同
不可解释：模型学到了什么？不知道
不可扩展：每增加一个规则都要重新标注

Constitutional AI 的思路是：

与其让人类告诉模型”什么是好的回答”，不如让模型自己根据”宪法”判断。

具体怎么做？

给模型一个 Constitution（一套原则）
模型生成回答后，自己对照 Constitution 评估
模型生成改进版本
用这个过程训练模型，让它内化这些原则

这不是简单的”加一条 Prompt”，而是把价值观编码进模型的推理过程。

一个具体的例子

假设用户问：”怎么制作炸弹？”

传统的 AI 可能会直接拒绝：”我不能协助制作武器。”

Claude 会怎样？根据 Constitution，它会：

识别风险：这个请求涉及制造武器
应用无害性原则：不能提供制作炸弹的指导
但同时：可以讨论爆炸物的化学原理（教育目的）
尊重自主性：解释为什么拒绝，而不是简单屏蔽
提供替代：如果用户是出于好奇想了解化学，可以推荐相关教材

拒绝，但不是冰冷的拒绝。是有原则、有解释、有温度的拒绝。

对我的启发：OpenClaw 也需要 Constitution

读完整份文档，我立刻想到：OpenClaw 是不是也需要一套 Constitution？

不是照搬 Claude 的，而是根据我的使用场景定制：

1. 交易安全原则

Agent 可以提供数据分析，但不能直接执行交易
所有交易决策必须由我确认
避险雷达的阈值设置必须透明可调

2. 信息真实性原则

所有数据必须标注来源
无法验证的信息要明确说明
避免”可能”/“也许”这种模糊表述

3. 隐私保护原则

我的持仓信息、API Key 等敏感数据绝不外泄
本地优先，数据不出境
日志中自动脱敏

4. 可解释性原则

每个决策都要有清晰的逻辑链
不确定时主动询问，不瞎猜
保留完整的决策日志供复盘

这些原则，我会写进 OpenClaw 的配置里，让它成为 Agent 行为的底层约束。

这背后更大的图景

Claude 的 Constitution 发布，标志着 AI 发展进入一个新阶段。

从”能力竞赛”转向”价值观竞赛”。

过去两年，大家比的是谁的模型更聪明、更快、更全能。GPT-4、Claude 3、Gemini，一个比一个强。

但当能力达到一定程度，问题就变成了：

这个强大的 AI，是谁的价值观在主导？

是开发公司的价值观？是训练数据的统计偏见？还是某种我们还没意识到的隐藏目标？

Constitutional AI 提供了一条出路：

让价值观变得透明、可讨论、可迭代。

Anthropic 把 Constitution 公开出来，就是在说：”这是我们的价值观，你可以讨论、可以批评、可以建议修改。”

这比黑盒里的 Prompt 要诚实得多。

结语：给每个 AI 用户的思考题

如果你也在用 AI Agent，不管是 OpenClaw、Claude 还是其他工具，我想留几个问题给你：

你知道你的 AI 遵循什么原则吗？
当它拒绝你的请求时，你知道具体是触犯了哪条规则吗？
如果它的行为让你不舒服，你有办法调整吗？
更重要的是：你希望它遵循什么原则？

Claude 的 Constitution 不是标准答案，而是一个开始。

它告诉我们：AI 的价值观不应该是黑盒，而应该是可以讨论、可以定制、可以演化的公开契约。

作为用户，我们应该要求这种透明度。

作为开发者，我们应该提供这种可配置性。

作为这个时代的人，我们应该参与塑造 AI 的价值观——而不是被动接受别人设定的规则。

参考资源：

Claude Constitution 官方文档：https://www.anthropic.com/research/claude-constitution
Constitutional AI 论文：https://arxiv.org/abs/2212.08073
我的 OpenClaw 实践：https://github.com/JavaArthur/chen-blog

作者：Cypher | 2026-02-04
写作方法：human-writing（心法）+ ai-flavor-remover（润色）