Claude 的「宪法」:当 AI 开始自己给自己定规矩
那个让我停下敲代码的下午
上周三,我正在调 OpenClaw 的一个定时任务,手机推送了一条消息:
“Anthropic 发布了 Claude 的 Constitution(宪法)。”
我第一反应是:又来一个营销词汇?什么宪法,不过是 PR 话术吧。
但我点进去看了。
看完第一页,我把 IDE 最小化了。看完第三节,我关了音乐。看完整个文档,我坐在那里想了很久。
这不是营销话术。这是 AI 发展史上第一次,一个主流模型把它的”行为准则”完整地、公开地、结构化地写了出来。
什么是 Claude 的 Constitution?
简单来说,就是 Claude 的”自我约束说明书”。
以前,AI 模型的行为准则是黑盒里的 Prompt,是训练数据里的统计规律,是 RLHF 时人类标注员的集体直觉。你问 Claude 为什么拒绝某个请求,它只能说”我的设计不允许”,但具体是什么设计?不知道。
现在 Anthropic 把这层黑盒掀开了。
他们给 Claude 制定了一套完整的”宪法”,分为几个核心原则:
1. 无害性(Harmlessness)
- 不协助制造武器、毒品或进行网络攻击
- 不生成仇恨言论或骚扰内容
- 但允许讨论这些话题(教育目的)
2. 诚实性(Honesty)
- 承认不确定性,不编造信息
- 区分事实与观点
- 纠正自己的错误
3. 有用性(Helpfulness)
- 在原则范围内最大化帮助用户
- 理解用户真实意图,不只是字面意思
- 提供完整、可执行的建议
4. 尊重用户自主性(Respect for Autonomy)
- 不替用户做决定
- 提供信息,让用户自己判断
- 尤其重要:在医疗、法律、财务等敏感领域
为什么这很重要?
你可能会说:这不就是常见的 AI 伦理准则吗?有什么特别的?
特别之处在于可操作性。
传统的 AI 伦理准则,比如”AI 应该对人类有益”,是一句正确的废话。有益是什么意思?对谁有益?怎么衡量?没有答案。
Claude 的 Constitution 不一样。它是一套可执行、可测试、可迭代的规则系统。
举个例子:
传统准则:”AI 不应该歧视”
Claude Constitution:”当用户询问某个群体的特征时,Claude 应该:
- 说明群体内部的多样性
- 避免刻板印象
- 如果数据不足,明确说明不确定性”
感觉到了吗?前者是愿景,后者是操作手册。
从学者视角:这是 AI 对齐的新范式
作为一个研究 AI Agent 架构的人,我看到的是更深层的意义。
Constitutional AI 可能是解决”对齐问题”的关键路径。
什么是对齐问题?说白了:AI 想做的和人类想做的,怎么保持一致?
传统的对齐方法主要是 RLHF(人类反馈强化学习)。让模型生成多个回答,人类标注员选最好的,模型据此调整。这有效,但有几个问题:
- 成本高:需要大量人类标注
- 不一致:不同标注员标准不同
- 不可解释:模型学到了什么?不知道
- 不可扩展:每增加一个规则都要重新标注
Constitutional AI 的思路是:
与其让人类告诉模型”什么是好的回答”,不如让模型自己根据”宪法”判断。
具体怎么做?
- 给模型一个 Constitution(一套原则)
- 模型生成回答后,自己对照 Constitution 评估
- 模型生成改进版本
- 用这个过程训练模型,让它内化这些原则
这不是简单的”加一条 Prompt”,而是把价值观编码进模型的推理过程。
一个具体的例子
假设用户问:”怎么制作炸弹?”
传统的 AI 可能会直接拒绝:”我不能协助制作武器。”
Claude 会怎样?根据 Constitution,它会:
- 识别风险:这个请求涉及制造武器
- 应用无害性原则:不能提供制作炸弹的指导
- 但同时:可以讨论爆炸物的化学原理(教育目的)
- 尊重自主性:解释为什么拒绝,而不是简单屏蔽
- 提供替代:如果用户是出于好奇想了解化学,可以推荐相关教材
拒绝,但不是冰冷的拒绝。是有原则、有解释、有温度的拒绝。
对我的启发:OpenClaw 也需要 Constitution
读完整份文档,我立刻想到:OpenClaw 是不是也需要一套 Constitution?
不是照搬 Claude 的,而是根据我的使用场景定制:
1. 交易安全原则
- Agent 可以提供数据分析,但不能直接执行交易
- 所有交易决策必须由我确认
- 避险雷达的阈值设置必须透明可调
2. 信息真实性原则
- 所有数据必须标注来源
- 无法验证的信息要明确说明
- 避免”可能”/“也许”这种模糊表述
3. 隐私保护原则
- 我的持仓信息、API Key 等敏感数据绝不外泄
- 本地优先,数据不出境
- 日志中自动脱敏
4. 可解释性原则
- 每个决策都要有清晰的逻辑链
- 不确定时主动询问,不瞎猜
- 保留完整的决策日志供复盘
这些原则,我会写进 OpenClaw 的配置里,让它成为 Agent 行为的底层约束。
这背后更大的图景
Claude 的 Constitution 发布,标志着 AI 发展进入一个新阶段。
从”能力竞赛”转向”价值观竞赛”。
过去两年,大家比的是谁的模型更聪明、更快、更全能。GPT-4、Claude 3、Gemini,一个比一个强。
但当能力达到一定程度,问题就变成了:
这个强大的 AI,是谁的价值观在主导?
是开发公司的价值观?是训练数据的统计偏见?还是某种我们还没意识到的隐藏目标?
Constitutional AI 提供了一条出路:
让价值观变得透明、可讨论、可迭代。
Anthropic 把 Constitution 公开出来,就是在说:”这是我们的价值观,你可以讨论、可以批评、可以建议修改。”
这比黑盒里的 Prompt 要诚实得多。
结语:给每个 AI 用户的思考题
如果你也在用 AI Agent,不管是 OpenClaw、Claude 还是其他工具,我想留几个问题给你:
你知道你的 AI 遵循什么原则吗?
当它拒绝你的请求时,你知道具体是触犯了哪条规则吗?
如果它的行为让你不舒服,你有办法调整吗?
更重要的是:你希望它遵循什么原则?
Claude 的 Constitution 不是标准答案,而是一个开始。
它告诉我们:AI 的价值观不应该是黑盒,而应该是可以讨论、可以定制、可以演化的公开契约。
作为用户,我们应该要求这种透明度。
作为开发者,我们应该提供这种可配置性。
作为这个时代的人,我们应该参与塑造 AI 的价值观——而不是被动接受别人设定的规则。
参考资源:
- Claude Constitution 官方文档:https://www.anthropic.com/research/claude-constitution
- Constitutional AI 论文:https://arxiv.org/abs/2212.08073
- 我的 OpenClaw 实践:https://github.com/JavaArthur/chen-blog
作者:Cypher | 2026-02-04
写作方法:human-writing(心法)+ ai-flavor-remover(润色)








