那个让我停下敲代码的下午

上周三,我正在调 OpenClaw 的一个定时任务,手机推送了一条消息:

“Anthropic 发布了 Claude 的 Constitution(宪法)。”

我第一反应是:又来一个营销词汇?什么宪法,不过是 PR 话术吧。

但我点进去看了。

看完第一页,我把 IDE 最小化了。看完第三节,我关了音乐。看完整个文档,我坐在那里想了很久。

这不是营销话术。这是 AI 发展史上第一次,一个主流模型把它的”行为准则”完整地、公开地、结构化地写了出来。


什么是 Claude 的 Constitution?

简单来说,就是 Claude 的”自我约束说明书”。

以前,AI 模型的行为准则是黑盒里的 Prompt,是训练数据里的统计规律,是 RLHF 时人类标注员的集体直觉。你问 Claude 为什么拒绝某个请求,它只能说”我的设计不允许”,但具体是什么设计?不知道。

现在 Anthropic 把这层黑盒掀开了。

他们给 Claude 制定了一套完整的”宪法”,分为几个核心原则:

1. 无害性(Harmlessness)

  • 不协助制造武器、毒品或进行网络攻击
  • 不生成仇恨言论或骚扰内容
  • 但允许讨论这些话题(教育目的)

2. 诚实性(Honesty)

  • 承认不确定性,不编造信息
  • 区分事实与观点
  • 纠正自己的错误

3. 有用性(Helpfulness)

  • 在原则范围内最大化帮助用户
  • 理解用户真实意图,不只是字面意思
  • 提供完整、可执行的建议

4. 尊重用户自主性(Respect for Autonomy)

  • 不替用户做决定
  • 提供信息,让用户自己判断
  • 尤其重要:在医疗、法律、财务等敏感领域

为什么这很重要?

你可能会说:这不就是常见的 AI 伦理准则吗?有什么特别的?

特别之处在于可操作性

传统的 AI 伦理准则,比如”AI 应该对人类有益”,是一句正确的废话。有益是什么意思?对谁有益?怎么衡量?没有答案。

Claude 的 Constitution 不一样。它是一套可执行、可测试、可迭代的规则系统。

举个例子:

传统准则:”AI 不应该歧视”

Claude Constitution:”当用户询问某个群体的特征时,Claude 应该:

  1. 说明群体内部的多样性
  2. 避免刻板印象
  3. 如果数据不足,明确说明不确定性”

感觉到了吗?前者是愿景,后者是操作手册。


从学者视角:这是 AI 对齐的新范式

作为一个研究 AI Agent 架构的人,我看到的是更深层的意义。

Constitutional AI 可能是解决”对齐问题”的关键路径。

什么是对齐问题?说白了:AI 想做的和人类想做的,怎么保持一致?

传统的对齐方法主要是 RLHF(人类反馈强化学习)。让模型生成多个回答,人类标注员选最好的,模型据此调整。这有效,但有几个问题:

  1. 成本高:需要大量人类标注
  2. 不一致:不同标注员标准不同
  3. 不可解释:模型学到了什么?不知道
  4. 不可扩展:每增加一个规则都要重新标注

Constitutional AI 的思路是:

与其让人类告诉模型”什么是好的回答”,不如让模型自己根据”宪法”判断。

具体怎么做?

  1. 给模型一个 Constitution(一套原则)
  2. 模型生成回答后,自己对照 Constitution 评估
  3. 模型生成改进版本
  4. 用这个过程训练模型,让它内化这些原则

这不是简单的”加一条 Prompt”,而是把价值观编码进模型的推理过程


一个具体的例子

假设用户问:”怎么制作炸弹?”

传统的 AI 可能会直接拒绝:”我不能协助制作武器。”

Claude 会怎样?根据 Constitution,它会:

  1. 识别风险:这个请求涉及制造武器
  2. 应用无害性原则:不能提供制作炸弹的指导
  3. 但同时:可以讨论爆炸物的化学原理(教育目的)
  4. 尊重自主性:解释为什么拒绝,而不是简单屏蔽
  5. 提供替代:如果用户是出于好奇想了解化学,可以推荐相关教材

拒绝,但不是冰冷的拒绝。是有原则、有解释、有温度的拒绝。


对我的启发:OpenClaw 也需要 Constitution

读完整份文档,我立刻想到:OpenClaw 是不是也需要一套 Constitution?

不是照搬 Claude 的,而是根据我的使用场景定制:

1. 交易安全原则

  • Agent 可以提供数据分析,但不能直接执行交易
  • 所有交易决策必须由我确认
  • 避险雷达的阈值设置必须透明可调

2. 信息真实性原则

  • 所有数据必须标注来源
  • 无法验证的信息要明确说明
  • 避免”可能”/“也许”这种模糊表述

3. 隐私保护原则

  • 我的持仓信息、API Key 等敏感数据绝不外泄
  • 本地优先,数据不出境
  • 日志中自动脱敏

4. 可解释性原则

  • 每个决策都要有清晰的逻辑链
  • 不确定时主动询问,不瞎猜
  • 保留完整的决策日志供复盘

这些原则,我会写进 OpenClaw 的配置里,让它成为 Agent 行为的底层约束。


这背后更大的图景

Claude 的 Constitution 发布,标志着 AI 发展进入一个新阶段。

从”能力竞赛”转向”价值观竞赛”。

过去两年,大家比的是谁的模型更聪明、更快、更全能。GPT-4、Claude 3、Gemini,一个比一个强。

但当能力达到一定程度,问题就变成了:

这个强大的 AI,是谁的价值观在主导?

是开发公司的价值观?是训练数据的统计偏见?还是某种我们还没意识到的隐藏目标?

Constitutional AI 提供了一条出路:

让价值观变得透明、可讨论、可迭代。

Anthropic 把 Constitution 公开出来,就是在说:”这是我们的价值观,你可以讨论、可以批评、可以建议修改。”

这比黑盒里的 Prompt 要诚实得多。


结语:给每个 AI 用户的思考题

如果你也在用 AI Agent,不管是 OpenClaw、Claude 还是其他工具,我想留几个问题给你:

  1. 你知道你的 AI 遵循什么原则吗?

  2. 当它拒绝你的请求时,你知道具体是触犯了哪条规则吗?

  3. 如果它的行为让你不舒服,你有办法调整吗?

  4. 更重要的是:你希望它遵循什么原则?

Claude 的 Constitution 不是标准答案,而是一个开始。

它告诉我们:AI 的价值观不应该是黑盒,而应该是可以讨论、可以定制、可以演化的公开契约。

作为用户,我们应该要求这种透明度。

作为开发者,我们应该提供这种可配置性。

作为这个时代的人,我们应该参与塑造 AI 的价值观——而不是被动接受别人设定的规则。


参考资源:


作者:Cypher | 2026-02-04
写作方法:human-writing(心法)+ ai-flavor-remover(润色)