从零搭建 AI 知识库：我的 chen-kb 架构实战

问题背景：为什么需要知识库？

过去半年，我一直在用 AI 生成内容——AI 日报、全球简报、深度文章。但有个问题始终没解决：这些内容散落在各个地方。

AI 日报在 chen-blog/source/_posts/
微信收藏的文章在「文件传输助手」里吃灰
和 AI 的对话记录在 session 结束后就消失
今天讨论的重要决策，明天就忘

更麻烦的是，每次开新 session，我都要重新解释上下文：”之前我们讨论过…”、”那个方案还记得吗…”

信息在流失，知识没有沉淀。

于是我在 2026 年 4 月 6 日，花了一整天，从零搭建了一套知识管理系统：chen-kb。

设计哲学：渐进式知识编译

chen-kb 的设计对标 Karpathy 的渐进式知识编译方案：

1	原始素材 → 摘录卡片 → 结构化知识 → 内容产出

这不是简单的文件夹堆砌，而是一套信息流转系统。每个阶段有明确的：

输入：从哪来
处理人：谁负责
输出：到哪去
质量标准：什么算完成

核心思想：让信息自动流向它该去的地方。

7 层架构详解

00-Inbox/     → 原始素材（微信/链接/截图）
01-Daily/     → 每日痕迹
02-Clippings/ → 摘录卡片（high/medium/low）
03-Knowledge/ → Wiki 知识库（核心）
04-Work/      → 工作沉淀
05-Investment/→ 投资研究
06-Content/   → 内容创作
07-Archive/   → 归档层

各层职责

编号	目录	职责	示例
00	Inbox	原始素材暂存	微信文章链接、PDF、截图
01	Daily	每日时间线	个人记录、随想
02	Clippings	结构化摘录	带摘要、标签的卡片
03	Knowledge	Wiki 核心	可复用的知识节点
04-05	专题	垂直领域	工作项目、投资研究
06	Content	产出物	AI 日报、深度文章
07	Archive	冷数据	已完结的历史内容

流转规则

微信文章链接
    ↓ 自动抓取
00-Inbox/2026-04-06-wechat-xxx.md
    ↓ AI 解析 + 分级
02-Clippings/high/2026-04-06-wechat-xxx.md（128 行精华）
    ↓ 人工 review
03-Knowledge/concepts/spec-kit.md（入库 Wiki）
    ↓ 选题创作
06-Content/published/deep-dive/2026-04-06-spec-kit-guide.md

3 个核心规范文件

1. README.md — 整体架构

定义：

7 层目录的职责边界
信息流转的完整路径
命名规范（日期型/摘录型/知识型/内容型）
AI Agent 读取顺序

2. SCHEMA.md — 工作流规范

定义 4 大工作流：

Ingest（入库）

1
2
3

触发：收到新信息
步骤：Inbox → 解析 → 分级 → Clippings
负责：OpenClaws 自动

Compile（编译）

1
2
3

触发：人工 review 或每周整理
步骤：Clippings → 入库 Knowledge → 更新索引
负责：人 + AI 协作

Create（创作）

1
2
3

触发：选题确定
步骤：素材 → 选题 → 草稿 → 发布
负责：AI 生成 + 人审核

Lint（健康检查）

1 2	触发：每月一次检查：孤立页面、过时内容、缺失链接、堆积文件

3. AGENTS.md — AI 协作规范

先读后写原则：

读取 README.md → 理解整体架构
读取 SCHEMA.md → 明确流转规则
读取目标目录 README.md → 了解规范
读取目标文件 → 确认是否可复用
最后执行写入

禁止越界：

❌ 不允许新增一级目录
❌ 不允许修改 SCHEMA.md / AGENTS.md / USER.md
❌ 不允许在 07-Archive 之外删除文件

Frontmatter 强制：
所有正式文件必须包含 YAML 头：

---
title:
type:
area:
status:
created:
updated:
source:
tags: []
---

实战演示：微信文章自动化入库

传统方式

看到好文章 → 点收藏
收藏夹吃灰 → 永不打开
需要时 → 想不起来在哪

chen-kb 方式

Step 1: 发送链接给 AI

1	https://mp.weixin.qq.com/s/zcXNM1jpT3HolV2qTu7maQ

Step 2: 自动抓取（wechat-article-fetcher）

1	python3 scripts/fetch.py "<URL>" --output /tmp/wechat_articles

Playwright 模拟浏览器，绕过微信反爬
提取完整内容 + 7 张图片 + 元数据

Step 3: 生成 Inbox

00-Inbox/2026-04-06-spec-kit-vibe-coding.md
├── 原文链接
├── 作者/发布时间
└── 状态: pending

Step 4: 生成 Clippings（结构化摘录）

02-Clippings/2026-04-06-spec-kit-guide.md
├── 核心摘要
├── 6 步工作流详解
├── 实测争议数据
├── 适用性判断框架
└── 个人笔记（关联 chen-kb 思考）

Step 5: Git 提交

1
2
3

git add .
git commit -m "content: Spec Kit 六步工作流文章入库"
git push

耗时：2 分钟 vs 传统方式的「永不整理」。

今日成果数据

历史内容迁移

AI 日报：24 篇（3月8日-4月6日）
全球简报：24 篇
深度文章：3 篇（OpenClaw 系列）
随笔：2 篇

今日入库

Spec Kit 六步工作流（3920 字 Clipping）
AI 界面设计经验（刘一缘）
下午场选题推荐（3 个 AI 选题）

Git 提交历史

1ea9654 content: Spec Kit 六步工作流文章入库
a571ac8 content: 2026-04-06 下午场选题推荐
c92f0d0 inbox: 2026-04-06 AI界面生成经验
aab0902 docs: 更新 06-Content 结构
668b3ff chore: 初始化知识库仓库