从零搭建 AI 知识库:我的 chen-kb 架构实战
问题背景:为什么需要知识库?
过去半年,我一直在用 AI 生成内容——AI 日报、全球简报、深度文章。但有个问题始终没解决:这些内容散落在各个地方。
- AI 日报在
chen-blog/source/_posts/ - 微信收藏的文章在「文件传输助手」里吃灰
- 和 AI 的对话记录在 session 结束后就消失
- 今天讨论的重要决策,明天就忘
更麻烦的是,每次开新 session,我都要重新解释上下文:”之前我们讨论过…”、”那个方案还记得吗…”
信息在流失,知识没有沉淀。
于是我在 2026 年 4 月 6 日,花了一整天,从零搭建了一套知识管理系统:chen-kb。
设计哲学:渐进式知识编译
chen-kb 的设计对标 Karpathy 的渐进式知识编译方案:
1 | 原始素材 → 摘录卡片 → 结构化知识 → 内容产出 |
这不是简单的文件夹堆砌,而是一套信息流转系统。每个阶段有明确的:
- 输入:从哪来
- 处理人:谁负责
- 输出:到哪去
- 质量标准:什么算完成
核心思想:让信息自动流向它该去的地方。
7 层架构详解
1 | 00-Inbox/ → 原始素材(微信/链接/截图) |
各层职责
| 编号 | 目录 | 职责 | 示例 |
|---|---|---|---|
| 00 | Inbox | 原始素材暂存 | 微信文章链接、PDF、截图 |
| 01 | Daily | 每日时间线 | 个人记录、随想 |
| 02 | Clippings | 结构化摘录 | 带摘要、标签的卡片 |
| 03 | Knowledge | Wiki 核心 | 可复用的知识节点 |
| 04-05 | 专题 | 垂直领域 | 工作项目、投资研究 |
| 06 | Content | 产出物 | AI 日报、深度文章 |
| 07 | Archive | 冷数据 | 已完结的历史内容 |
流转规则
1 | 微信文章链接 |
3 个核心规范文件
1. README.md — 整体架构
定义:
- 7 层目录的职责边界
- 信息流转的完整路径
- 命名规范(日期型/摘录型/知识型/内容型)
- AI Agent 读取顺序
2. SCHEMA.md — 工作流规范
定义 4 大工作流:
Ingest(入库)
1 | 触发:收到新信息 |
Compile(编译)
1 | 触发:人工 review 或每周整理 |
Create(创作)
1 | 触发:选题确定 |
Lint(健康检查)
1 | 触发:每月一次 |
3. AGENTS.md — AI 协作规范
先读后写原则:
- 读取
README.md→ 理解整体架构 - 读取
SCHEMA.md→ 明确流转规则 - 读取目标目录
README.md→ 了解规范 - 读取目标文件 → 确认是否可复用
- 最后执行写入
禁止越界:
- ❌ 不允许新增一级目录
- ❌ 不允许修改 SCHEMA.md / AGENTS.md / USER.md
- ❌ 不允许在 07-Archive 之外删除文件
Frontmatter 强制:
所有正式文件必须包含 YAML 头:
1 |
|
实战演示:微信文章自动化入库
传统方式
- 看到好文章 → 点收藏
- 收藏夹吃灰 → 永不打开
- 需要时 → 想不起来在哪
chen-kb 方式
Step 1: 发送链接给 AI
1 | https://mp.weixin.qq.com/s/zcXNM1jpT3HolV2qTu7maQ |
Step 2: 自动抓取(wechat-article-fetcher)
1 | python3 scripts/fetch.py "<URL>" --output /tmp/wechat_articles |
- Playwright 模拟浏览器,绕过微信反爬
- 提取完整内容 + 7 张图片 + 元数据
Step 3: 生成 Inbox
1 | 00-Inbox/2026-04-06-spec-kit-vibe-coding.md |
Step 4: 生成 Clippings(结构化摘录)
1 | 02-Clippings/2026-04-06-spec-kit-guide.md |
Step 5: Git 提交
1 | git add . |
耗时:2 分钟 vs 传统方式的「永不整理」。
今日成果数据
历史内容迁移
- AI 日报:24 篇(3月8日-4月6日)
- 全球简报:24 篇
- 深度文章:3 篇(OpenClaw 系列)
- 随笔:2 篇
今日入库
- Spec Kit 六步工作流(3920 字 Clipping)
- AI 界面设计经验(刘一缘)
- 下午场选题推荐(3 个 AI 选题)
Git 提交历史
1 | 1ea9654 content: Spec Kit 六步工作流文章入库 |
核心认知转变
Before
- 信息散落:日报在 blog,资料在收藏夹,对话在 session
- 记忆断层:每次 session 重新解释上下文
- 重复劳动:同一篇文章,反复找资料
After
- 信息归位:每个信息有明确的”家”
- 跨 session 记忆:今天入库的知识,明天自动读取
- 复利效应:Clippings 越积越多,写作素材随手可得
最关键的转变:从「AI 是工具」到「AI 是知识库的共同维护者」。
后续规划
短期(本周)
- 配置 heartbeat 自动整理 Inbox
- 设置 dream-memory 每周整合
- 验证跨 session 记忆读取
中期(本月)
- 03-Knowledge 持续沉淀(工具/prompts/workflows)
- 建立跨引用链接网络([[双括号]])
- 每月 Lint 健康检查
长期(本季)
- 从「被动整理」到「主动推荐」
- AI 自动发现 Clippings 中的选题
- 知识图谱可视化
总结
chen-kb 不是终极方案,而是最小可行系统(MVP)。
它解决了当前最痛的三个问题:
- 信息有地方去(Inbox → Clippings)
- 知识有地方存(Knowledge)
- 创作有素材用(Content)
最好的知识库,是你愿意每天用的那一个。
今天是我用 chen-kb 的第一天,但已经感觉到:信息开始自动流向它该去的地方了。
chen-kb 仓库: https://github.com/JavaArthur/chen-kb
本文作者: Channing + Cypher
搭建日期: 2026-04-06
本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来源 晨启Tech!
评论








