问题背景:为什么需要知识库?

过去半年,我一直在用 AI 生成内容——AI 日报、全球简报、深度文章。但有个问题始终没解决:这些内容散落在各个地方

  • AI 日报在 chen-blog/source/_posts/
  • 微信收藏的文章在「文件传输助手」里吃灰
  • 和 AI 的对话记录在 session 结束后就消失
  • 今天讨论的重要决策,明天就忘

更麻烦的是,每次开新 session,我都要重新解释上下文:”之前我们讨论过…”、”那个方案还记得吗…”

信息在流失,知识没有沉淀。

于是我在 2026 年 4 月 6 日,花了一整天,从零搭建了一套知识管理系统:chen-kb。


设计哲学:渐进式知识编译

chen-kb 的设计对标 Karpathy 的渐进式知识编译方案

1
原始素材 → 摘录卡片 → 结构化知识 → 内容产出

这不是简单的文件夹堆砌,而是一套信息流转系统。每个阶段有明确的:

  • 输入:从哪来
  • 处理人:谁负责
  • 输出:到哪去
  • 质量标准:什么算完成

核心思想:让信息自动流向它该去的地方


7 层架构详解

1
2
3
4
5
6
7
8
00-Inbox/     → 原始素材(微信/链接/截图)
01-Daily/ → 每日痕迹
02-Clippings/ → 摘录卡片(high/medium/low)
03-Knowledge/ → Wiki 知识库(核心)
04-Work/ → 工作沉淀
05-Investment/→ 投资研究
06-Content/ → 内容创作
07-Archive/ → 归档层

各层职责

编号 目录 职责 示例
00 Inbox 原始素材暂存 微信文章链接、PDF、截图
01 Daily 每日时间线 个人记录、随想
02 Clippings 结构化摘录 带摘要、标签的卡片
03 Knowledge Wiki 核心 可复用的知识节点
04-05 专题 垂直领域 工作项目、投资研究
06 Content 产出物 AI 日报、深度文章
07 Archive 冷数据 已完结的历史内容

流转规则

1
2
3
4
5
6
7
8
9
微信文章链接
↓ 自动抓取
00-Inbox/2026-04-06-wechat-xxx.md
↓ AI 解析 + 分级
02-Clippings/high/2026-04-06-wechat-xxx.md(128 行精华)
↓ 人工 review
03-Knowledge/concepts/spec-kit.md(入库 Wiki)
↓ 选题创作
06-Content/published/deep-dive/2026-04-06-spec-kit-guide.md

3 个核心规范文件

1. README.md — 整体架构

定义:

  • 7 层目录的职责边界
  • 信息流转的完整路径
  • 命名规范(日期型/摘录型/知识型/内容型)
  • AI Agent 读取顺序

2. SCHEMA.md — 工作流规范

定义 4 大工作流:

Ingest(入库)

1
2
3
触发:收到新信息
步骤:Inbox → 解析 → 分级 → Clippings
负责:OpenClaws 自动

Compile(编译)

1
2
3
触发:人工 review 或每周整理
步骤:Clippings → 入库 Knowledge → 更新索引
负责:人 + AI 协作

Create(创作)

1
2
3
触发:选题确定
步骤:素材 → 选题 → 草稿 → 发布
负责:AI 生成 + 人审核

Lint(健康检查)

1
2
触发:每月一次
检查:孤立页面、过时内容、缺失链接、堆积文件

3. AGENTS.md — AI 协作规范

先读后写原则

  1. 读取 README.md → 理解整体架构
  2. 读取 SCHEMA.md → 明确流转规则
  3. 读取目标目录 README.md → 了解规范
  4. 读取目标文件 → 确认是否可复用
  5. 最后执行写入

禁止越界

  • ❌ 不允许新增一级目录
  • ❌ 不允许修改 SCHEMA.md / AGENTS.md / USER.md
  • ❌ 不允许在 07-Archive 之外删除文件

Frontmatter 强制
所有正式文件必须包含 YAML 头:

1
2
3
4
5
6
7
8
9
10
---
title:
type:
area:
status:
created:
updated:
source:
tags: []
---

实战演示:微信文章自动化入库

传统方式

  1. 看到好文章 → 点收藏
  2. 收藏夹吃灰 → 永不打开
  3. 需要时 → 想不起来在哪

chen-kb 方式

Step 1: 发送链接给 AI

1
https://mp.weixin.qq.com/s/zcXNM1jpT3HolV2qTu7maQ

Step 2: 自动抓取(wechat-article-fetcher)

1
python3 scripts/fetch.py "<URL>" --output /tmp/wechat_articles
  • Playwright 模拟浏览器,绕过微信反爬
  • 提取完整内容 + 7 张图片 + 元数据

Step 3: 生成 Inbox

1
2
3
4
00-Inbox/2026-04-06-spec-kit-vibe-coding.md
├── 原文链接
├── 作者/发布时间
└── 状态: pending

Step 4: 生成 Clippings(结构化摘录)

1
2
3
4
5
6
02-Clippings/2026-04-06-spec-kit-guide.md
├── 核心摘要
├── 6 步工作流详解
├── 实测争议数据
├── 适用性判断框架
└── 个人笔记(关联 chen-kb 思考)

Step 5: Git 提交

1
2
3
git add .
git commit -m "content: Spec Kit 六步工作流文章入库"
git push

耗时:2 分钟 vs 传统方式的「永不整理」。


今日成果数据

历史内容迁移

  • AI 日报:24 篇(3月8日-4月6日)
  • 全球简报:24 篇
  • 深度文章:3 篇(OpenClaw 系列)
  • 随笔:2 篇

今日入库

  • Spec Kit 六步工作流(3920 字 Clipping)
  • AI 界面设计经验(刘一缘)
  • 下午场选题推荐(3 个 AI 选题)

Git 提交历史

1
2
3
4
5
1ea9654 content: Spec Kit 六步工作流文章入库
a571ac8 content: 2026-04-06 下午场选题推荐
c92f0d0 inbox: 2026-04-06 AI界面生成经验
aab0902 docs: 更新 06-Content 结构
668b3ff chore: 初始化知识库仓库

核心认知转变

Before

  • 信息散落:日报在 blog,资料在收藏夹,对话在 session
  • 记忆断层:每次 session 重新解释上下文
  • 重复劳动:同一篇文章,反复找资料

After

  • 信息归位:每个信息有明确的”家”
  • 跨 session 记忆:今天入库的知识,明天自动读取
  • 复利效应:Clippings 越积越多,写作素材随手可得

最关键的转变:从「AI 是工具」到「AI 是知识库的共同维护者」。


后续规划

短期(本周)

  • 配置 heartbeat 自动整理 Inbox
  • 设置 dream-memory 每周整合
  • 验证跨 session 记忆读取

中期(本月)

  • 03-Knowledge 持续沉淀(工具/prompts/workflows)
  • 建立跨引用链接网络([[双括号]])
  • 每月 Lint 健康检查

长期(本季)

  • 从「被动整理」到「主动推荐」
  • AI 自动发现 Clippings 中的选题
  • 知识图谱可视化

总结

chen-kb 不是终极方案,而是最小可行系统(MVP)。

它解决了当前最痛的三个问题:

  1. 信息有地方去(Inbox → Clippings)
  2. 知识有地方存(Knowledge)
  3. 创作有素材用(Content)

最好的知识库,是你愿意每天用的那一个。

今天是我用 chen-kb 的第一天,但已经感觉到:信息开始自动流向它该去的地方了。


chen-kb 仓库: https://github.com/JavaArthur/chen-kb
本文作者: Channing + Cypher
搭建日期: 2026-04-06