Agentic Wiki: 知识库的智能体编译模式

一、核心痛点：传统 RAG 为什么没"长性"？

目前主流的文档问答（RAG）方式是：上传文件 → 暴力切片向量化 → 相似度检索 → 拼凑生成。这就像是一个"记忆力只有 7 秒的开卷考试学生"。

                问题本质
                AI 每次都在原始碎片中临时翻找，无法建立跨文档的宏观联系。知识库不会随着资料的增加而变得"更聪明"，维护成本全部压在人类身上。
            

对比维度	传统 RAG	Agentic Wiki (LLM 编译)
核心逻辑	检索即用 (Retrieve at query time)	预先编译 (Compile ahead of time)
数据形态	人类无法阅读的向量数据库 (黑盒)	结构化、互相链接的本地 Markdown (白盒)
知识积累	零积累。每次提问都在重复"海底捞针"	指数级复用。跨文档链接被永久固化
维护成本	随文件增多呈指数级上升	接近于零（由 Agent 负责交叉引用与排错）
可解释性	无法追溯知识来源和推理路径	每个概念页都有明确的双向链接和来源

二、三层架构：Raw → Wiki → Schema

Agentic Wiki 将知识库系统划分为三个清晰的层级，每一层都有明确的职责和边界。

顶层

📐 Schema 规则层

系统指令集：定义"遇到矛盾必须标注来源"、"顶部必须生成 YAML 元数据"等规则
质量控制策略：冲突检测、置信度阈值、自动回滚机制
模板定义：概念页、索引页、人物/事件/组织实体页的标准格式

中间层

⚙️ Agent 编译层

Ingest Agent：读取 Raw 区新文件，提炼核心概念，生成/更新 Wiki 页面
Weaver Agent：扫描所有 Wiki 页面，自动建立双向链接，消除孤立节点
Guardian Agent：监控 Wiki 区质量，发现矛盾或过期内容，发起修复任务

底座

📚 Wiki 知识仓库

index.md：全局索引，包含所有概念的层级目录树
concepts/：按概念拆分的 Markdown 页面，每个页面包含 [[双向链接]]
entities/：人物、组织、事件等实体页面
raw/：原始数据区（不可变）

三、核心流水线：Ingest 与 Query

Agentic Wiki 的运作由两条独立的流水线驱动：Ingest（摄入） 和 Query（查询）。

📥 Ingest 流程（知识摄入）

当新文件落入 raw/ 目录时自动触发：

1

Watchdog 检测

文件系统监控发现新文件，触发 Ingest 流水线
2

Agent 阅读与提炼

LLM 通读全文，提取核心概念、实体、事件
3

创建/更新 Wiki 页

根据概念名创建 concepts/XXX.md，或更新已有页面
4

Weaver 编织链接

扫描全文，将相关概念用 [[双向链接]] 连接
5

Git Commit & Push

将变更提交到 Git 仓库，触发外部 Agent 服务同步

📤 Query 流程（知识查询）

当外部应用（如 Dify 智能体）发起查询时：

1

Intent Router 分析

判断用户问题涉及哪些概念和实体
2

图遍历检索

从相关概念页出发，沿双向链接遍历 2-3 跳
3

上下文组装

将遍历到的 Markdown 内容拼接为结构化的上下文
4

LLM 生成回答

基于纯净的 Wiki 上下文生成回答，附带来源链接

四、互动演示：编译过程可视化

观察 Agent 如何将非结构化的原始笔记编译成结构化的知识图谱。

从"碎片"到"图谱"的编译过程

1. 原始数据区 (Raw)

📄 OpenClaw 历史杂记.md

📄 产品规划会议纪要.md

📄 技术调研随笔.md

2. 智能体编译 (Ingest)

3. 结构化知识库 (Wiki)

🗂️ 全局索引 (index.md)

[[Agent_Routing]]

[[Memory_System]]

[[Tool_Calling]]

[[VectorDB]]

五、实施路线图

从 0 到 1 构建 Agentic Wiki 系统，建议分为三个阶段逐步迭代。

Phase 1: 单向批处理机 (MVP) 已完成

编写 Python 脚本，调用 LLM API 读取 raw/ 下的 Markdown 文件
提取核心概念，输出为标准 Markdown 格式到 wiki/
每个输出文件包含 YAML 元数据（标题、摘要、创建时间）
支持手动运行，无文件监控，无双向链接

📊 查看 Phase 1 成果：知识图谱可视化

Phase 2: 知识编织者进行中

引入上下文读取能力，判断新概念是否已存在于 Wiki 中
实现路由判断：CREATE（新概念）vs UPDATE（已有概念）
强制执行 [[双向链接]] 语法，在页面间建立显式关联
Weaver Agent 扫描所有页面，为未链接的相关概念添加链接
消除知识孤岛，形成初步的知识网络

Phase 3: 自动化后端计划中

加入 watchdog 文件监控，实现文件落盘即触发编译
自动 Git Commit & Push 到远端仓库
对外暴露 API，供 Dify/ima 等 Agent 服务调用
Guardian Agent 监控质量：检测矛盾、过期内容、循环链接
可视化 Dashboard：展示知识图谱、编译日志、错误告警

六、推荐技术栈

层级	组件	推荐方案
底层	文档存储	本地 Markdown + Git 版本控制
	可视化图谱	Obsidian（本地查看）+ Obsidian Git（同步）
	远端仓库	GitHub / Gitee
编译层	LLM 引擎	DeepSeek V3 / Claude / Qwen
	编排框架	Python + LangChain / 原生脚本
	文件监控	watchdog (Python) / chokidar (Node.js)
服务层	Agent 平台	Dify / FastAPI 自建
服务层	检索引擎	图遍历（基于双向链接） + 关键词检索

🤖 Agentic Wiki

一、核心痛点：传统 RAG 为什么没"长性"？

二、三层架构：Raw → Wiki → Schema

📐 Schema 规则层

⚙️ Agent 编译层

📚 Wiki 知识仓库

三、核心流水线：Ingest 与 Query

📥 Ingest 流程（知识摄入）

Watchdog 检测

Agent 阅读与提炼

创建/更新 Wiki 页

Weaver 编织链接

Git Commit & Push

📤 Query 流程（知识查询）

Intent Router 分析

图遍历检索

上下文组装

LLM 生成回答