企业级 RAG 知识库架构升级计划

🎯 核心目标与局限性破局

当前局限性痛点	业务影响	升级解决方案
暴力切块与无分块	长文档检索精度极低，丢失语义边界	智能 Markdown 标题分块
单一检索模式	专有名词、精确匹配效果差	混合检索 (向量 + BM25 + Rerank)
无意图识别中枢	无法区分"查定量数据"与"查定性政策"	引入 Intent Router 与 Pandas Agent
无源头追溯与评估	幻觉率高，企业场景不可靠，无法量化质量	前端引用定位 + Ragas 评估体系

📑 四种架构场景选型指南

📄

1. 纯文本聚合检索

场景：海量非结构化文本，规章制度、研究报告、新闻通稿查询。

架构：标准向量 RAG (双路召回策略)

📊

2. 结构化数据智能体

场景：包含加减乘除、对比趋势、生成图表的复杂 Excel 报表或 SQL 库。

架构：Agentic Data Analysis (直接运行计算代码)

🌳

3. "一超多强"层级文档

场景：数百页超大 PDF 主体，伴随若干零散补充文档。

架构：层级检索 (Hierarchical RAG) / Markdown 树状索引

🕸️

4. 海量强关联文档网络

场景：跨文档的历史演变、全行业综述、概念交织推演。

架构：知识图谱 RAG (GraphRAG)

🏗️ 全新三层检索与路由架构

用户提问

"2025 年环保政策对轻型商用车 (LCV) 销量的影响是什么？"

⬇

第一层：意图识别 (Intent Router)

判断意图：QUERY_ANALYSIS (需要数据 + 政策)
提取实体：{"time": "2025 年", "policy": "环保", "metric": "销量"}

⬇

[通道 A] Pandas Agent

1. 挂载加载 LCV 销量表格
2. 计算同比/环比趋势
3. 提取定量下降数据 (-15%)

[通道 B] RAG Agent

1. 检索预演池目录树
2. 精准定位"环保政策"特定章节
3. 仅加载 2-3 个核心 Chunk

⬇

第三层：聚合生成 (Synthesizer)

"根据销量数据，2025 年 LCV 销量同比下降 15%。主要原因是环保政策中报废税上调（详见《环保法》§3.2 章节）..."

🚦 核心引擎：智能中枢路由 (Router) 架构解析

🔍 1. 意图感知层

⚙️ 2. 专家执行层

🧠 3. 聚合反思层

Intent Router：精准判断用户的"真实需求"

大堂经理必须在极短的时间内，决定把请求派发给哪些底层工具，防止"文不对题"。

🎯 核心处理逻辑

语义分类 (Semantic Routing)：利用轻量级 LLM 快速识别输入特征（是查数值、查政策、还是写报告？）。
UI 降维干预：不要过度神化 AI。在前端提供【📊 数据分析】和【📚 文献检阅】等快捷切换开关，让人类意图辅助系统分发，准确率可飙升至 99%。
实体提取：提前抓取"时间（2025）"、"对象（Avtovaz）"等关键词，作为传给底层 Agent 的硬约束。

💻 用户输入模拟

"结合最近发布的新能源政策，算一下 10 月份轻型商用车 (LCV) 的销量跌了多少？"

> 解析结果 (JSON):
{
  "tasks": ["query_policy", "calc_sales_drop"],
  "entities": {"time": "10 月", "category": "LCV"}
}

Expert Agents：多线程并行的底层数据处理

拒绝混用！结构化走代码通道，非结构化走向量/预演池通道，双线齐发。

📊 [工具 A] Data Agent (定量)

职责：挂载本地 Excel/SQL 权限。
动作：直接生成 Python 或 SQL 代码执行运算。
防御机制：内置异常捕获（如列名不匹配、遇到 `Value` 脏数据），大模型自主修代码重试。

📚 [工具 B] Doc Agent (定性)

职责：处理上百页的 PDF 或 Word 长文。
动作：通过读取 Markdown 预演池（全局目录） 快速定位相关章节，精准提取原文文本。
优势：避免了将整本手册强行打碎造成的上下文丢失。

Synthesizer：防幻觉的最终质检员

将两路甚至多路召回的结果进行逻辑自洽合并，生成最完美的"人话"。

🛡️ 最终输出与安全控制

交叉验证 (Cross-check)：核对 Data Agent 给出的"下降 15%"是否与 Doc Agent 找出的"政策导致销量遇冷"逻辑相符。如果矛盾，触发警报。
生成引文追踪：要求输出必须带来源标签（例如：数据来源：`Top LCV Sheet`; 政策依据：《环保法》3.2 节）。
降级策略：如果 Data Agent 代码执行失败，系统不乱猜数字，而是优雅降级："已查到相关政策，但销量数据计算失败，请检查 Excel 格式。"

✨ 最终合成报告示例

【结论】10 月份 LCV 市场销量下降 15%。

【原因分析】
根据《新能源政策文件》[3.2 环保与报废税章节]，10 月份起报废税大幅上调，这是导致该细分市场销量断崖式下跌（-15%）的核心政策原因。

[注：数据源自 `Sales_Data.xlsx`，依据检索自 `Meta-TOC 缓存`]

⚙️ 运行模式 UI 原型设计

基础模式 (Basic)

适合标准文档查阅与政策搜索

✓ 智能 Markdown 分块
✓ 层级检索（目录→章节）
✓ 引用来源定位标注
✗ 意图路由与数据 Agent
✗ 跨文档图谱关联

📅 分阶段迭代实施计划

阶段一：层级检索基础构建 (预计 1-2 天)

目标：实现"目录→章节→内容"的精准层级披露，解决扁平化带来的上下文断裂。

文档解析 → Markdown
接入阿里云 dashscope 文档解析 API，将 PDF/Word 精准转为保留 `#` 标题层级的 Markdown 并入库。
目录提取与 TOC 缓存
提取文档标题树，建立轻量级的 `document_toc` 预演池。
按章节智能分块 (Chunking)
废弃按字数死切，改用语义边界切割，为每个 Chunk 附加 `{doc_id, chapter_id, level}` 元数据。
前端溯源引用展示
回答中必须嵌入来源追踪（如 `[文件 A §3.2]`），支持点击展开原始上下文片段。

阶段二：检索增强策略 (预计 1-2 天)

目标：引入双路召回与重排机制，大幅提升专有名词和边缘概念的检索命中率。

阿里云 gte-rerank 接入
将初筛的 Top-20 结果送入重排模型，精准筛选出语义最匹配的 Top-5 喂给生成大模型。
Supabase 关键词匹配扩展
启用 PostgreSQL 的 `pg_trgm` 扩展，支持针对品牌名（如 Avtovaz）的精准文本召回。
动态相似度熔断阈值
设立低置信度过滤门槛，当检索不到高相关度段落时优雅降级，从源头切断"大模型强行瞎编"。

阶段三：意图中枢与数据 Agent (预计 2-3 天)

目标：彻底融合非结构化与结构化数据处理流，实现真正的智能协同。

DeepSeek 意图识别 (Intent Router)
构建前置路由层，精准拆解用户的 `QUERY_FACT` (文本) 与 `QUERY_NUMBER` (数据) 需求。
Pandas / DB Agent 挂载
打通结构化沙盒环境，大模型可直接读取 Excel 或数据库表进行 SQL 运算，生成精准结论。
MCP 协议与多 Agent 协同
定义明确的 Agent 工具边界，测试复杂问题下的并行分发与聚合反思链路。

阶段四：GraphRAG 与评估监控 (预计 3-4 天)

目标：攻克跨文档的全局推演难题，并引入客观的自动化评测打分体系。

全局 Meta-TOC 索引与图谱构建
通过 LLM 异步梳理跨文档间的关联关系（引用、补充、对立），提取实体构筑轻量级图谱网络。
自动化评测指标建立
利用 LLM as a Judge 机制，量化监控 `Context Relevance` (召回率) 与 `Faithfulness` (忠实度防幻觉)。
结构化断言拦截脚本
针对 Pandas Agent 部署严格的数字断言测试集，确保财务与销量数据的 0 容错率。

⚙️ 技术选型与评估矩阵

核心组件技术选型
文档高保真解析	阿里云 dashscope
核心 Embedding	text-embedding-v4 (1024 维)
Rerank 重排	阿里云 gte-rerank (后期切 BGE)
意图识别路由	DeepSeek V3 API
数据/量化计算	Python Pandas Agent + MCP
底层数据库	Supabase + pgvector 扩展

系统核心评估指标 (Metrics)
语境相关度 Context Relevance	测算"黄金段落"检索命中率
事实忠实度 Faithfulness	反向验证输出，拦截幻觉瞎编
回答切题度 Answer Relevance	衡量回答是否直接解决用户诉求
结构化精准度 Logic Correctness	对 Agent 执行过程的数字做断言校验
Token 效能比 Token Efficiency	测算单次优质回答的 API 消耗成本

🎯 核心战略设计 (Takeaways)

拒绝一招鲜吃遍天： 打造由 Router 中枢调度的"多引擎复合体"。结构化请求直达 Data Agent 算力层，超长文请求走 Markdown 预演池降维，短平快知识点走向量召回。
从"暴力切块"转为"结构解剖"： 面对长文档，摒弃传统的按字数无脑截断。全面拥抱 Markdown 层级抽取与树状索引，顺应文档本身的物理骨架，这是提高精度、消除幻觉的杀手锏。
无评测，不上线： 系统搭建只是完成 20% 的工作。架构定型后，必须引入细颗粒度评估体系（如事实忠实度、逻辑正确性打分脚本），用硬核的 变形测试与断言校验 来指导架构的敏捷迭代。