企业级 RAG 知识库架构升级计划

从扁平化向量检索向多智能体层级架构的全面演进

🎯 核心目标与局限性破局

当前局限性痛点 业务影响 升级解决方案
暴力切块与无分块 长文档检索精度极低,丢失语义边界 智能 Markdown 标题分块
单一检索模式 专有名词、精确匹配效果差 混合检索 (向量 + BM25 + Rerank)
无意图识别中枢 无法区分"查定量数据"与"查定性政策" 引入 Intent Router 与 Pandas Agent
无源头追溯与评估 幻觉率高,企业场景不可靠,无法量化质量 前端引用定位 + Ragas 评估体系

📑 四种架构场景选型指南

📄

1. 纯文本聚合检索

场景:海量非结构化文本,规章制度、研究报告、新闻通稿查询。

架构:标准向量 RAG (双路召回策略)

ChromaDB FastGPT
📊

2. 结构化数据智能体

场景:包含加减乘除、对比趋势、生成图表的复杂 Excel 报表或 SQL 库。

架构:Agentic Data Analysis (直接运行计算代码)

Pandas Agent DeepSeek V3
🌳

3. "一超多强"层级文档

场景:数百页超大 PDF 主体,伴随若干零散补充文档。

架构:层级检索 (Hierarchical RAG) / Markdown 树状索引

Markdown 切分 全局缓存预演池
🕸️

4. 海量强关联文档网络

场景:跨文档的历史演变、全行业综述、概念交织推演。

架构:知识图谱 RAG (GraphRAG)

LightRAG 社区摘要发现

🏗️ 全新三层检索与路由架构

用户提问

"2025 年环保政策对轻型商用车 (LCV) 销量的影响是什么?"

第一层:意图识别 (Intent Router)

判断意图:QUERY_ANALYSIS (需要数据 + 政策)
提取实体:{"time": "2025 年", "policy": "环保", "metric": "销量"}

[通道 A] Pandas Agent

1. 挂载加载 LCV 销量表格
2. 计算同比/环比趋势
3. 提取定量下降数据 (-15%)

[通道 B] RAG Agent

1. 检索预演池目录树
2. 精准定位"环保政策"特定章节
3. 仅加载 2-3 个核心 Chunk

第三层:聚合生成 (Synthesizer)

"根据销量数据,2025 年 LCV 销量同比下降 15%。主要原因是环保政策中报废税上调(详见《环保法》§3.2 章节)..."

🚦 核心引擎:智能中枢路由 (Router) 架构解析

🔍 1. 意图感知层
⚙️ 2. 专家执行层
🧠 3. 聚合反思层

Intent Router:精准判断用户的"真实需求"

大堂经理必须在极短的时间内,决定把请求派发给哪些底层工具,防止"文不对题"。

🎯 核心处理逻辑

  • 语义分类 (Semantic Routing):利用轻量级 LLM 快速识别输入特征(是查数值、查政策、还是写报告?)。
  • UI 降维干预:不要过度神化 AI。在前端提供【📊 数据分析】和【📚 文献检阅】等快捷切换开关,让人类意图辅助系统分发,准确率可飙升至 99%。
  • 实体提取:提前抓取"时间(2025)"、"对象(Avtovaz)"等关键词,作为传给底层 Agent 的硬约束。

💻 用户输入模拟

"结合最近发布的新能源政策,算一下 10 月份轻型商用车 (LCV) 的销量跌了多少?" > 解析结果 (JSON): { "tasks": ["query_policy", "calc_sales_drop"], "entities": {"time": "10 月", "category": "LCV"} }

Expert Agents:多线程并行的底层数据处理

拒绝混用!结构化走代码通道,非结构化走向量/预演池通道,双线齐发。

📊 [工具 A] Data Agent (定量)

  • 职责:挂载本地 Excel/SQL 权限。
  • 动作:直接生成 Python 或 SQL 代码执行运算。
  • 防御机制:内置异常捕获(如列名不匹配、遇到 `Value` 脏数据),大模型自主修代码重试。

📚 [工具 B] Doc Agent (定性)

  • 职责:处理上百页的 PDF 或 Word 长文。
  • 动作:通过读取 Markdown 预演池(全局目录) 快速定位相关章节,精准提取原文文本。
  • 优势:避免了将整本手册强行打碎造成的上下文丢失。

Synthesizer:防幻觉的最终质检员

将两路甚至多路召回的结果进行逻辑自洽合并,生成最完美的"人话"。

🛡️ 最终输出与安全控制

  • 交叉验证 (Cross-check):核对 Data Agent 给出的"下降 15%"是否与 Doc Agent 找出的"政策导致销量遇冷"逻辑相符。如果矛盾,触发警报。
  • 生成引文追踪:要求输出必须带来源标签(例如:数据来源:`Top LCV Sheet`; 政策依据:《环保法》3.2 节)。
  • 降级策略:如果 Data Agent 代码执行失败,系统不乱猜数字,而是优雅降级:"已查到相关政策,但销量数据计算失败,请检查 Excel 格式。"

✨ 最终合成报告示例

【结论】10 月份 LCV 市场销量下降 15%。 【原因分析】 根据《新能源政策文件》[3.2 环保与报废税章节],10 月份起报废税大幅上调,这是导致该细分市场销量断崖式下跌(-15%)的核心政策原因。 [注:数据源自 `Sales_Data.xlsx`,依据检索自 `Meta-TOC 缓存`]

⚙️ 运行模式 UI 原型设计

基础模式 (Basic)
适合标准文档查阅与政策搜索
  • 智能 Markdown 分块
  • 层级检索(目录→章节)
  • 引用来源定位标注
  • 意图路由与数据 Agent
  • 跨文档图谱关联
企业模式 (Enterprise)
适合生产环境与高并发科研场景
  • 包含专业模式所有功能
  • GraphRAG (跨文档深度关联)
  • 多轮对话与全量上下文记忆
  • Ragas 评估体系集成
  • 数据质量监控仪表盘

📅 分阶段迭代实施计划

阶段一:层级检索基础构建 (预计 1-2 天)

目标:实现"目录→章节→内容"的精准层级披露,解决扁平化带来的上下文断裂。

  • 文档解析 → Markdown
    接入阿里云 dashscope 文档解析 API,将 PDF/Word 精准转为保留 `#` 标题层级的 Markdown 并入库。
  • 目录提取与 TOC 缓存
    提取文档标题树,建立轻量级的 `document_toc` 预演池。
  • 按章节智能分块 (Chunking)
    废弃按字数死切,改用语义边界切割,为每个 Chunk 附加 `{doc_id, chapter_id, level}` 元数据。
  • 前端溯源引用展示
    回答中必须嵌入来源追踪(如 `[文件 A §3.2]`),支持点击展开原始上下文片段。

阶段二:检索增强策略 (预计 1-2 天)

目标:引入双路召回与重排机制,大幅提升专有名词和边缘概念的检索命中率。

  • 阿里云 gte-rerank 接入
    将初筛的 Top-20 结果送入重排模型,精准筛选出语义最匹配的 Top-5 喂给生成大模型。
  • Supabase 关键词匹配扩展
    启用 PostgreSQL 的 `pg_trgm` 扩展,支持针对品牌名(如 Avtovaz)的精准文本召回。
  • 动态相似度熔断阈值
    设立低置信度过滤门槛,当检索不到高相关度段落时优雅降级,从源头切断"大模型强行瞎编"。

阶段三:意图中枢与数据 Agent (预计 2-3 天)

目标:彻底融合非结构化与结构化数据处理流,实现真正的智能协同。

  • DeepSeek 意图识别 (Intent Router)
    构建前置路由层,精准拆解用户的 `QUERY_FACT` (文本) 与 `QUERY_NUMBER` (数据) 需求。
  • Pandas / DB Agent 挂载
    打通结构化沙盒环境,大模型可直接读取 Excel 或数据库表进行 SQL 运算,生成精准结论。
  • MCP 协议与多 Agent 协同
    定义明确的 Agent 工具边界,测试复杂问题下的并行分发与聚合反思链路。

阶段四:GraphRAG 与评估监控 (预计 3-4 天)

目标:攻克跨文档的全局推演难题,并引入客观的自动化评测打分体系。

  • 全局 Meta-TOC 索引与图谱构建
    通过 LLM 异步梳理跨文档间的关联关系(引用、补充、对立),提取实体构筑轻量级图谱网络。
  • 自动化评测指标建立
    利用 LLM as a Judge 机制,量化监控 `Context Relevance` (召回率) 与 `Faithfulness` (忠实度防幻觉)。
  • 结构化断言拦截脚本
    针对 Pandas Agent 部署严格的数字断言测试集,确保财务与销量数据的 0 容错率。

⚙️ 技术选型与评估矩阵

核心组件技术选型
文档高保真解析 阿里云 dashscope
核心 Embedding text-embedding-v4 (1024 维)
Rerank 重排 阿里云 gte-rerank (后期切 BGE)
意图识别路由 DeepSeek V3 API
数据/量化计算 Python Pandas Agent + MCP
底层数据库 Supabase + pgvector 扩展
系统核心评估指标 (Metrics)
语境相关度
Context Relevance
测算"黄金段落"检索命中率
事实忠实度
Faithfulness
反向验证输出,拦截幻觉瞎编
回答切题度
Answer Relevance
衡量回答是否直接解决用户诉求
结构化精准度
Logic Correctness
对 Agent 执行过程的数字做断言校验
Token 效能比
Token Efficiency
测算单次优质回答的 API 消耗成本

🎯 核心战略设计 (Takeaways)