面向复杂数据环境的系统架构演进与 MediaAgent 落地指南
场景:海量非结构化文本,规章制度、研究报告、新闻通稿查询。
架构:标准向量 RAG (双路召回策略)
场景:包含加减乘除、对比趋势、生成图表的复杂 Excel 报表或 SQL 库。
架构:Agentic Data Analysis (直接运行计算代码)
场景:数百页超大 PDF 主体,伴随若干零散补充文档。
架构:层级检索 (Hierarchical RAG) / Markdown 树状索引
场景:跨文档的历史演变、全行业综述、概念交织推演。
架构:知识图谱 RAG (GraphRAG)
大堂经理必须在极短的时间内,决定把请求派发给哪些底层工具,防止“文不对题”。
拒绝混用!结构化走代码通道,非结构化走向量/预演池通道,双线齐发。
将两路甚至多路召回的结果进行逻辑自洽合并,生成最完美的“人话”。
数据来源: Top LCV Sheet; 政策依据: 《环保法》 3.2节)。| 评估维度 | 场景 1: 纯文本 (Vector) | 场景 2: 结构化 (Agent) | 场景 3: 一大一小 (Hierarchy) | 场景 4: 强关联 (Graph) |
|---|---|---|---|---|
| 精准度 (Accuracy) 事实忠实度及召回率 |
中等 (易漏边缘信息) | 极高 (确定性计算) | 较高 (章节逻辑连贯) | 最高 (全局推理防幻觉) |
| Token 消耗 (Cost) API 调用与建库成本 |
极低 (仅匹配碎片) | 中 (受限于试错重试) | 极低 (命中目录缓存) | 极高 (大模型通读建图) |
| 响应速度 (Speed) 用户端感知延迟 |
极快 (毫秒级检索) | 中/慢 (代码执行延迟) | 最快 (逐级递进查询) | 中 (图谱节点遍历) |
| 工程落地门槛 框架成熟度与开发难度 |
门槛低 (生态极度完善) | 中 (需治理脏数据拦截) | 中等 (需重写解析规则) | 门槛最高 (涉及图数据库) |