我要投稿

AI检索增强中路由模型的使用

发布日期：2025-10-28 13:06:47 浏览次数： 1694

作者：LeionX

微信搜一搜，关注“LeionX”

分享与检索增强式生成相关的项目中的一个技术点

也就是在多轮的对话中

当用户提出问题之后

我们是否需要一个专门的步骤

或者说使用一个路由模型来判断用户所提出的这个问题是否需要文档检索

还是不检索文档，由背后的模型来直接回答

那么为什么需要这么一个步骤

举例来说

比如在对话中

用户提出一个问题

“请使用表格或者流程图对上面的内容进行总结”

很显然

用户提出这个问题是不需要去检索文档的

（因为用户这里只是想总结之前的内容）

但是用户提出的这个问题中包含了一些高频的关键词

比如'流程图', '表格', '总结'

而如果我们的系统默认是要去检索文档的

根据这些关键词就会检索到很多无关的文档

然后基于这些无关的文档以及我们之前的上下文来进行回答

很有可能最终的回答就会被这些引入的无关文档带偏

尤其是对于参数量级比较小的模型

比如 7B 14B

那么对于参数量级较大的影响可能比较小

比如你使用的是 DeepSeek 的满血版

那么我们如何决定是否需要增加这样一个路由步骤来判断用户的问题是否需要文档检索呢

这里要考虑两方面的因素

第一是刚才提到的模型的量级

那么这个决定了模型抗干扰, 抗噪音的一个能力

第二是要权衡其中的成本以及收益

成本是两方面的

第一, 由于我们单独又引入了一个模型请求来判断问题是否需要文档检索

那么就会增加第一个推理成本

第二, 时间成本一定会增(响应速度延迟)

收益则是经过模型的判断

不需要检索文档的问题会跳过检索步骤从而排除掉噪声(没有引入无关文档)

更好的回答用户的问题

而我们要做决定考虑的就是平衡这两点

当然这里一定会使用一个相对较小的模型来做这个路由模型

同样也是出于推理成本以及时间的考量

这里很重要的一个细节就是用户提出的问题通常不是第一个问题

因为用户在使用基于 AI 的对话功能时

不管是否引入了检索增强式生成

在面对第一个问题时

通常会给出比较完整的问题的上下文背景信息的介绍

所以通常我们默认第一个问题是需要检索的(当然也可以根据实情调整策略)

从第二个问题开始就有可能出现刚才所描述的检索了反而会下降回答质量的情况

所以说在做检索增强式生成相关的功能时

我们需要增加是否使用路由模型以及如何使用的考量

怎么实现就要看项目相关的具体情况

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2025-12-10

最新力作：一招提升RAG检索精度20%

2025-12-10

Apple 入局 RAG：深度解析 CLaRa 框架，如何实现 128x 文档语义压缩？

2025-12-09

客服、代码、法律场景适配：Milvus Ngram Index如何百倍优化LIKE查询| Milvus Week

2025-12-09

一键把碎片变成有料笔记：NoteGen，一款跨平台的 Markdown 笔记应用

2025-12-07

Embedding模型选型思路：相似度高不再代表检索准确（文末附实战指南）

2025-12-06

Palantir Ontology 助力AIP Agent落地工具介绍：Object Query

2025-12-05

把AI记忆做好，是一个价值6千亿美元的市场

2025-12-05

我错了，RAG还没完！AI记忆的结合会成为下一个技术风口

了解更多

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

RAG彻底爆了！一文掌握其效果优化的架构设计及核心要点

2025-09-15

Embedding与Rerank：90%的RAG系统都搞错了！为什么单靠向量检索会毁了你的AI应用？

2025-10-04

企业级 RAG 系统实战（2万+文档）：10 个项目踩过的坑（附代码工程示例）

2025-10-11

存算一体破局向量检索瓶颈，IBM放出王炸VSM：性能飙升100倍，能效碾压GPU千倍，RAG要变天？

2025-09-30

总结了 13 个顶级 RAG 技术

2025-10-12

RAG 深度解读：检索增强生成如何改变人工智能

2025-12-04

大模型生态的“不可能三角”：规模化应用的架构困境？

2025-11-04

RAGFlow 深度介绍

2025-10-31

RAGFlow v0.22.0 发布：数据源同步、变量聚合、全新管理界面与多项重大更新

2025-11-13

任何格式RAG数据实现秒级转换！彻底解决RAG系统中最令人头疼的数据准备环节

2025-10-12

大家都在问

Apple 入局 RAG：深度解析 CLaRa 框架，如何实现 128x 文档语义压缩？

2025-12-10

RAG知识库迎来大洗牌：GraphRAG如何让机器真正读懂世界？

2025-11-23

再谈RAG的文档解析——文档解析的难点在哪里？

2025-11-20

为什么RDF是AI系统的“天然知识层”？

2025-11-19

大模型生态的“不可能三角”：规模化应用的架构困境？

2025-11-04

Embedding与Rerank：90%的RAG系统都搞错了！为什么单靠向量检索会毁了你的AI应用？

2025-10-04

存算一体破局向量检索瓶颈，IBM放出王炸VSM：性能飙升100倍，能效碾压GPU千倍，RAG要变天？

2025-09-30

您应该为您的 RAG 系统使用哪种分块技术？

2025-09-10

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS 提示词框架提示词技巧 AI+电商 AI面试数字员工 ChatBI AI知识库开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB