免费POC, 零成本试错
AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


我要投稿

增强型RAG还是Agentic RAG?一场关于检索增强生成系统的全面对比实验

发布日期:2026-01-21 08:51:08 浏览次数: 1541
作者:AI帝国

微信搜一搜,关注“AI帝国”

推荐语

两种RAG范式大PK:增强型还是Agentic?实验数据揭示最佳选择。

核心内容:
1. 基础RAG系统的四大短板与改进需求
2. 增强型RAG与Agentic RAG的架构差异与实现方式
3. 四大数据集上的性能对比与成本效益分析

杨芳贤
53AI创始人/腾讯云(TVP)最具价值专家


当LLM遇到知识库,检索增强生成(Retrieval-Augmented Generation,RAG)系统应运而生。但随着技术演进,两种截然不同的范式正在争夺主导地位:一种是通过精心设计的模块链条逐步优化的"增强型RAG",另一种是让LLM自主决策、动态调整的"Agentic RAG"。哪种方案更值得采用?成本与性能如何权衡?论文通过大规模实验给出了答案。

问题的核心:基础RAG的四大短板

论文指出,最简单的RAG系统(称为"朴素RAG")存在明显缺陷:即使用户查询不需要外部知识,系统也会强制执行检索;查询与知识库文档在格式或语义上存在错配,导致检索效果不佳;检索结果可能包含噪声或次优文档;底层LLM的能力、成本和响应时间差异巨大。

为解决这些问题,业界发展出两条路径。增强型RAG通过添加专门模块来修补漏洞:路由器判断是否需要检索,查询重写器调整查询格式,重排序器筛选最相关文档。而Agentic RAG则让LLM成为"指挥官",自主决定何时检索、如何改写查询、是否需要迭代——整个流程不再是固定管道,而是灵活的决策循环

[Figure 1: 增强型RAG与Agentic RAG的架构对比] 左侧展示增强型RAG的固定流程:路由器→查询重写器→检索器→重排序器→生成器,每个模块负责特定任务。右侧展示Agentic RAG的动态流程:LLM作为agent在每一步自主选择是否调用RAG工具,可以多次迭代检索和上下文优化。

实验设计:四个维度的正面交锋

论文选取了四个代表性数据集进行测试:金融问答(FIQA)、通用问答(Natural Questions,NQ)、事实验证(FEVER)和论坛问题匹配(CQADupStack-English),覆盖了问答(QA)和信息检索提取(IR/E)两大应用场景。

[Table 1: 评估维度总结] 针对朴素RAG的每个缺陷,论文定义了评估维度和对应的实现方案。增强型RAG使用语义路由、HyDE查询重写和编码器重排序;Agentic RAG则由agent自主决策是否检索、如何重写查询以及是否重复检索。

用户意图处理方面,增强型RAG使用semantic-router框架,通过示例查询集合进行分类;Agentic RAG则依靠LLM自行判断。实验在每个数据集上测试了500个有效查询和500个无效查询。

查询重写方面,增强型RAG强制执行HyDE方法(将查询改写为回答该问题的段落);Agentic RAG可自由决定是否重写及如何重写。评估指标采用NDCG@10(Normalized Discounted Cumulative Gain,归一化折损累积增益),衡量检索文档的排序质量。

[Table 2: 数据集概览] 四个数据集的查询数量从648到6666不等,文档数量从4万到268万不等,每个查询平均关联1.2到2.6个相关文档。

文档列表优化方面,增强型RAG使用基于ELECTRA的重排序模型筛选前20个候选文档;Agentic RAG通过多轮检索迭代优化上下文。

底层LLM影响方面,论文测试了Qwen3系列的四个规模模型(0.6B、4B、8B、32B参数),使用LLM-as-a-Judge范式(Selene-70B模型)评估最终答案质量。

实验结果:各有千秋的性能表现

在用户意图处理上,Agentic RAG在金融问答和论坛匹配任务中表现更优,F1分数分别达到98.8和99.8,而增强型RAG为95.7和96.6。但在事实验证任务(FEVER)中,增强型RAG以87.9的F1分数大幅领先Agentic RAG的64.6。论文分析认为,金融和语法论坛有明确的领域边界,agent更容易判断;而事实验证任务范围宽泛,agent难以准确识别哪些查询需要检索。

[Table 3: 用户意图处理性能] 在500个有效和无效查询的测试中,朴素RAG对所有查询都执行检索(召回率100%但F1仅66.7)。Agentic RAG在FIQA和CQA-EN上F1分数接近100,但在FEVER上召回率仅49.3。

查询重写带来了显著提升。Agentic RAG在四个数据集上的平均NDCG@10达到55.6,比朴素RAG提高5.3个百分点,比增强型RAG高2.8个百分点。论文认为,agent能够根据具体情况灵活决定是否重写以及如何重写,这种自适应能力是其优势所在

[Table 4: 查询重写性能] 朴素RAG直接使用原始查询,平均NDCG@10为50.3。增强型RAG通过HyDE重写提升至52.8,Agentic RAG达到55.6。在FEVER任务上,Agentic RAG的NDCG@10达到83.1,比朴素RAG高出16.9个百分点。

文档列表优化方面,增强型RAG的重排序模块效果明显。在金融问答任务中,增强型RAG(含重写)的NDCG@10为51.0,而Agentic RAG仅为43.4。论文发现,agent虽然可以多次迭代检索,但无法像专门的重排序模型那样有效筛选最相关文档

[Table 5: 文档列表优化性能] 朴素RAG的NDCG@10为45.5,增强型RAG通过重排序提升至49.5,而Agentic RAG反而下降至43.9。这表明显式的重排序步骤对提升检索质量至关重要。

底层LLM规模的影响在两种范式中呈现相似趋势。随着模型参数从0.6B增加到32B,两种系统的性能都稳步提升,且提升幅度相当。这说明模型能力的改进对两种范式的影响是一致的。

[Figure 2: 不同规模LLM的性能表现] 在FIQA任务上,随着模型规模增大,两种系统的分类指标都从约50%提升至95%左右。在CQADupStack-EN任务上,更大模型生成的答案被判定为更优的比例也呈现相同的上升趋势。

[Table 6: Qwen3系列模型性能] 在通用能力(GPQA-D)、指令遵循(IFEVAL)和数学推理(AIME)三个基准测试中,0.6B模型平均得分26.9,而32B模型达到78.3,显示出显著的能力差距。

成本与时间:不容忽视的现实考量

Agentic RAG的灵活性是有代价的。在金融问答任务中,Agentic RAG平均消耗的输入token数是增强型RAG的2.7倍,输出token数是1.7倍;在论坛匹配任务中,这一差距扩大到3.9倍和2.0倍。响应时间方面,Agentic RAG平均慢1.5倍。

论文详细分析了成本构成:两种系统都需要t3.large EC2实例运行向量数据库(每小时0.09美元)和t2.medium实例运行后端(每小时0.05美元)。开源LLM部署在8×A40 GPU集群上,等效AWS成本约每小时1.9美元。增强型RAG的重排序模型(300M参数)成本可忽略不计。

在增强型RAG中,约45-50%的时间用于生成答案,类似比例用于查询重写,检索和重排序各占0-5%和0-2%。这意味着优化重点应放在LLM调用上。

[Table 9: 时间与token消耗对比] 详细列出了两种系统在不同任务上的平均输入/输出token数和响应时间。Agentic RAG在所有场景下都消耗更多资源,但具体倍数因任务而异。

写在最后:没有银弹,只有权衡

论文的结论清晰而务实:增强型RAG和Agentic RAG各有优劣,选择取决于具体场景

在领域明确、用户行为结构化的场景中,Agentic RAG的自主判断能力更有价值;但在领域宽泛或噪声较多的环境中,增强型RAG的路由系统更可靠。查询重写方面,Agentic RAG的动态适应能力带来更好的检索质量。然而,在文档筛选上,增强型RAG的显式重排序模块明显更有效——论文建议将重排序步骤整合到Agentic流程中可能带来显著收益

成本分析揭示了一个关键事实:Agentic RAG的灵活性以高达3.6倍的成本为代价。对于预算敏感的应用,精心优化的增强型RAG可以在保持或超越Agentic性能的同时,显著降低开支。

论文也坦诚指出了研究的局限:未涵盖文档摘要、上下文重排等维度;agent仅配备单一工具,更复杂的工具集可能产生不同结果;每个增强型RAG模块的实现方案未进行全面对比。

最终建议:根据应用场景的领域特性、成本预算和性能要求,在两种范式间做出明智选择,而非盲目追逐新技术

论文原文:Is Agentic RAG worth it? An experimental comparison of RAG approaches 

论文链接:https://arxiv.org/pdf/2601.07711


#无影寺

53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询