免费POC, 零成本试错
AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


Zero-RAG,对冗余知识说“不”

发布日期:2025-11-06 06:57:14 浏览次数: 1529
作者:PaperToday

微信搜一搜,关注“PaperToday”

推荐语

复旦大学邱锡鹏团队提出Zero-RAG技术,通过精准识别和剪除冗余知识,实现检索延迟降低22%且效果不降反升。

核心内容:
1. 揭示LLM与RAG知识高度重叠导致的效率问题
2. Zero-RAG三大核心技术方案解析
3. 实验数据证明剪除30%知识库仍保持性能

杨芳贤
53AI创始人/腾讯云(TVP)最具价值专家

一、LLM 越学越满,RAG 却越搬越重

图 1:知识冗余示意图
  • (a) Llama3.3-70B 在四个 Wikipedia 风格 QA 数据集上裸模型 Exact-Match 召回 ≥40%——说明近一半问题模型本来就会。
  • (b) 把对应维基段落再送进上下文,准确率反而掉 20 分——冗余知识成了"噪声"。

结论:外部 corpus 与模型内部知识高度重叠,继续"全量检索"≈ 白花钱、拖延迟、降效果。

二、30% 维基百科可删,22% 延迟立降,效果不减

复旦大学邱锡鹏提出Zero-RAG。首先提出了"掌握度评分"这一指标,用以精准识别RAG知识库中的冗余知识并进行剪除。经过剪枝后,对于模型已"掌握"的问题,其回答将主要依赖模型自身的内部知识。

表 1:主实验汇总(Llama3-70B vs Llama3.3-70B)

  • 在 TriviaQA、EntityQuestions、PopQA、HotpotQA 上砍掉 30% corpus,EM 掉点 <2;砍 70% 也才掉 3 分左右。
  • 检索延迟平均降低22%(表 4)。
  • 经过 Noise-Tolerant Tuning 后,部分数据集反超市售全库 RAG

一句话:"零冗余"不是口号,是真能剪、真加速、真不掉点。

三、技术方案Zero-RAG

图 4:Zero-RAG 四阶段流水线

3.1 Mastery-Score —— 给每条句子打"掌握度"

图 3:Mastery-Score 计算流程
  1. 用 LLM 对句子 s 生成 n 组 QA。
  2. 让同一 LLM 回答这 n 个问题,算 Exact-Match 均值 ⇒ M(s)。
  3. 训练一个小回归模型预测 M(s),按百分位阈值 τ 直接删掉高分句子(算法见附录 A.1)。

结果:138M 句维基 →  prune 30% 后索引体积同比例缩小。

3.2 Query Router ——"会不会"先问模型,别急着搜

表 3:消融实验
  • 把训练集问题先让 Noise-Tolerant 模型自答,能答对的标 mastered。
  • 二分类器学习"是否 mastered",推理时 mastered 问题直接不走检索,减少延迟 + 避免噪声。

消融显示:拿掉 Router 后 EM 显著下降,证明多检索一次反而添乱

3.3 Noise-Tolerant Tuning —— 万一搜到废文档,也要稳住

训练数据三种配方:

  1. 只给问题 → 答案(无 RAG)
  2. 问题 + 相关文档 → 答案
  3. 问题 + 随机噪声文档 → 答案

统一损失让模型学会忽略无用片段,靠内部知识作答。
经此微调,即使在 prune 后 corpus 里偶尔捞出无关句,模型也能"视而不见"。

四、一图带走:Zero-RAG 到底剪了什么?

表 6:案例研究

句子:"Queen Victoria became Empress of India in 1876."
生成的 4 个 QA 全被 Llama3-70B 裸机答对 ⇒ Mastery-Score=1 ⇒ 直接剪除

这些"教科书级别"的常识,就是 Zero-RAG 眼中该被"零冗余"的靶子。

Zero-RAG: Towards Retrieval-Augmented Generation with Zero
Redundant Knowledge
https://arxiv.org/pdf/2511.00505

53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询