微信扫码
添加专属顾问
我要投稿
Passage Injection技术让RAG系统在噪声数据中保持清醒,显著提升大语言模型处理知识密集型任务的可靠性。核心内容:1. RAG系统面临的噪声数据挑战及现有解决方案的不足2. Passage Injection方法的工作原理与创新点3. 在四种事实问答数据集上的实验验证与性能提升
大模型研习社
王哥儿
欢迎扫码关注
专注于大模型论文知识分享
碎碎念
|持续学习、持续分享
一句话概括:论文提出的 Passage Injection 方法通过将检索到的段落明确融入大型语言模型的推理过程,在四种事实问答数据集上显著提升了检索增强生成(RAG)系统的整体性能,尤其增强了模型对含噪声段落(包括随机噪声和反事实噪声)的鲁棒性,同时还能有效利用有用段落。
摘要:检索增强生成(RAG)已广泛应用于为大型语言模型(LLM)引入外部知识,以应对知识密集型任务。然而,检索到的段落中往往存在噪声(即低质量内容),严重削弱了 RAG 的效果。提升 LLM 对这种噪声的鲁棒性,对于增强 RAG 系统的可靠性至关重要。近期研究赋予 LLM 强大的推理与自我反思能力,使其能够发现并纠正推理过程中的错误。受此启发,我们提出一种简单而有效的方法——Passage Injection,该方法显式地将检索到的段落纳入 LLM 的推理过程,从而增强模型识别并抵御噪声段落的能力。我们在通用 RAG 场景下,以 BM25 作为检索器,对 Passage Injection 进行了验证。实验涵盖四种经过推理增强的 LLM 及四个事实问答数据集,结果表明 Passage Injection 显著提升了整体 RAG 性能。进一步在两种噪声检索场景——随机噪声(提供无关段落)与反事实噪声(提供误导性段落)——的分析显示,Passage Injection 始终增强了系统的鲁棒性。对照实验还证实,Passage Injection 同样能够有效利用有益段落。这些发现表明,将检索段落纳入 LLM 的推理过程是构建更鲁棒 RAG 系统的有前景的方向。
论文标题: "Injecting External Knowledge into the Reasoning Process Enhances Retrieval-Augmented Generation"
作者: "Minghao Tang , Shiyu Ni , Jiafeng Guo , Keping Bi"
会议/期刊: "arXiv"
发表年份: 2025
原文链接: "https://arxiv.org/pdf/2507.19333"
关键词: ["检索增强生成", "段落注入", "大语言模型", "鲁棒性增强", "噪声处理"]
检索增强生成(Retrieval-Augmented Generation, RAG)技术已成为大语言模型(Large Language Models, LLM)处理知识密集型任务的标配。它像一位"勤奋的助理",会先从知识库中检索相关文档,再结合这些信息生成答案。但这个助理有个致命弱点——容易被"假新闻"欺骗。
想象这样一个场景:当问"杰米·多南是哪个国家的公民?"时,系统检索到的段落错误地称"北爱尔兰是美国的一部分"。传统的Vanilla RAG会毫不犹豫地采信这个错误信息,给出"美国"的答案。而论文提出的段落注入(Passage Injection) 方法却能像经验丰富的侦探,从噪声中辨别真相,正确回答"英国"(如图1所示)。
在信息爆炸的时代,网络数据中充斥着错误、偏见和过时内容。如何让RAG系统在这样的环境中保持推理的准确性和可靠性?这正是本文要解决的核心问题。
论文提出的段落注入(Passage Injection) 方法,本质上是给LLM的推理过程加装了一个"信息过滤器"。它不再像Vanilla RAG那样简单地将检索到的段落附加在 prompt 末尾,而是显式地将段落内容整合到推理步骤中,让模型学会辨别哪些信息值得信任,哪些需要忽略。
具体来说,Passage Injection通过以下三个关键步骤实现抗干扰能力:
这种设计就像给学生提供参考资料时,同时教会他们如何辨别文献的可信度,而不是盲目引用。
传统RAG将所有检索到的段落一股脑喂给模型,而Passage Injection会先对段落进行标记和分类。例如在处理"杰米·多南国籍"问题时,系统会将检索到的段落标记为:
模型被明确要求对每个段落的可信度进行评估:
"请分析以下段落与问题的相关性及可信度,对每个段落给出信任分数(1-5分),并说明理由。"
在示例中,模型会识别出段落2存在事实错误,给予低信任分数(2分),而段落1和3获得高分(4-5分)。
最后模型仅基于高可信度段落生成答案,并解释推理过程:
"根据段落1和3,杰米·多南出生于北爱尔兰贝尔法斯特,而北爱尔兰是英国的一部分,因此正确答案是英国。段落2存在事实错误,北爱尔兰并非美国领土,故不予采信。"
Table 1显示,在四个主流问答数据集(2WikiMultihopQA(Bridge/Comparison/Compose/Inference)、HotpotQA、CWQ、PopQA)上,Passage Injection在所有模型规模上均优于Vanilla RAG和Instruction Injection方法:
特别值得注意的是,在Qwen-32B模型上,Passage Injection实现了72.79%(CWQ)和47.40%(2WikiMultihopQA-Inference)的最佳成绩,证明其在复杂推理任务上的优势。
Figure 2展示了在两种噪声设置下的性能对比:
结果显示,随着噪声比例增加,传统方法性能急剧下降,而Passage Injection保持稳定。在高噪声环境(噪声比例60%)下,Passage Injection的F1分数比Vanilla RAG高出15.3%。
即使在仅使用"黄金段落"(经过人工验证的准确信息)的理想条件下,Passage Injection依然表现出色。Figure 3显示,其性能与Vanilla RAG相当,证明该方法不会损害在优质数据上的表现:
Table 2对比了不同方法的输出长度,发现Passage Injection在保持准确性的同时,平均输出长度减少约40%:
这意味着在实际应用中,Passage Injection能节省带宽并加快响应速度,特别适合移动端和低带宽场景。
●基于GRPO强化学习训练,让模型边推理边搜索,提升模型推理能力!
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2025-08-23
大模型应用开发之RAG基本原理
2025-08-23
从 EchoLeak 到 AgentFlayer:RAG 系统面临的间接 Prompt 注入威胁与防御
2025-08-23
数据"烹饪"艺术:如何为RAG系统准备完美食材
2025-08-23
RAG关键技术:向量+标量混合检索
2025-08-23
RAG关键技术:问题改写(Query Rewriting/Transformation)
2025-08-23
RAG 已死,上下文工程当立
2025-08-23
小白也能轻松看懂的RAG!!!
2025-08-22
让AI更懂业务:LinkAI对知识库RAG技术的优化实践
2025-05-30
2025-06-05
2025-06-06
2025-06-05
2025-05-27
2025-06-05
2025-06-20
2025-06-24
2025-07-15
2025-06-20
2025-08-20
2025-08-11
2025-08-05
2025-07-28
2025-07-09
2025-07-04
2025-07-01
2025-07-01