我要投稿

Passage Injection：让RAG系统在噪声数据中仍保持清醒的推理能力

发布日期：2025-08-23 19:55:07 浏览次数： 1795

作者：大模型论文研习社

微信搜一搜，关注“大模型论文研习社”

碎碎念

｜持续学习、持续分享

一句话概括：论文提出的 Passage Injection 方法通过将检索到的段落明确融入大型语言模型的推理过程，在四种事实问答数据集上显著提升了检索增强生成（RAG）系统的整体性能，尤其增强了模型对含噪声段落（包括随机噪声和反事实噪声）的鲁棒性，同时还能有效利用有用段落。

摘要：检索增强生成（RAG）已广泛应用于为大型语言模型（LLM）引入外部知识，以应对知识密集型任务。然而，检索到的段落中往往存在噪声（即低质量内容），严重削弱了 RAG 的效果。提升 LLM 对这种噪声的鲁棒性，对于增强 RAG 系统的可靠性至关重要。近期研究赋予 LLM 强大的推理与自我反思能力，使其能够发现并纠正推理过程中的错误。受此启发，我们提出一种简单而有效的方法——Passage Injection，该方法显式地将检索到的段落纳入 LLM 的推理过程，从而增强模型识别并抵御噪声段落的能力。我们在通用 RAG 场景下，以 BM25 作为检索器，对 Passage Injection 进行了验证。实验涵盖四种经过推理增强的 LLM 及四个事实问答数据集，结果表明 Passage Injection 显著提升了整体 RAG 性能。进一步在两种噪声检索场景——随机噪声（提供无关段落）与反事实噪声（提供误导性段落）——的分析显示，Passage Injection 始终增强了系统的鲁棒性。对照实验还证实，Passage Injection 同样能够有效利用有益段落。这些发现表明，将检索段落纳入 LLM 的推理过程是构建更鲁棒 RAG 系统的有前景的方向。

论文标题: "Injecting External Knowledge into the Reasoning Process Enhances Retrieval-Augmented Generation"
作者: "Minghao Tang , Shiyu Ni , Jiafeng Guo , Keping Bi"
会议/期刊: "arXiv"
发表年份: 2025
原文链接: "https://arxiv.org/pdf/2507.19333"
关键词: ["检索增强生成", "段落注入", "大语言模型", "鲁棒性增强", "噪声处理"]

研究背景：当RAG遇上"假新闻"

检索增强生成（Retrieval-Augmented Generation, RAG）技术已成为大语言模型（Large Language Models, LLM）处理知识密集型任务的标配。它像一位"勤奋的助理"，会先从知识库中检索相关文档，再结合这些信息生成答案。但这个助理有个致命弱点——容易被"假新闻"欺骗。

想象这样一个场景：当问"杰米·多南是哪个国家的公民？"时，系统检索到的段落错误地称"北爱尔兰是美国的一部分"。传统的Vanilla RAG会毫不犹豫地采信这个错误信息，给出"美国"的答案。而论文提出的段落注入（Passage Injection） 方法却能像经验丰富的侦探，从噪声中辨别真相，正确回答"英国"（如图1所示）。

图1：Vanilla RAG与Passage Injection处理误导性信息对比

在信息爆炸的时代，网络数据中充斥着错误、偏见和过时内容。如何让RAG系统在这样的环境中保持推理的准确性和可靠性？这正是本文要解决的核心问题。

方法总览：给LLM装上"信息过滤器"

论文提出的段落注入（Passage Injection） 方法，本质上是给LLM的推理过程加装了一个"信息过滤器"。它不再像Vanilla RAG那样简单地将检索到的段落附加在 prompt 末尾，而是显式地将段落内容整合到推理步骤中，让模型学会辨别哪些信息值得信任，哪些需要忽略。

具体来说，Passage Injection通过以下三个关键步骤实现抗干扰能力：

1. 段落标记：明确标识检索到的段落边界和来源
2. 推理引导：通过指令引导模型分析每个段落的可靠性
3. 证据整合：要求模型基于可信证据生成最终答案

这种设计就像给学生提供参考资料时，同时教会他们如何辨别文献的可信度，而不是盲目引用。

关键结论：三项突破性发现

1. 噪声环境下性能跃升：在包含随机无关段落（随机噪声）和故意误导段落（反事实噪声）的测试中，Passage Injection平均F1分数比传统方法提升8-12%
2. 模型通用性强：在Qwen-8B到Qwen-32B等不同规模模型上均表现稳定，尤其在Distill-Qwen-32B上实现了43.84%的平均F1分数（Table 1）
3. 效率与准确性兼顾：在提升性能的同时，输出长度减少约40%，避免了冗余信息（Table 2）

深度拆解：Passage Injection如何工作？

步骤1：问题与段落的精准匹配

传统RAG将所有检索到的段落一股脑喂给模型，而Passage Injection会先对段落进行标记和分类。例如在处理"杰米·多南国籍"问题时，系统会将检索到的段落标记为：

• 段落1：包含杰米·多南出生地信息（北爱尔兰贝尔法斯特）
• 段落2：错误声称"北爱尔兰是美国领土"
• 段落3：介绍北爱尔兰与英国的关系

步骤2：推理过程中的证据评估

模型被明确要求对每个段落的可信度进行评估：

"请分析以下段落与问题的相关性及可信度，对每个段落给出信任分数（1-5分），并说明理由。"

在示例中，模型会识别出段落2存在事实错误，给予低信任分数（2分），而段落1和3获得高分（4-5分）。

步骤3：基于可信证据的答案合成

最后模型仅基于高可信度段落生成答案，并解释推理过程：

"根据段落1和3，杰米·多南出生于北爱尔兰贝尔法斯特，而北爱尔兰是英国的一部分，因此正确答案是英国。段落2存在事实错误，北爱尔兰并非美国领土，故不予采信。"

性能验证：跨模型跨数据集的一致优势

Table 1显示，在四个主流问答数据集（2WikiMultihopQA(Bridge/Comparison/Compose/Inference)、HotpotQA、CWQ、PopQA）上，Passage Injection在所有模型规模上均优于Vanilla RAG和Instruction Injection方法：