我要投稿

Meta如何给RAG做Context Engineering，让模型上下文增加16倍

发布日期：2025-09-12 19:35:04 浏览次数： 1916

作者：Zilliz

微信搜一搜，关注“Zilliz”

最近一段时间，Context Engineering（上下文工程）的热度已无需多言，而 Meta 超级智能实验室发布的首篇论文，便聚焦于该领域的核心议题——模型上下文智能压缩，展开了深度研究。

相信在开发 RAG与 Agent时，上下文太长导致输出效果崩掉，几乎做AI 应用人的家常便饭。

其具体体现有二：

长上下文导致了更高内存成本，模型的首 token 生成时间（TTFT）会随之呈二次方增加。

冗余计算严重：RAG 与 Agent 的上下文一般是多个检索段落的组合，段落间的关联几乎为零。但大模型的注意力机制会对所有token 间的关联做计算，导致了大量冗余计算。

在此背景下，Meta团队提出了REFRAG 框架，在仅保留核心内容的原始token情况下，对RAG提供的低相关chunk内容做智能压缩，从而在不损失性能的前提下，实现 30.85 倍 TTFT 加速、将 LLMs 上下文处理长度扩展 16 倍。

经过实测，该方案在 RAG、多轮对话、智能体及 Web 级检索等高吞吐量、低延迟场景中表现尤为突出。

01 如何智能压缩上下文

以下是整个策略的核心流程图演示，整体可以分为三部分：

第一步：上下文分块与压缩

RAG 检索到的长文档，通常动辄几千上万 token，直接丢进 LLM 会让显存和计算成本爆炸。 REFRAG 的做法是：

先把文档切成固定大小的块（chunk）。
每个块经过一个轻量级编码器（比如 RoBERTa）得到块嵌入（chunk embedding）。
再用一个投影层，把这些嵌入映射到与解码器 token embedding 相同的维度。

这样做的好处是：LLM 不再处理每个原始 token，而是处理“压缩后的一整个块”。如果一个块里原来有 k 个 token，现在只用一个 embedding 来表示，那么输入长度就缩短了约 k倍，显著减少注意力计算量和显存占用。

第二步：选择性扩展与自回归保留

光压缩可能会丢失信息，尤其是对关键块（比如问题答案所在段落）。REFRAG 引入了一个 RL（强化学习）策略，用来动态决定：哪些块必须保留原始 token（不压缩），以保证信息完整。哪些块可以用压缩的embedding代替。

这样就能兼顾准确性和效率。同时，因为 LLM 是自回归生成的（依赖前文 token），REFRAG 的方法保证了原始 token 仍能参与生成，不破坏上下文连续性。这对多轮对话等场景尤其重要。

第三步：高效推理与上下文扩展

REFRAG 还有两点优化：

复用检索阶段的块嵌入：RAG 在检索时已经算过一次 chunk embedding，推理时直接拿来用，省掉冗余计算。
注意力复杂度下降：普通注意力是和 token 数量成平方增长的。如果每个 chunk 代表一组 token，复杂度就变成和 chunk 数量平方关系，大幅降低。

整体结果来看，该方案在短上下文下，可以实现 k 倍的首 token 延迟（TTFT）加速；在长上下文下，加速比最高可达 k的平方倍。同时，该方案还能把 LLM 的上下文长度扩展到 16 倍以上。

02 关键技术细节

REFRAG 的方法体系围绕 “让编码器与解码器高效协同处理长上下文” 展开，核心流程分为三个阶段：

1.编码器 - 解码器对齐

持续预训练（CPT）以 “下一段预测任务” 为核心：每个训练样本含 s 个前序 token 和 o 个后续 token（共 T 个），将前 s 个输入编码器，其输出用于辅助解码器预测后 o 个 token。

目标是让解码器基于压缩上下文（编码器输出）的生成结果，尽可能接近基于完整上下文的结果，为下游任务（如 RAG）奠定基础。

2.CPT 的关键训练方案（保障对齐效果）

（1）重建任务：先冻结解码器，仅训练编码器和投影层 —— 让编码器输入 s 个 token 后，能生成让解码器准确重建出这 s 个 token 的嵌入。目的是确保编码器压缩信息损失最小、投影层能将嵌入转换为解码器可理解的格式，同时迫使解码器依赖输入的上下文记忆（而非自身参数）。完成后解冻解码器，正式启动 CPT。

（2）课程学习：因直接训练难度大（块长度 k 增加会导致 token 组合呈指数级增长），采用 “从简到难” 的训练策略：先让模型用单个块嵌入重建 k 个 token，再逐步增加块数量和重建长度；训练数据也从以简单任务为主，逐渐过渡到以复杂任务为主，帮助模型循序渐进掌握能力。

3.性能增强：选择性压缩与下游适配

（1）选择性压缩：引入 RL 策略，以 “下一段预测困惑度” 为负奖励（困惑度越高说明块越重要），决定保留哪些上下文块的原始形式（不压缩），仅压缩次要块；同时微调编码器和解码器，使其适配 “压缩 + 未压缩” 混合输入，兼顾效率与性能。

（2）下游适配：完成 CPT 和选择性压缩优化后，通过有监督微调（SFT）让模型适配具体下游任务（如 RAG、多轮对话）。