微信扫码
添加专属顾问
我要投稿
Apple 最新 CLaRa 框架突破 RAG 技术瓶颈,实现 128 倍文档压缩,彻底重构检索增强生成范式。核心内容: 1. CLaRa 框架的核心理念:从原始文本到连续记忆 Token 的转变 2. 显著压缩器预训练 (SCP) 的关键技术与监督信号设计 3. 双重损失函数优化与 16x-128x 压缩率下的性能表现
在当前的检索增强生成(RAG)系统中,我们面临着一个经典的“不可能三角”:上下文窗口的限制、检索准确性与推理效率之间的矛盾。传统的 RAG 往往将检索器(Retriever)和生成器(Generator)作为两个割裂的系统进行优化,导致大量 Token 被粗暴地塞入上下文窗口,不仅造成了计算资源的浪费(Double Encoding),更引入了大量的噪声。
近日,Apple 与爱丁堡大学的研究团队联合发布了 CLaRa (Continuous Latent Reasoning) 框架。这是一种全新的“压缩原生”(Compression-Native)RAG 范式。CLaRa 不再检索原始文本,而是将文档压缩为“连续记忆 Token”(Continuous Memory Tokens),并在共享的潜在空间中同时执行检索与生成。本文将深度剖析 CLaRa 的核心架构、压缩机制及其在 16x 至 128x 压缩率下的惊人表现。
传统的 RAG 流程是:Chunking -> Embedding -> Retrieval -> Top-K Raw Text -> Generation。 CLaRa 的核心改变在于,它认为原始文本并非机器理解的最佳载体。
CLaRa 引入了一个语义压缩器(Semantic Compressor),为每个文档分配少量的“记忆 Token”(Memory Tokens)。这些 Token 不是简单的文本摘要,而是文档在潜在空间(Latent Space)中的深度语义表示。
CLaRa 的基础模型采用了 Mistral-7B 架构,并利用 LoRA(Low-Rank Adaptation)适配器在“压缩器”和“生成器”两种角色间切换。
为了保证压缩质量,研究团队设计了一个验证闭环(Verification Loop):检查生成内容的事实一致性和覆盖率。如果不合格,会重新生成问题或重述,最多尝试 10 轮。
在 SCP 阶段,模型通过两个关键的损失函数进行优化:
技术洞察:MSE 损失虽然简单,但至关重要。实验表明,它在 32x 和 128x 高压缩率下能带来 0.3 到 0.6 的 F1 分数提升,确保了压缩后的表示不会偏离原始语义区域。
CLaRa 的最大创新在于打破了检索与生成的界限。在离线压缩完成后,文档在系统中仅以“记忆 Token”的形式存在。
系统在同一骨干网络(Backbone)上训练了一个“查询推理器”。这也是一个 LoRA 适配器,它的作用是将用户的自然语言问题映射为与文档相同数量的“记忆 Token”。
此时,检索过程回归到了最纯粹的Embedding 相似度计算:
传统 RAG 的痛点在于:检索器认为重要的文档,生成器未必觉得有用。CLaRa 通过一种巧妙的机制解决了这个问题:
通过 Softmax 分布,来自生成器(最终答案预测)的梯度可以流回查询推理器。 这意味着:生成器在通过梯度下降告诉检索器,“你应该检索哪些文档才能让我答对问题”。
虽然原文未提供完整 Python 代码,但其核心训练逻辑可抽象如下:
# 伪代码示意 CLaRa 的端到端训练流
def train_step(query, answer, candidate_docs):
# 1. 查询编码
query_tokens = query_reasoner(query)
# 2. 计算相似度 (检索)
doc_scores = cosine_similarity(query_tokens, candidate_docs.memory_tokens)
# 3. 可微 Top-K 选择 (关键 Trick)
# 前向传播选出具体的 docs,反向传播利用 softmax 梯度
selected_docs_Rep = differentiable_top_k(candidate_docs, doc_scores)
# 4. 生成答案
# 将查询和选中的压缩文档表示拼接
input_repr = concat(query_tokens, selected_docs_Rep)
prediction = generator(input_repr)
# 5. 计算损失 (仅使用答案的 Next Token Prediction Loss)
loss = cross_entropy(prediction, answer)
# 6. 反向传播:梯度从 Loss -> Generator -> Query Reasoner
loss.backward()
研究团队对梯度流向的分析揭示了两个有趣的现象:
CLaRa 在 Natural Questions, HotpotQA, MuSiQue 和 2WikiMultihopQA 四个数据集上进行了严格测试。
在检索 Top-5 文档的常规设置下:
当金标准文档(Gold Document)确保存于候选集中时:
Apple 研究团队已在 Hugging Face 上发布了三个模型:CLaRa-7B-Base、CLaRa-7B-Instruct 和 CLaRa-7B-E2E。其中 Instruct 版本内置了 16x 和 128x 的文档压缩能力。
CLaRa 的出现标志着 RAG 技术的一个重要转折点:它不再将压缩和联合优化视为事后的补救措施,而是作为“一等公民”构建在系统核心。通过可微 Top-K 估计器和单一语言模型损失,CLaRa 证明了统一连续潜在推理(Unified Continuous Latent Reasoning) 是替代传统“切片+检索”模式的可信方案。
对开发者的建议:
关注我们,一起进步,一起成长!
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2025-12-10
最新力作:一招提升RAG检索精度20%
2025-12-09
客服、代码、法律场景适配:Milvus Ngram Index如何百倍优化LIKE查询| Milvus Week
2025-12-09
一键把碎片变成有料笔记:NoteGen,一款跨平台的 Markdown 笔记应用
2025-12-07
Embedding模型选型思路:相似度高不再代表检索准确(文末附实战指南)
2025-12-06
Palantir Ontology 助力AIP Agent落地工具介绍:Object Query
2025-12-05
把AI记忆做好,是一个价值6千亿美元的市场
2025-12-05
我错了,RAG还没完!AI记忆的结合会成为下一个技术风口
2025-12-04
搜索的终极形态?向量搜索重构信息检索范式
2025-09-15
2025-10-04
2025-10-11
2025-09-30
2025-10-12
2025-11-04
2025-09-12
2025-11-13
2025-10-31
2025-10-12
2025-12-10
2025-11-23
2025-11-20
2025-11-19
2025-11-04
2025-10-04
2025-09-30
2025-09-10