微信扫码
添加专属顾问
我要投稿
GPT-4、Llama等开闭大模型通过预训练的方式将海量数据积累成一个庞大的知识库,再通过文本问答的形式为用户生成各种内容。但这种方法仅局限于训练数据集,为了扩大输出范围允许模型通过检索额外的数据来丰富生成内容,RAG(知识检索增强)成为了必备功能之一。
RAG也有一个明显的缺点,就是随着上下文信息量的增加,模型的解码时间显著延长,严重影响用户获取答案的效率。
所以,阿姆斯特丹大学、昆士兰大学和NAVER实验室的研究人员联合发布了创新压缩方法COCOM(Context COmpression Model)。
论文地址:https://arxiv.org/abs/2407.09252
在传统的RAG模型中,为了生成一个准确的答案,系统需要考虑大量的上下文信息。这些信息可能来自多个文档,每个文档都包含了对生成答案可能有用的信息。
不过将这些长文本直接输入到大模型中会导致解码时间显著增加,因为模型需要处理更多的输入数据,消耗的算力和推理时间也就更多。
COCOM使用了一种创新的上下文压缩技术,将长文本上下文转换成一组紧凑的上下文嵌入。这些嵌入能够捕捉原始文本的关键信息,并以一种更高效的方式提供给大模型,能够在减少模型输入大小的同时,保持提升生成内容的质量。
COCOM还使用了一个转换器,帮助大模型对输入的上下文进行分词处理,将其转换成一系列的标记。然后,这些标记被输入到一个压缩模型中,并负责将这些标记转换成一组上下文嵌入。
在压缩模型的训练过程中,研究者们采用了两种主要的预训练任务:自编码和基于上下文嵌入的语言建模。自编码任务的目标是训练模型将上下文嵌入重构回原始的输入文本,这有助于模型学习如何有效地压缩和解压上下文信息。
而基于上下文嵌入的语言建模任务则是训练模型根据压缩后的嵌入生成文本的下一部分,这有助于模型学习如何利用上下文嵌入中的信息。
值得一提的是,COCOM的压缩率非常灵活可以调节,通过调整压缩率参数帮助开发人员在减少解码时间和保持答案质量之间找到一个平衡点。
例如,一个较低的压缩率可能会生成更多的嵌入,从而保留更多的上下文信息,但同时也会略微增加解码时间。相反,一个较高的压缩率会减少生成的嵌入数量,从而加快解码效率,但可能会牺牲一些生成答案的质量。
此外,COCOM还能够处理多个上下文的情况。在知识密集型任务中,通常需要从多个文档中提取信息以生成答案。COCOM能够独立地压缩每个文档的上下文,并将生成的嵌入向量作为一组提供给大模型,这种方法能帮助模型在处理多个上下文时仍保持高效率。
研究人员在Natural Questions、MS MARCO、HotpotQA测试平台中评估了COCOM,并与现有AutoCompressor、xRAG、ICAE等压缩方法进行比较,COCOM的效率能提升5.69倍,内存减少1.27倍。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2025-04-30
聊聊AI智能体框架MetaGPT下的RAG实践
2025-04-30
如何用大模型+RAG给宠物做一个AI健康助手(干货分享)?
2025-04-30
HiRAG:基于层级知识索引和检索的高精度RAG
2025-04-29
教程|通义Qwen 3 +Milvus,混合推理模型才是优化RAG成本的最佳范式
2025-04-29
RAG开发框架LangChain与LlamaIndex对比解析:谁更适合你的AI应用?
2025-04-29
RAG性能暴增20%!清华等推出“以笔记为中心”的深度检索增强生成框架,复杂问答效果飙升
2025-04-29
超神了,ChatWiki 支持GraphRAG,让 AI 具备垂直深度推理能力!
2025-04-29
AI 产品思维:我如何把一个 AI 应用从基础 RAG 升级到 multi-agent 架构
2024-10-27
2024-09-04
2024-07-18
2024-05-05
2024-06-20
2024-06-13
2024-07-09
2024-07-09
2024-05-19
2024-07-07
2025-04-30
2025-04-29
2025-04-29
2025-04-26
2025-04-25
2025-04-22
2025-04-22
2025-04-20