微信扫码
添加专属顾问
我要投稿
美团龙猫LongCat技术再突破,LoZA稀疏注意力机制让解码速度提升10倍,还能处理1M超长文本! 核心内容: 1. LoZA稀疏注意力机制的核心原理与优化策略 2. 技术升级带来的性能提升与算力节省 3. 实际应用中的速度与效果对比
256K文本预加载提速超50%,还解锁了1M上下文窗口。
美团龙猫LongCat系列新年出招,发布全新稀疏注意力机制LoZA(LongCat ZigZag Attention)。
新技术集中火力,重点解决长文本任务的理解、算力难题。
相比于LongCat系列之前的全注意力MLA机制,LoZA只改了一半的核心模块。
但模型长文本能力从256K扩展到1M,解码速度还快了不少。
甚至比同类型的Qwen-3模型表现还要好。
接下来看具体方案。
全注意力机制的算力瓶颈在于平方级的计算复杂度O (L²),这导致模型在处理长文本任务时对显卡要求高,还会出现推理延迟问题。
LoZA的核心思路是专注于处理重要的内容,不重要的部分少花力气。
作为LongCat系列的核心技术升级,LoZA主要是在原来的MLA机制上做改造。
具体分两步。
首先,给模型里的多头潜在注意力模块MLA做一个全局“筛查”,找出哪些模块可以被改造。
在原来的MLA架构中,每个MLA模块都是处理注意力的核心单元,现在的新方案是给每个模块配一个可学习权重α。
α值越高,说明该模块额全注意力计算越关键,一旦简化就容易丢性能;α值越低就意味着模块的可替代性强,即便换成更轻量的计算方式,对整体的理解能力影响也不大。
在训练过程中,团队冻结模型其他参数,只更新α的梯度,通过这种专门的校准训练让模型自主学习α值,然后按α值从小到大排序,找出那些稀疏化后不影响性能的MLA模块,也就是后续的优化目标。
随后,将找出的50%低性能模块换成更轻巧的流式稀疏注意力SSA。
这样就形成了一种交错结构,团队将这种结构称为ZigZag。
SSA的计算复杂度是线性的O (L·S)(S为稀疏窗口大小,固定为1024Token),远低于全注意力的O (L²)。
所以这种交错结构让模型既不会因为过度简化而变笨,又能把计算复杂度降到线性级别,省不少算力。
为了让模型在关注局部细节的基础上不忽略整体逻辑,LoZA还设计了一个1024Token稀疏窗口。
每个窗口里有1个负责抓整体关联的“全局块”和7个负责盯附近内容的“局部块”,单块大小为128Token。
这样的改造也不需要从头训练,在中期训练阶段就能完成,成本也比较低。
从测试数据来看,LoZA的表现也不错,主要是“更快”的同时“没变笨”。
速度上,要是处理128K上下文,解码速度直接比原来快10倍;
256K上下文,模型预加载(读文本过程)速度快了50%,后续解码阶段生成内容时还能省30%的算力,相当于同样的硬件,现在能同时处理两倍多的长文本任务。
这也让LongCat-Flash-Exp解锁了1M上下文窗口。
性能上,LoZA也没因为简化而缩水。
处理回答问题、写代码这类日常任务时,和原版LongCat-Flash持平;处理长文本任务时,表现反而更好。
比如在MRCR测试里,反超了同样能处理1M长文本的Qwen-3模型,还更稳定。
接下来,团队还计划让LoZA支持动态稀疏比例。
短文本场景自动多用全注意力保证精度,长文本场景自动增加稀疏模块提升效率,甚至适配多模态模型处理长视频、长图文内容。
好一个新年新气象!
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2026-01-13
让我很兴奋...Claude Cowork 自动化办公首测
2026-01-13
ISON:比JSON节省70% token的数据格式,专为LLM设计
2026-01-13
别再造Agent了!关于Agent Skills的详细总结来了
2026-01-13
再见了 H100!刚刚 DeepSeek 甩出王炸:显卡不够内存凑,堆 CPU 就能无限扩展“知识库”!
2026-01-13
Anthropic 万字长文:AI Agent 评估体系全解析
2026-01-13
Claude 的新功能 Cowork:让 AI 真正帮你干活
2026-01-13
Claude Cowork 重磅发布:整理文件、做表格、写报告,全包!
2026-01-13
Google 宣布将 Opal 集成进 Gemini Gem里 现在你可以在 “Gems 管理器”中直接使用Opal开发应用
2025-10-26
2025-11-19
2025-10-20
2025-11-13
2025-10-18
2025-10-21
2025-11-03
2025-10-23
2025-10-22
2025-10-20
2026-01-12
2026-01-12
2026-01-11
2026-01-10
2026-01-10
2026-01-08
2026-01-02
2025-12-31