微信扫码
添加专属顾问
我要投稿
DeepSeek与北大联合研发的NSA注意力机制在ACL 2025大放异彩,长文推理效率提升11.6倍,开创AI推理新纪元!核心内容: 1. NSA架构三大创新:压缩粗粒度token、选择性保留细粒度token、滑动窗口机制 2. 性能突破:64k上下文下前向传播速度提升9倍,内存访问量减少11.6倍 3. 行业影响:长序列处理效率显著提升,为AI推理领域树立新标杆
NSA 的架构包括三个部分:
刚刚,DeepSeek全新注意力机制NSA发布,超快速长文训练与推理~
压缩粗粒度token:通过将键和值聚合成块级表示,捕捉整个块的信息,减少注意力计算的负担。
选择性保留细粒度token:通过块选择机制,保留最相关的键和值,确保细粒度信息的保留。
滑动窗口:专门处理局部上下文信息,防止模型过度依赖局部模式,确保其他分支能够专注于学习全局信息。
在 64k 上下文长度下,NSA 的前向传播速度比 FlashAttention-2 快 9.0×,反向传播速度快 6.0×。
随着上下文长度的增加,NSA 的速度提升比逐渐增大,表明其在处理长序列时的效率优势更加明显。
在 64k 上下文长度下,全注意力模型需要访问 65536 个标记,而 NSA 只需要访问 5632 个标记,内存访问量减少了 11.6×(由于解码阶段的低算术强度和内存受限特性,预期的速度提升与内存访问量大致呈线性关系)。
随着上下文长度的增加,NSA 的内存访问量减少比逐渐增大,表明其在处理长序列时的效率优势更加明显。
https://arxiv.org/abs/2502.11089Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention
推荐阅读
• Agents:Coze版" data-itemshowtype="0" linktype="text" data-linktype="2">动手设计AI Agents:(编排、记忆、插件、workflow、协作)
欢迎关注我的公众号“PaperAgent”,每天一篇大模型(LLM)文章来锻炼我们的思维,简单的例子,不简单的方法,提升自己。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2026-02-02
Dify、LangChain、Cherry Studio、Milvus联手拆解大模型开发的未来范式
2026-02-02
Claude 5 真的要来了?代号 Fennec 曝光,性能或超 Opus 4.5
2026-02-02
史上最强编程模型Claude 5泄露,最慌的是黄仁勋?
2026-02-02
腾讯云程伟:拒绝AI焦虑,企业智能体如何从“工具”到“生产力”?
2026-02-02
思考|Skills 不是插件,而是“封装好的微型智能体”
2026-02-02
Clawdbot值得借鉴的Agent架构设计经验
2026-02-02
X上点赞近万的Claude Agent SDK教程,到底讲了什么?
2026-02-02
GitHub 61.2k星标, 爆火神器Claude Code生产力直接翻10倍
2026-01-24
2026-01-10
2025-11-19
2025-11-13
2026-01-26
2026-01-01
2025-12-09
2025-11-12
2025-11-15
2026-01-09
2026-02-02
2026-02-02
2026-02-02
2026-02-02
2026-01-31
2026-01-30
2026-01-29
2026-01-28