我要投稿

硬核，DeepSeek拿下ACL 2025最佳论文，长文推理飙升11.6倍！

发布日期：2025-08-01 12:19:28 浏览次数： 2921

作者：PaperAgent

微信搜一搜，关注“PaperAgent”

ACL 2025奖项揭晓，DeepSeek 和北大联合完成，梁文锋署名的NSA论文斩获了「最佳论文奖」：《Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention》

还有三篇论文也获得最佳论文，分别是：

Paper1：《A Theory of Response Sampling in LLMs: Part Descriptive and Part Prescriptive》

Paper2：《Fairness through Difference Awareness: Measuring Desired Group Discrimination in LLMs》

Paper3：《Language Models Resist Alignment: Evidence From Data Compression》

NSA 的架构包括三个部分：

刚刚，DeepSeek全新注意力机制NSA发布，超快速长文训练与推理~

压缩粗粒度token：通过将键和值聚合成块级表示，捕捉整个块的信息，减少注意力计算的负担。
选择性保留细粒度token：通过块选择机制，保留最相关的键和值，确保细粒度信息的保留。
滑动窗口：专门处理局部上下文信息，防止模型过度依赖局部模式，确保其他分支能够专注于学习全局信息。

在 64k 上下文长度下，NSA 的前向传播速度比 FlashAttention-2 快 9.0×，反向传播速度快 6.0×。
随着上下文长度的增加，NSA 的速度提升比逐渐增大，表明其在处理长序列时的效率优势更加明显。

在 64k 上下文长度下，全注意力模型需要访问 65536 个标记，而 NSA 只需要访问 5632 个标记，内存访问量减少了 11.6×（由于解码阶段的低算术强度和内存受限特性，预期的速度提升与内存访问量大致呈线性关系）。
随着上下文长度的增加，NSA 的内存访问量减少比逐渐增大，表明其在处理长序列时的效率优势更加明显。

最后，看一下第一作者来自哪里？冲~

https://arxiv.org/abs/2502.11089Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention

相关资讯

2025-11-01

AI心理咨询师新突破：TheraMind引领长期治疗新范式及知识增强AI应用探讨

2025-11-01

基于本地LLM构建AI驱动的日志分析系统

2025-11-01

从“更大”到“更聪明”：蚂蚁集团推出 Ling 2.0，大模型推理进入“稀疏智能时代”

2025-10-31

Opera One升级内置AI 迎来智能助手新纪元

2025-10-31

LangExtract——大模型文本提炼工具

2025-10-31

用户测评｜DeepSeek-OCR，你用了吗？

2025-10-31

从Palantir智能化技术路线看AI时代企业级架构平台的核心战略位置

2025-10-31

OpenAI 公开 Atlas 架构：为 Agent 重新发明浏览器

了解更多

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

DeepSeek-V3.1 发布，迈向 Agent 时代的第一步

2025-08-21

DeepSeekV3.1 提到的 UE8M0 FP8 Scale 是什么？下一代国产芯片设计？

2025-08-21

DeepSeek V3.1 测评

2025-08-19

新版 GPT-5 刚刚发布，最卷 AI 连肝代码 7 小时，编程工具大洗牌开始了

2025-09-16

实测 Sora 2 ：AI视频的“ChatGPT时刻”来了？八大场景教你解锁各种玩法（附邀请码）

2025-10-02

AI大家说 | 下一代AI创业的机会在哪里？定价趋势是什么？

2025-09-08

阿里发布下一代企业级智能体开发框架AgentScope 1.0

2025-09-17

DeepSeek突然更新V3.1：实测后才发现的亮点与槽点

2025-08-19

RagFLow v0.20.X全面解析！双向MCP、Agentic智能体...这次真的起飞了！（附长图）

2025-09-29

DeepSeek v3.1 到底有多强？与 Claude Code 一起实测！

2025-08-20

大家都在问

用户测评｜DeepSeek-OCR，你用了吗？

2025-10-31

树莓派这种“玩具级”设备，真能跑大模型吗？

2025-10-31

大模型的Funcation Calling是什么？

2025-10-29

向量搜索已过时，混合搜索都有三大流派了！你看好哪个流派？

2025-10-29

BCG最新报告：企业如何跨越AI价值鸿沟，进入复利增长？

2025-10-28

如何用飞书多维表格快速搭建一个可落地应用？

2025-10-28

当AI学会“听”：声音识别到声音理解，AI到底是怎么听懂的？

2025-10-27

如何让你的内容出现在AI生成的答案中？

2025-10-26

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS 提示词框架提示词技巧 AI+电商 AI面试数字员工 ChatBI 知识管理开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB