微信扫码
添加专属顾问
我要投稿
DeepSeek-V3.2-Exp开源震撼发布,DSA稀疏注意力机制让计算效率飙升,成本直降75%!核心内容: 1. DSA稀疏注意力机制的核心组件与原理 2. 四阶段增量训练方案详解 3. 性能持平V3.1但成本骤降的技术突破
大家好,我是刘聪NLP。
卷起来,DeepSeek又开源了,这次是V3.2-Exp,提出了DSA(DeepSeek Sparse Attention),DeepSeek稀疏注意力。
DSA核心由一个快速索引器和 一个细粒度的Token选择器组成,
快速索引器,是计算query token 与前置 token 之间的索引分数 ,来决定选择query token中的重要token:
其中:
出于吞吐量的考虑,选择 ReLU 作为激活函数,同时快速索引器的head数量少,同时可以用 FP8 实现,计算效率非常高。
细粒度的Token选择器,就是对每个query token 的索引分数集合 ,选择 top-k 索引分数的 ,再用这些稀疏选择的 与query token 之间计算注意力输出 :
说白了,就是不是让每个词关注所有词,而是只挑选最重要的那几个。计算复杂度栋变成了,其中k<<L。
然后DeepSeek-V3.2-Exp是基于 DeepSeek-V3.1-Terminus增量预训练的,分为4个步骤,
Dense热身增量预训练,初始化索引器参数,采用Dense注意力,然后冻结除索引器外的所有模型参数,用2.1B Tokens数据,训练1000步,每步Batch 16,上下文长度 128K
Sparse增量预训练,引入细粒度 token 选择器,训练所有参数,用943.7B Tokens,训练15000步,每步Batch 480,上下文长度128K
专家蒸馏训练,先对DeepSeek-V3.2在不同专业领域上训练不同的专家(数学、竞赛编程、通用推理、Agentic coding、agentic search、写作、通用问答)模型,专家模型训练用RL,得到专家模型后,进行数据蒸馏,得到不同任务上的数据,再用这些数据SFT模型
RL训练,依旧采用GRPO算法,从多阶段 RL 的做法,改成单一阶段RL,将推理、Agent、人类偏好一起训练,避免灾难性遗忘。
在各领域的公开评测集上,DeepSeek-V3.2-Exp 的表现与 V3.1-Terminus 基本持平。
但成本猛降,输出价格直接降了75%,太nb了。
Paper:https://github.com/deepseek-ai/DeepSeek-V3.2-Exp/blob/main/DeepSeek_V3_2.pdf
HF:https://huggingface.co/deepseek-ai/DeepSeek-V3.2-Exp
最后想说,算子优化是基于TileLang进行开发的,当然也支持了CUDA。
PS:TileLang是由Tile-AI社区发起,核心目标是提升 AI kernel 编程的效率。它通过将 调度空间 与 数据流 解耦,并封装成一套可自定义的注解和原语,使得开发者能够专注于 kernel 的数据流逻辑,而将大部分优化任务交给编译器自动完成。
最后,想说,国货之光,十一都卷起来吧~
PS:都看到这里,来个点赞、在看、关注吧。 您的支持是我坚持的最大动力!
欢迎多多关注公众号「刘聪NLP」,加入交流群,交个朋友吧,一起学习,一起进步!
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2025-09-29
DeepSeek-V3.2背后的国产算子编程语言TileLang是什么?如何保持性能领先的同时减少6倍代码量?
2025-09-29
刚刚,DeepSeek开源V3.2-Exp,公开新稀疏注意力机制DSA
2025-09-29
独家 | 帆软首次掀起盖头,万字访谈揭密BI巨头的出海之路
2025-09-29
2 分钟搞定官方文档没写的隐藏功能?99%的人还没掌握这种AI学习法!
2025-09-27
一招搞定知识库的文档分级分类,Dify可以这么做
2025-09-27
N8N全面解析:优势、短板与适用场景
2025-09-24
云栖大会阿里掀桌子了!Qwen3-Max、VL、Omini、Agent ... 统统发布!
2025-09-24
阿里发布Qwen3-VL:开源多模态登顶 SOTA
2025-07-23
2025-08-20
2025-09-07
2025-07-23
2025-08-05
2025-07-14
2025-08-20
2025-07-29
2025-07-12
2025-07-31
2025-09-29
2025-09-17
2025-09-09
2025-09-08
2025-09-07
2025-09-01
2025-08-16
2025-08-13