我要投稿

DeepSeek-V3.2-Exp开源，附论文细节解读！

发布日期：2025-09-29 20:56:51 浏览次数： 3100

作者：刘聪NLP

微信搜一搜，关注“刘聪NLP”

卷起来，DeepSeek又开源了，这次是V3.2-Exp，提出了DSA（DeepSeek Sparse Attention），DeepSeek稀疏注意力。

DSA核心由一个快速索引器和一个细粒度的Token选择器组成，

快速索引器，是计算query token 与前置 token 之间的索引分数，来决定选择query token中的重要token：

其中：

表示索引器的 head 数量；
和来自query token ；
来自前置 token

出于吞吐量的考虑，选择 ReLU 作为激活函数，同时快速索引器的head数量少，同时可以用 FP8 实现，计算效率非常高。

细粒度的Token选择器，就是对每个query token 的索引分数集合，选择 top-k 索引分数的，再用这些稀疏选择的与query token 之间计算注意力输出：

说白了，就是不是让每个词关注所有词，而是只挑选最重要的那几个。计算复杂度栋变成了，其中k<<L。

然后DeepSeek-V3.2-Exp是基于 DeepSeek-V3.1-Terminus增量预训练的，分为4个步骤，

Dense热身增量预训练，初始化索引器参数，采用Dense注意力，然后冻结除索引器外的所有模型参数，用2.1B Tokens数据，训练1000步，每步Batch 16，上下文长度 128K
Sparse增量预训练，引入细粒度 token 选择器，训练所有参数，用943.7B Tokens，训练15000步，每步Batch 480，上下文长度128K
专家蒸馏训练，先对DeepSeek-V3.2在不同专业领域上训练不同的专家（数学、竞赛编程、通用推理、Agentic coding、agentic search、写作、通用问答）模型，专家模型训练用RL，得到专家模型后，进行数据蒸馏，得到不同任务上的数据，再用这些数据SFT模型
RL训练，依旧采用GRPO算法，从多阶段 RL 的做法，改成单一阶段RL，将推理、Agent、人类偏好一起训练，避免灾难性遗忘。

在各领域的公开评测集上，DeepSeek-V3.2-Exp 的表现与 V3.1-Terminus 基本持平。

但成本猛降，输出价格直接降了75%，太nb了。

Paper：https://github.com/deepseek-ai/DeepSeek-V3.2-Exp/blob/main/DeepSeek_V3_2.pdf

HF：https://huggingface.co/deepseek-ai/DeepSeek-V3.2-Exp

最后想说，算子优化是基于TileLang进行开发的，当然也支持了CUDA。

PS：TileLang是由Tile-AI社区发起，核心目标是提升 AI kernel 编程的效率。它通过将调度空间与数据流解耦，并封装成一套可自定义的注解和原语，使得开发者能够专注于 kernel 的数据流逻辑，而将大部分优化任务交给编译器自动完成。

最后，想说，国货之光，十一都卷起来吧~

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2026-01-05

从 Issues 到 Wishes：开源协作模式的范式转移

2026-01-04

AgentRun Sandbox SDK 正式开源！集成 LangChain 等主流框架，一键开启智能体沙箱新体验

2026-01-04

让 AI 接管 Windows 和 MacOS，这个 GitHub 开源项目牛啊。

2026-01-04

开源TTS模型技术选型分析报告v1.0

2026-01-03

Google 开源 InkSight，把手写笔记直接变成可编辑数字笔记！

2026-01-02

每个开发者都值得真正试试的 6 款开源 CLI 工具

2026-01-02

又是量化基金，第二个DeepSeek时刻到来了？

2026-01-01

RustFS：高性能的分布式对象存储，MinIO的国产化理想替代方案，比MinIO快2.3倍！

了解更多

了解更多

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

全新AI编程工具 Google Antigravity 实测，特别适合产品经理

2025-11-19

DeepSeek又开源，这次是OCR模型！附论文解读！

2025-10-20

发现一个超神的Github开源OCR项目，国产多模态杀疯了

2025-10-27

MiniMax悄悄发布M2，8%价格打出Claude级性能

2025-10-27

让白宫“破防”的阿里千问，我替你们测了...

2025-11-17

豆包手机同款AutoGLM硬核开源：AI如何用“眼睛+大脑+手”接管你手机

2025-12-10

n8n如何调用最近爆火的deepseek OCR？

2025-10-29

最强开源0.9B级OCR模型！PaddleOCR-VL本地一键部署，私密性拉满【喂饭级教程】

2025-11-07

不想给 Claude 付费，但想玩 Skills？我用国产模型搞定了

2025-10-21

10 大开源 OCR 模型对比

2025-10-24

大家都在问

又是量化基金，第二个DeepSeek时刻到来了？

2026-01-02

被 Gemini 官方推荐为下一代Agent！Eigent 如何实现企业级浏览器自动化？

2025-12-24

一文彻底看懂 Google 最新开源 A2UI 协议：如何让 AI Agent “说出UI” ？

2025-12-22

我们为什么选择 Spring AI 开发智能体，而不是 Dify？

2025-11-12

开源安全审核模型终极PK：Qwen3Guard、OpenAI-SafeGuard、Llama4-Guard谁才是王者？

2025-11-10

DeepSeek-OCR到底厉害在哪？

2025-11-03

n8n如何调用最近爆火的deepseek OCR？

2025-10-29

小红书入局AI智能体开源DeepAgent，在计划什么更新？

2025-10-28

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS 提示词框架提示词技巧 AI+电商 AI面试数字员工 ChatBI AI知识库开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB Palantir Glean

应聘简历请发送至： ceo@53ai.com

联系我们

售前咨询

预约演示

微信扫码

添加专属顾问

回到顶部