微信扫码
添加专属顾问
我要投稿
深入理解预训练和后训练,揭秘DeepSeek-V3如何从零基础到精通。 核心内容: 1. 预训练:构建通用语言模型的基础知识 2. DeepSeek-V3预训练的详细过程和优化 3. 后训练:提升模型实用性和对齐性的关键步骤
Pre-Train(预训练)是啥
Post-Train(后训练)又是干嘛的
预训练是使用大规模未标注语料,训练语言模型在无指令、无任务的前提下学会建模自然语言的概率分布,进而获得通用语言理解与生成能力。
1)它解决的问题是:
- 模型如何预测下一个词/句子
- 如何建立词与词、句与句之间的语义与语法关联
2)输出结果是:
- 一个掌握语言规律、世界知识、部分推理能力的通用语言模型(base model)
DeepSeek-V3 的预训练做了什么
1. 用了多少数据
DeepSeek V3在14.8万亿高质量、多样化的tokens上进行预训练。与DeepSeek V2相比,V3优化了预训练语料库,提高了数学和编程样本的比例,同时扩展了英语和中文以外的多语言覆盖范围。
2. 上下文支持多长
预训练期间,DeepSeek-V3 分阶段提升其上下文处理能力:
从 4K → 32K → 最终支持 128K tokens
3. 训练任务是什么
不仅仅是“预测下一个词”。DeepSeek-V3 采用 多 token 预测(Multi-Token Prediction, MTP):
- 模型同时预测多个未来 token(例如下2词、下3词)
- 保持因果链,提升学习表达规划的能力
(我们之前专门讲过 MTP,这里不再赘述)
4. 此外,还做了一些性能优化的工作
DeepSeek-V3 做了系统级优化,比如:
- 架构优化:采用 Mixture-of-Experts(MoE) + MLA(多头潜在注意力)
- FP8混合精度训练:首次验证FP8训练在极大规模模型上的有效性
- DualPipe算法:设计高效流水线并行算法,减少流水线气泡
后训练是指在预训练模型基础上,通过人类提供的任务数据和偏好信号,进一步微调模型,使其能够理解指令、执行任务、并生成符合人类期望的响应,提升其对齐性、实用性和安全性。
1)它解决的问题是:
- 模型是否能听懂具体任务指令(如:写摘要、答问题)
- 回应是否符合人类偏好(简洁、得体、相关)
- 表达是否稳定、逻辑性强、低幻觉
2)输出结果是:
- 一个能理解并执行人类指令的对齐模型(aligned model)
- 拥有基本助手能力,可用于对话系统、代码协作、文档处理等场景
对于DeepSeek V3,后训练主要包含两个核心步骤:监督微调和强化学习。这两步虽然概念简单,但实施过程中充满了精妙的技术设计和创新理念。
监督微调是DeepSeek V3后训练阶段的第一个关键步骤,旨在引导预训练模型转变为能够理解并执行人类指令的助手。
DeepSeek团队构建了包含150万个跨领域指令实例的精选数据集,针对不同类型的任务采用差异化数据构建方法:
1)推理数据的精细打造:
对于需要深度思考的数据(如数学问题、编程挑战和逻辑谜题),团队没有使用人工构建问答对,而是采用了知识蒸馏的方式。
DeepSeek 首先为特定领域(如代码、数学或通用推理)开发专家模型(通过组合SFT和RL训练而成)。这些专家模型成为数据生成器,为最终模型提供两种类型的SFT样本:
- 原始问题和回答对
- 包含系统提示、问题和R1回答的三元组
通过这种方式,使最终模型能够兼具R1的推理深度和良好的输出格式.
2)日常交互数据的人机协作:对于创意写作、角色扮演和简单问答等场景,团队使用DeepSeek-V2.5生成初始回应,再由人类标注者审核验证,确保答案的准确性和适当性。这种人机协作方式既提高了数据创建效率,又保证了数据质量。
SFT 只是“模仿”,强化学习则是“优化偏好”——让模型学会什么样的回答更受欢迎、更合理。
1)奖励来自哪里
DeepSeek V3的奖励模型采用了双轨奖励体系,根据问题性质提供精确反馈:
基于规则的客观奖励:针对有确定答案的问题(如数学或编程题),设计了规则化验证机制:
- 要求模型在特定格式提供最终答案,然后通过规则验证
- 对于编程问题,利用编译器根据测试用例生成客观反馈
这种方法提供了不易被操纵的可靠评估标准。
基于模型的灵活奖励:针对开放性问题或主观任务,采用从DeepSeek-V3 SFT checkpoint训练的奖励模型来进行评估
2)优化策略创新:采用群体相对策略优化(GRPO):
- 对每个 prompt 生成多个回答
- 比较 group 内得分差距,构建优势函数
- 优化策略,使回答更符合偏好方向
这一方式比传统 PPO 更稳定、计算效率高,更适用于大模型训练。(具体详解参看之前的内容)
通过 DeepSeek-V3 的训练过程,我们可以清晰看到大模型成长的两大关键阶段:
- 预训练:用超大规模的数据构建语言“底座”,让模型具备通用理解与表达能力。
- 后训练:通过指令数据与人类偏好引导,让模型更懂任务、更贴人类、更实用安全。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2025-02-04
2025-02-04
2024-09-18
2024-07-11
2024-07-09
2024-07-11
2024-07-26
2025-02-05
2025-01-27
2025-02-01