支持私有化部署
AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


以 DeepSeek-V3为例,理解 Pre-train 和 Post-train

发布日期:2025-05-09 10:48:11 浏览次数: 1536 作者:写给爸爸的 AI 笔记
推荐语

深入理解预训练和后训练,揭秘DeepSeek-V3如何从零基础到精通。

核心内容:
1. 预训练:构建通用语言模型的基础知识
2. DeepSeek-V3预训练的详细过程和优化
3. 后训练:提升模型实用性和对齐性的关键步骤

杨芳贤
53A创始人/腾讯云(TVP)最具价值专家
本文以 DeepSeek-V3 为例,带你看懂一个大模型从「什么都不会」到「聪明得体」的全过程,也彻底搞清楚两个关键概念:

Pre-Train(预训练)是啥

Post-Train(后训练)又是干嘛的

一、预训练:用海量数据打下通识能力的底子

预训练是使用大规模未标注语料,训练语言模型在无指令、无任务的前提下学会建模自然语言的概率分布,进而获得通用语言理解与生成能力

1)它解决的问题是:

- 模型如何预测下一个词/句子

- 如何建立词与词、句与句之间的语义与语法关联

2)输出结果是:

- 一个掌握语言规律、世界知识、部分推理能力的通用语言模型(base model)

DeepSeek-V3 的预训练做了什么

1. 用了多少数据

DeepSeek V3在14.8万亿高质量、多样化的tokens上进行预训练。与DeepSeek V2相比,V3优化了预训练语料库,提高了数学和编程样本的比例,同时扩展了英语和中文以外的多语言覆盖范围。

2. 上下文支持多长

预训练期间,DeepSeek-V3 分阶段提升其上下文处理能力:

从 4K → 32K → 最终支持 128K tokens

3. 训练任务是什么

不仅仅是“预测下一个词”。DeepSeek-V3 采用 多 token 预测(Multi-Token Prediction, MTP)

- 模型同时预测多个未来 token(例如下2词、下3词)

- 保持因果链,提升学习表达规划的能力

我们之前专门讲过 MTP,这里不再赘述

4. 此外,还做了一些性能优化的工作

DeepSeek-V3 做了系统级优化,比如:

- 架构优化:采用 Mixture-of-Experts(MoE) + MLA(多头潜在注意力)

- FP8混合精度训练:首次验证FP8训练在极大规模模型上的有效性

- DualPipe算法:设计高效流水线并行算法,减少流水线气泡

二、后训练:让模型从“知道很多”变成“说得对、答得好”

后训练是指在预训练模型基础上,通过人类提供的任务数据和偏好信号,进一步微调模型,使其能够理解指令、执行任务、并生成符合人类期望的响应,提升其对齐性、实用性和安全性

1)它解决的问题是:

- 模型是否能听懂具体任务指令(如:写摘要、答问题)

- 回应是否符合人类偏好(简洁、得体、相关)

- 表达是否稳定、逻辑性强、低幻觉

2)输出结果是:

- 一个能理解并执行人类指令的对齐模型(aligned model)

- 拥有基本助手能力,可用于对话系统、代码协作、文档处理等场景

DeepSeek-V3 的后训练做了什么

对于DeepSeek V3,后训练主要包含两个核心步骤:监督微调和强化学习。这两步虽然概念简单,但实施过程中充满了精妙的技术设计和创新理念。

1. 监督微调(SFT):理解并执行人类指令

监督微调是DeepSeek V3后训练阶段的第一个关键步骤,旨在引导预训练模型转变为能够理解并执行人类指令的助手。

DeepSeek团队构建了包含150万个跨领域指令实例的精选数据集,针对不同类型的任务采用差异化数据构建方法:

1)推理数据的精细打造

对于需要深度思考的数据(如数学问题、编程挑战和逻辑谜题),团队没有使用人工构建问答对,而是采用了知识蒸馏的方式。

DeepSeek 首先为特定领域(如代码、数学或通用推理)开发专家模型(通过组合SFT和RL训练而成)。这些专家模型成为数据生成器,为最终模型提供两种类型的SFT样本:

- 原始问题和回答对

- 包含系统提示、问题和R1回答的三元组

通过这种方式,使最终模型能够兼具R1的推理深度和良好的输出格式.

2)日常交互数据的人机协作:对于创意写作、角色扮演和简单问答等场景,团队使用DeepSeek-V2.5生成初始回应,再由人类标注者审核验证,确保答案的准确性和适当性。这种人机协作方式既提高了数据创建效率,又保证了数据质量。

2. 强化学习:优化回答,更贴人类偏好

SFT 只是“模仿”,强化学习则是“优化偏好”——让模型学会什么样的回答更受欢迎、更合理。

1)奖励来自哪里

DeepSeek V3的奖励模型采用了双轨奖励体系,根据问题性质提供精确反馈:

基于规则的客观奖励:针对有确定答案的问题(如数学或编程题),设计了规则化验证机制:

- 要求模型在特定格式提供最终答案,然后通过规则验证

- 对于编程问题,利用编译器根据测试用例生成客观反馈

这种方法提供了不易被操纵的可靠评估标准。

基于模型的灵活奖励:针对开放性问题或主观任务,采用从DeepSeek-V3 SFT checkpoint训练的奖励模型来进行评估

2)优化策略创新:采用群体相对策略优化(GRPO)

- 对每个 prompt 生成多个回答

- 比较 group 内得分差距,构建优势函数

- 优化策略,使回答更符合偏好方向

这一方式比传统 PPO 更稳定、计算效率高,更适用于大模型训练。(具体详解参看之前的内容

三、照例总结一下

通过 DeepSeek-V3 的训练过程,我们可以清晰看到大模型成长的两大关键阶段:

- 预训练:用超大规模的数据构建语言“底座”,让模型具备通用理解与表达能力。

- 后训练:通过指令数据与人类偏好引导,让模型更懂任务、更贴人类、更实用安全。

53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询