我要投稿

以 DeepSeek-V3为例，理解 Pre-train 和 Post-train

发布日期：2025-05-09 10:48:11 浏览次数： 2006

作者：写给爸爸的 AI 笔记

微信搜一搜，关注“写给爸爸的 AI 笔记”

本文以 DeepSeek-V3 为例，带你看懂一个大模型从「什么都不会」到「聪明得体」的全过程，也彻底搞清楚两个关键概念：

Pre-Train（预训练）是啥

Post-Train（后训练）又是干嘛的

一、预训练：用海量数据打下通识能力的底子

预训练是使用大规模未标注语料，训练语言模型在无指令、无任务的前提下学会建模自然语言的概率分布，进而获得通用语言理解与生成能力。

1）它解决的问题是：

- 模型如何预测下一个词/句子

- 如何建立词与词、句与句之间的语义与语法关联

2）输出结果是：

- 一个掌握语言规律、世界知识、部分推理能力的通用语言模型（base model）

DeepSeek-V3 的预训练做了什么

1. 用了多少数据

DeepSeek V3在14.8万亿高质量、多样化的tokens上进行预训练。与DeepSeek V2相比，V3优化了预训练语料库，提高了数学和编程样本的比例，同时扩展了英语和中文以外的多语言覆盖范围。

2. 上下文支持多长

预训练期间，DeepSeek-V3 分阶段提升其上下文处理能力：

从 4K → 32K → 最终支持 128K tokens

3. 训练任务是什么

不仅仅是“预测下一个词”。DeepSeek-V3 采用 多 token 预测（Multi-Token Prediction, MTP）：

- 模型同时预测多个未来 token（例如下2词、下3词）

- 保持因果链，提升学习表达规划的能力

（我们之前专门讲过 MTP，这里不再赘述）

4. 此外，还做了一些性能优化的工作

DeepSeek-V3 做了系统级优化，比如：

- 架构优化：采用 Mixture-of-Experts（MoE） + MLA（多头潜在注意力）

- FP8混合精度训练：首次验证FP8训练在极大规模模型上的有效性

- DualPipe算法：设计高效流水线并行算法，减少流水线气泡

二、后训练：让模型从“知道很多”变成“说得对、答得好”

后训练是指在预训练模型基础上，通过人类提供的任务数据和偏好信号，进一步微调模型，使其能够理解指令、执行任务、并生成符合人类期望的响应，提升其对齐性、实用性和安全性。

1）它解决的问题是：

- 模型是否能听懂具体任务指令（如：写摘要、答问题）

- 回应是否符合人类偏好（简洁、得体、相关）

- 表达是否稳定、逻辑性强、低幻觉

2）输出结果是：

- 一个能理解并执行人类指令的对齐模型（aligned model）

- 拥有基本助手能力，可用于对话系统、代码协作、文档处理等场景

DeepSeek-V3 的后训练做了什么

对于DeepSeek V3，后训练主要包含两个核心步骤：监督微调和强化学习。这两步虽然概念简单，但实施过程中充满了精妙的技术设计和创新理念。

1. 监督微调（SFT）：理解并执行人类指令

监督微调是DeepSeek V3后训练阶段的第一个关键步骤，旨在引导预训练模型转变为能够理解并执行人类指令的助手。

DeepSeek团队构建了包含150万个跨领域指令实例的精选数据集，针对不同类型的任务采用差异化数据构建方法：

1）推理数据的精细打造：

对于需要深度思考的数据（如数学问题、编程挑战和逻辑谜题），团队没有使用人工构建问答对，而是采用了知识蒸馏的方式。

DeepSeek 首先为特定领域（如代码、数学或通用推理）开发专家模型（通过组合SFT和RL训练而成）。这些专家模型成为数据生成器，为最终模型提供两种类型的SFT样本：

- 原始问题和回答对

- 包含系统提示、问题和R1回答的三元组

通过这种方式，使最终模型能够兼具R1的推理深度和良好的输出格式.

2）日常交互数据的人机协作：对于创意写作、角色扮演和简单问答等场景，团队使用DeepSeek-V2.5生成初始回应，再由人类标注者审核验证，确保答案的准确性和适当性。这种人机协作方式既提高了数据创建效率，又保证了数据质量。

2. 强化学习：优化回答，更贴人类偏好

SFT 只是“模仿”，强化学习则是“优化偏好”——让模型学会什么样的回答更受欢迎、更合理。

1）奖励来自哪里

DeepSeek V3的奖励模型采用了双轨奖励体系，根据问题性质提供精确反馈：

基于规则的客观奖励：针对有确定答案的问题（如数学或编程题），设计了规则化验证机制：

- 要求模型在特定格式提供最终答案，然后通过规则验证

- 对于编程问题，利用编译器根据测试用例生成客观反馈

这种方法提供了不易被操纵的可靠评估标准。

基于模型的灵活奖励：针对开放性问题或主观任务，采用从DeepSeek-V3 SFT checkpoint训练的奖励模型来进行评估

2）优化策略创新：采用群体相对策略优化(GRPO)：

- 对每个 prompt 生成多个回答

- 比较 group 内得分差距，构建优势函数

- 优化策略，使回答更符合偏好方向

这一方式比传统 PPO 更稳定、计算效率高，更适用于大模型训练。（具体详解参看之前的内容）

三、照例总结一下

通过 DeepSeek-V3 的训练过程，我们可以清晰看到大模型成长的两大关键阶段：

- 预训练：用超大规模的数据构建语言“底座”，让模型具备通用理解与表达能力。

- 后训练：通过指令数据与人类偏好引导，让模型更懂任务、更贴人类、更实用安全。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2025-08-07

大模型微调，解锁AI的专属超能力！

2025-07-31

微调之后还能做什么？大模型后训练全链路技术解析

2025-07-30

使用quarot量化qwen3并实现在线推理

2025-07-30

Unsloth微调Qwen3实战：让大模型训练飞起来的神器

2025-07-28

飞桨 AI Studio：一步步微调你的大模型

2025-07-24

150%训练效率提升：感知检测小模型训练优化方法

2025-07-22

10分钟微调，让0.6B模型媲美235B模型！免费体验进行中

2025-07-20

大模型微调技巧：LoRA 与 QLoRA讲解

了解更多

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

2025-05-21

DeepSeek V3 0526更新？实测代码能力已经提升，附实测案例。

2025-05-26

玩转大模型，你的GPU显存够用吗？一文看懂估算方法

2025-05-15

手把手教你用LLaMA-Factory微调Qwen3大模型

2025-06-17

Qwen3 与 ollama 兼容性问题

2025-05-10

【大模型微调】5.调参经验总结与显存占用因素探究

2025-06-21

Cursor0.50重磅更新，离AI原生IDE更近一步，处理复杂项目能力大幅提升

2025-05-10

教你如何10分钟内批量制作上万条大模型微调数据集

2025-05-13

聊聊Cherry Studio如何接入vLLM部署的本地大模型

2025-05-26

私有部署大模型需要多少显存？

2025-05-14

大家都在问

大模型微调，为什么99%的企业都不应该碰这个坑？

2025-06-20

万不得已，不要对 LLM 进行微调？

2025-06-17

可以将任何符合OpenAPI规范的接口转 MCP Server吗？

2025-05-21

OpenAI发布GPT-4.1系列模型，对行业最大吸引力是什么？

2025-05-17

私有部署大模型需要多少显存？

2025-05-14

软件公司如何为AI的下半场做准备？

2025-05-10

LoRA为何成为大模型微调不可或缺的核心技术？

2025-05-07

为什么AI多轮对话总是那么傻？

2025-05-07

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS 提示词框架提示词技巧 AI+电商 AI面试数字员工 ChatBI 知识管理开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB