小模型也能“偷师”顶尖水准？详解三种蒸馏术，效果不输本尊！

发布日期：2025-06-28 07:34:40 浏览次数： 2323

作者：智能体AI

微信搜一搜，关注“智能体AI”

你知道吗？大型语言模型（LLM）不仅能从海量的文本数据中学习，还能从其他LLM那里“偷师”！比如，Llama 4 Scout 和 Maverick 就是通过 Llama 4 Behemoth 这个更强大的模型训练出来的。谷歌的 Gemma 2 和 Gemma 3 也利用了自家 Gemini 模型的“经验”。这种模型之间的互相学习，靠的是一种叫做“知识蒸馏”的技术。今天，我们就来聊聊三种流行的知识蒸馏方法，看看它们是如何让LLM们实现“师徒传承”的。

一、知识蒸馏的两个阶段

知识蒸馏可以在LLM训练的两个不同阶段进行，具体取决于训练策略：

1、预训练阶段 在这个阶段，我们同时训练一个较大的“教师”模型和一个较小的“学生”模型。教师模型就像一位经验丰富的导师，而学生模型则是努力学习的新手。比如，Llama 4 就采用了这种方法，让大模型和小模型并肩成长。

2、后训练/微调阶段 这里我们先训练好一个强大的教师模型，然后把它的“知识”提炼出来，传授给较小的学生模型。这就像老师把毕生所学传给徒弟一样。DeepSeek 就用这种方式，把 DeepSeek-R1 的经验传给了通义千问（Qwen）和 Llama 3.1 模型。

有些模型甚至“双管齐下”，比如 Gemma 3 在预训练和微调阶段都用了知识蒸馏，效果自然更上一层楼。

二、三种常用的知识蒸馏技术

接下来，我们详细拆解三种知识蒸馏技术：软标签蒸馏、硬标签蒸馏和协同蒸馏。用比喻和例子带你轻松入门！

1、软标签蒸馏：老师把“思考笔记”全给你

怎么做？

想象一位老师，不仅告诉你答案，还把自己的整个思考过程摊开给你看。软标签蒸馏就是这样：我们先有一个训练好的教师模型，它会对语料库中的每个词生成一个概率分布——比如“这个词后面接‘你’的概率是 70%，接‘我’是 20%”。然后，学生模型也对同样的数据生成自己的概率分布，我们训练它，让它的预测尽量贴近老师的“思考笔记”。

举个栗子

假设老师是个语言大师，学生是个新手。老师说：“‘今天’后面接‘是’的可能性最大，但也可能接‘很’。”学生不仅学会了答案，还明白了老师的推理逻辑。

优点

这种方法就像让学生站在老师的肩膀上，能全面继承老师的推理能力和知识，学习效果非常扎实。

局限

但问题也不小。首先，你得能拿到老师的“笔记本”（也就是模型的权重），如果是私有模型，这就行不通。其次，存储这些概率分布需要巨量的空间。举个夸张的例子：如果词汇表有10万个token，语料库有5万亿个token，每个词的概率分布用8位浮点数存下来，你得准备500 million GB 的硬盘！这就像老师要把几仓库的笔记复印给学生，太不现实了。

2、硬标签蒸馏：老师只告诉你答案

怎么做？

这次老师变得“惜字如金”，只告诉你最终答案，不解释过程。硬标签蒸馏是这样：教师模型对每个输入给出最可能的词（比如“今天”后面接“是”），然后学生模型被训练去预测这个答案，而不是去模仿老师的整个概率分布。

举个栗子

DeepSeek 就用这种方法，把 DeepSeek-R1 的“答案”传给了通义千问（Qwen）和 Llama 3.1 模型。就像老师说：“答案是‘是’，照着学吧！”

优点

简单粗暴，效率高。相比软标签蒸馏，存储需求大幅减少，只需记录老师的最终选择，不用管那些复杂的概率数据。

局限

但缺点也很明显：学生只知道答案，却不知道老师是怎么想的。就像考试时抄了答案却没学懂原理，知识深度可能打了折扣。

3、协同蒸馏：师生一起成长

怎么做？

这回老师和学生从零开始，一起学习。协同蒸馏是这样：我们拿两个没训练过的模型，一个当老师，一个当学生，然后让它们同时面对数据。老师用真实的标签（标准答案）训练自己，学生则努力让自己的预测靠近老师的输出。

举个栗子

Llama 4 就用了这种方法。Llama 4 Behemoth（老师）带着 Llama 4 Scout 和 Maverick（学生）一起进步。刚开始，老师的预测可能也不准，所以学生会结合老师的意见和真实答案，慢慢摸索。

优点

这就像一场“教学相长”的旅程。老师在成长，学生也在老师的进步中受益，学到的东西更灵活、更全面。

局限

初期老师的水平有限，预测可能出错。学生得聪明点，既听老师的，又参考标准答案，不然容易被带偏。

三、知识蒸馏技术的优缺点总结

技术	优点	缺点
软标签蒸馏	知识转移全面，能学到推理过程	需要教师模型权重，存储需求巨大
硬标签蒸馏	简单高效，存储需求小	只学答案，深度不足
协同蒸馏	师生共同成长，学习灵活	初期教师不准，学生需平衡多方信息