支持私有化部署
AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


大模型蒸馏技术的演进历史与实现原理

发布日期:2025-05-08 14:26:16 浏览次数: 1555 作者:AI探索时代
推荐语

深度学习模型压缩的革命性技术,探索知识蒸馏的奥秘。

核心内容:
1. 知识蒸馏技术的历史与重要性
2. 教师-学生模型的工作原理解析
3. 知识蒸馏的不同形式与实现原理

杨芳贤
53A创始人/腾讯云(TVP)最具价值专家

 知识蒸馏技术是模型轻量化小型化的一种方式,其效果也远超我们的想象 



在深度学习领域模型的压缩与部署是一项非常重要的研究课题,原因就在于模型巨大的成本和算力需求;因此,怎么把模型小型化就成为一个亟待解决的问题。

因此,一项技术就被应用于模型小型化的过程,这个技术就叫做知识蒸馏,而我们平常说的比较多的是大模型蒸馏技术。

当然,知识蒸馏技术并不是一项新技术,其在2015年就已经被诺贝尔奖获得者——Hinton等人提出;之后在chatGPT带火大模型技术之后,知识蒸馏就又再次进入大众的视野。

但如果说知识蒸馏最爆火的原因就在于DeepSeek的发布,我们都知道DeepSeek是我国的模型之光;而其解决的最主要的问题就模型的训练成本问题;但可能很少有人知道,其实DeepSeek是使用知识蒸馏技术,从阿里的千问系列蒸馏得到的DeepSeek模型。



所以,什么是蒸馏技术,以及蒸馏技术的发展历史与实现原理是什么?




蒸馏技术




蒸馏技术是由诺奖得主——Hinton在2015年提出的,但严格来说Hinton只是在前人的基础之上优化了蒸馏技术。


蒸馏技术——现在对蒸馏技术的定义是教师模型(大模型)通过训练数据学到的“知识”(如类别间关系、特征分布)被提炼到学生模型(小模型)中。


简单理解蒸馏技术就是老师教学生,在蒸馏技术之前,训练模型需要从0开始;也就是需要随机初始化模型参数;这就类似于你从小开始学习全部靠自学,没有任何人教你。




很明显,这种方式学习效率低下;因此,就产生了一个新的职业——教师;它们的作用就是在他们自己学习的基础之上,把知识和经验教给你,这样不论是学习的速度还是效率,还是准确率都会大大提高。



而模型蒸馏就是基于这个理论,用训练好的大模型去“教”简单的小模型;由于是站在巨人的肩膀上,因此蒸馏出来的小模型不论是表现还是响应速度都比大模型要好。


当然,蒸馏技术作为目前一项热门技术,其实现原理并没有大家想象中的那么简单;首先,在2015 Hinton提出知识蒸馏之前,模型蒸馏已经有人在使用了;只不过那时候的蒸馏技术还比较简单,只是在输出层对模型的预测结果进行学习;这种方式被称为硬目标。


这就像上学时有时老师说的那样,你实在不会记住就行了,不需要知道为什么;但这就会产生一个问题,那就是你只能学会同一个题目或者是很类似的题目,但换个新题目你可能就不会了。


所以,老师常说我们不但要学会知识,更重要的是要学会学习的方法——因此Hinton提出的知识蒸馏就类似于学习方法,它学习的是大模型预测数据的概率分布或思考过程,而不仅仅只是记住答案;而这种方式就被叫做软目标。


以目前的蒸馏技术来看,蒸馏也分为多种不同的情况;比如输出层蒸馏,中间层蒸馏和自蒸馏等多种不同的形式;但不论什么形式的蒸馏,其目的只有一个,那就是让student模型去学习Teacher老师模型的“知识”。




实现原理


知识蒸馏的实现原理主要包括两个方面,知识迁移和软标签:


知识迁移:教师模型(大模型)通过训练数据学到的“知识”(如类别间关系、特征分布)被提炼到学生模型(小模型)中。


软标签(Soft Labels):教师模型输出的概率分布(非硬标签)包含更多信息,例如“猫和狗有相似特征”,学生模型通过模仿这些软标签学习泛化能力。


模型蒸馏使用温度T来控制软标签的相关性,温度越高,软标签的相关度越高,温度越低软标签相关度越低。


53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询