微信扫码
添加专属顾问
我要投稿
深度学习模型压缩的革命性技术,探索知识蒸馏的奥秘。 核心内容: 1. 知识蒸馏技术的历史与重要性 2. 教师-学生模型的工作原理解析 3. 知识蒸馏的不同形式与实现原理
“ 知识蒸馏技术是模型轻量化小型化的一种方式,其效果也远超我们的想象 ”
蒸馏技术
蒸馏技术是由诺奖得主——Hinton在2015年提出的,但严格来说Hinton只是在前人的基础之上优化了蒸馏技术。
蒸馏技术——现在对蒸馏技术的定义是教师模型(大模型)通过训练数据学到的“知识”(如类别间关系、特征分布)被提炼到学生模型(小模型)中。
简单理解蒸馏技术就是老师教学生,在蒸馏技术之前,训练模型需要从0开始;也就是需要随机初始化模型参数;这就类似于你从小开始学习全部靠自学,没有任何人教你。
很明显,这种方式学习效率低下;因此,就产生了一个新的职业——教师;它们的作用就是在他们自己学习的基础之上,把知识和经验教给你,这样不论是学习的速度还是效率,还是准确率都会大大提高。
而模型蒸馏就是基于这个理论,用训练好的大模型去“教”简单的小模型;由于是站在巨人的肩膀上,因此蒸馏出来的小模型不论是表现还是响应速度都比大模型要好。
当然,蒸馏技术作为目前一项热门技术,其实现原理并没有大家想象中的那么简单;首先,在2015 Hinton提出知识蒸馏之前,模型蒸馏已经有人在使用了;只不过那时候的蒸馏技术还比较简单,只是在输出层对模型的预测结果进行学习;这种方式被称为硬目标。
这就像上学时有时老师说的那样,你实在不会记住就行了,不需要知道为什么;但这就会产生一个问题,那就是你只能学会同一个题目或者是很类似的题目,但换个新题目你可能就不会了。
所以,老师常说我们不但要学会知识,更重要的是要学会学习的方法——因此Hinton提出的知识蒸馏就类似于学习方法,它学习的是大模型预测数据的概率分布或思考过程,而不仅仅只是记住答案;而这种方式就被叫做软目标。
以目前的蒸馏技术来看,蒸馏也分为多种不同的情况;比如输出层蒸馏,中间层蒸馏和自蒸馏等多种不同的形式;但不论什么形式的蒸馏,其目的只有一个,那就是让student模型去学习Teacher老师模型的“知识”。
实现原理
知识蒸馏的实现原理主要包括两个方面,知识迁移和软标签:
软标签(Soft Labels):教师模型输出的概率分布(非硬标签)包含更多信息,例如“猫和狗有相似特征”,学生模型通过模仿这些软标签学习泛化能力。
模型蒸馏使用温度T来控制软标签的相关性,温度越高,软标签的相关度越高,温度越低软标签相关度越低。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2024-08-13
2024-06-13
2024-08-21
2024-09-23
2024-07-31
2024-05-28
2024-08-04
2024-04-26
2024-07-09
2024-09-17
2025-05-08
2025-05-07
2025-04-30
2025-04-29
2025-04-29
2025-04-29
2025-04-28
2025-04-28