我要投稿

大模型的蒸馏与量化相关概念通俗理解

发布日期：2025-06-11 04:12:52 浏览次数： 1843

作者：鸿煊的学习笔记

微信搜一搜，关注“鸿煊的学习笔记”

一、模型蒸馏：知识的传承与简化1.1 为什么需要模型蒸馏？1.2 模型蒸馏是如何实现的？1.3 模型蒸馏的优势二、模型量化：降低精度，提升效率2.1 为什么要进行模型量化？2.2 模型量化的方式有哪些？2.3 模型量化的优势三、小结

在大模型蓬勃发展的今天，模型的规模和复杂度不断攀升。然而，这也带来了诸如高计算成本、大存储需求等问题。为了让大模型能在更多设备上高效运行，模型蒸馏与量化技术应运而生。这两项技术就像是给大模型做 “瘦身” 与 “优化”，今天就带大家深入了解一下。

一、模型蒸馏：知识的传承与简化

模型蒸馏是一种知识迁移技术，简单来说，就是把大型、复杂且性能强的 “教师模型” 的知识，传递给小型、高效的 “学生模型”。就好比经验丰富的老师带学生，让学生能快速掌握精髓。

1.1 为什么需要模型蒸馏？

大模型虽然能力卓越，但 “身材庞大”，运行起来对设备要求高，在手机、嵌入式设备等资源受限的场景中难以施展拳脚。而直接训练小模型，效果往往不尽人意，因为小模型学习能力有限，难以捕捉到足够多的知识细节。模型蒸馏为解决这一矛盾提供了方案。

1.2 模型蒸馏是如何实现的？

训练教师模型：首先，要精心训练一个性能强大的教师模型。这个模型通常具有复杂的结构和大量的参数，就像一位知识渊博、经验丰富的大学者，对各种知识都能精准把握。

生成软标签：教师模型对训练数据进行预测，输出的不是简单的 “正确答案”（硬标签），而是每个类别的概率分布，这就是软标签。比如，在图像识别中，对于一张图片，教师模型不仅能判断出它是 “猫”，还能给出它有 80% 像猫、15% 像豹子、5% 像狗这样更丰富的信息。这些软标签包含了教师模型对各类别的置信度信息，是其知识的一种体现。
训练学生模型：学生模型利用教师模型生成的软标签进行训练。在训练过程中，通常会结合学生模型自身预测结果与真实标签的损失（学生损失），以及学生模型输出与教师模型输出（软标签）之间的差异（蒸馏损失），通过优化损失函数，让学生模型不断调整参数，使其输出尽可能接近教师模型的输出。这个过程就像是学生通过模仿老师的解题思路和思考方式，逐渐掌握知识。
微调：蒸馏完成后，还会对学生模型进行进一步微调，使其性能更上一层楼。

1.3 模型蒸馏的优势

模型压缩：学生模型比教师模型小得多，大大减少了模型的参数量和计算复杂度，适合部署在资源有限的设备上，如手机、物联网设备等，为这些设备实现智能应用提供了可能。

性能接近：通过学习教师模型的知识，学生模型的性能可以接近甚至在某些情况下超过教师模型。例如，DistilBERT 作为 BERT 的蒸馏版本，体积只有 BERT 的 40%，但性能却能达到 BERT 的 97% ，在自然语言处理任务中表现出色。

泛化能力强：软标签提供了更多的信息，让学生模型在面对新数据时表现更好，能够举一反三，提升了模型的泛化性能。

模型蒸馏的应用场景非常广泛，在自然语言处理领域，如 DistilBERT、TinyBERT 等轻量级模型的出现，让手机等设备也能流畅运行 NLP 任务；在计算机视觉中，可以将大型卷积神经网络蒸馏为轻量级模型，应用于手机拍照、人脸识别等场景；在边缘计算领域，智能家居、自动驾驶等场景中的低功耗设备，也得益于模型蒸馏技术，能够实现 AI 功能。

二、模型量化：降低精度，提升效率

模型量化是通过减少模型参数和计算表示精度来压缩模型的技术。其核心是将模型中的浮点数参数转换为低精度整数（如 8 位或更低），以减少存储需求和计算成本。

2.1 为什么要进行模型量化？

在深度学习模型中，乘加计算量巨大，通常需要 GPU 等强大的计算平台才能实现实时运算，这对于端上产品（如手机、智能手表等）来说，成本和能耗过高。而且大模型巨大的参数量，对访存和算力提出了更高要求。而量化后的定点模型相比于浮点模型，占用的访存更小，且定点算力更高。因此，模型量化成为有效降低计算量、提升模型运行效率的重要手段。

2.2 模型量化的方式有哪些？

后训练量化（PTQ）：在模型训练完成后进行量化。通过统计分析确定最佳的量化比特数，并对权重和激活值进行量化。具体又分为动态离线量化和静态离线量化。

动态离线量化：仅将模型中特定算子的权重从 FP32 类型映射成 INT8/16 类型，bias 和激活函数在推理过程中动态量化。其缩放因子会根据不同的输入值动态计算。
静态离线量化：使用少量无标签校准数据，采用 KL 散度等方法计算缩放因子。与动态量化不同，静态量化的模型在使用前有 “calibrate” 的过程，即校准缩放因子。后训练量化无需对模型架构进行修改或重新训练，操作简单高效，但可能会带来一定的量化损失。

量化感知训练（QAT）：在训练过程中加入量化噪声，使模型在训练阶段就适应低精度表示，从而提高量化后的性能。这种方法在训练时会模拟量化效果，将量化损失纳入模型的目标函数，以保持模型性能。不过，这会降低训练速度，但能获得更高的精度。在大多数情况下，优先选择无需训练的 PTQ，如果 PTQ 无法满足精度要求，再考虑 QAT。

混合精度训练：结合不同精度的数据类型进行训练，以平衡精度和计算效率。例如，在人脸识别中，对关键的眼睛区域用 FP16 高精度计算，而对背景部分用 INT8 低精度计算；在语音识别中，关键词用 16bit，静音段用 4bit。这样可以在保证整体性能的前提下，最大程度提高计算效率。

2.3 模型量化的优势

更小的模型尺寸：以 8bit 量化为例，与 32bit 浮点数相比，模型体积可降低为原来的四分之一，大大减少了模型的存储需求，无论是模型的存储还是更新都更加便捷。

更低的功耗：移动 8bit 数据比移动 32bit 浮点型数据效率高 4 倍，由于内存使用量与功耗在一定程度上成正比，因此量化可以有效降低设备的功耗，延长电池续航时间，这对于移动设备尤为重要。

更快的计算速度：大多数处理器都支持对 8bit 数据的更快处理，如果是二值量化，优势更加明显。在一些计算平台上，INT8 的算力一般高于 FP16，通过对权重和激活值进行量化，可以利用 INT8 算力，提高模型推理速度，特别是在服务端长 batch 和长上下文的场景中，通过量化权重和 KV cache 来减少访存，提升计算效率。

模型量化技术在深度学习领域具有广泛的应用前景，尤其适用于边缘设备和实时应用场景，能够在保持较高精度的同时，显著减少模型的存储和计算需求，让大模型在更多设备上得以高效运行。