我要投稿

数据蒸馏技术探索

发布日期：2025-12-30 13:12:08 浏览次数： 1791

作者：亚信科技新技术探索

微信搜一搜，关注“亚信科技新技术探索”

数据蒸馏技术探索

摘要：随着深度学习的广泛应用，海量数据集的引入在提升模型性能的同时，也带来了数据存储与传输压力大、模型训练周期长等严峻挑战。在此背景下，数据蒸馏[1]作为一种数据轻量化技术应运而生。其核心思想是合成一个规模远小于原始数据集的精炼数据集，并确保在该小型数据集上训练出的模型，能够达到与在完整数据集上训练出的模型相当的性能。

目前，主流的数据蒸馏算法依据其核心思想，可分为元学习、参数匹配、分布匹配以及因子化与生成式参数化等主要类别。本文系统梳理了该技术领域：首先从概念界定与演进脉络出发，深入剖析了上述核心算法的原理与优劣；在此基础上，构建了多维度的评估体系，并探讨了该技术在持续学习、联邦学习等场景中的应用价值；最后，对未来发展趋势进行了展望。

一

背景介绍

在深度学习广泛应用的背景下，训练数据的轻量化可以有效地减轻数据存储与传输的压力，并提升深度学习模型训练效率。面对日益增长的数据规模和有限的计算资源之间的矛盾，学术界和工业界正积极探索高效的数据处理范式。通过数据蒸馏（Dataset Distillation）和浓缩[2]（Condensation）技术，将原有庞大的训练数据集浓缩为一个信息量高度密集的小型合成数据集，已成为解决该问题的一个重要方法。

（一）数据蒸馏的概念

数据蒸馏（Dataset Distillation, DD），也被称为数据集浓缩（Dataset Condensation, DC），其核心目标是：从一个大规模的原始训练数据集T中，通过算法合成一个规模远小于的小型数据集S，即|S|<<|T|，使得在S上训练的模型性能，能够与在T上训练的模型性能相当：

其中, RD(⋅)代表真实数据分布D的期望风险，实践中用测试集经验风险近似；θ代表模型参数。

数据蒸馏与传统的数据约简方法，如Coreset选择，有着本质的区别：

· Coreset选择：通过某种策略（如基于梯度、特征空间覆盖等）从原始数据集中挑选出一个具有代表性的真实样本子集。其产出结果是原始数据的一个子集。

· 数据蒸馏：通过优化算法合成全新的数据样本。这些合成的样本无需存在于原始数据集中，它们是为最大化信息密度而“创造”出来的抽象表示。

图1. 蒸馏后的数据视觉辨认度低

由于合成数据不受限于原始样本，数据蒸馏拥有更大的表达空间，尤其在极高的压缩比下，通常能获得比Coreset选择更好的性能。此外，合成数据不直接暴露原始样本像素，可在一定程度上降低直接泄露原始特征的风险。然而，隐私保护并非天然得到保证，往往需要结合差分隐私或抗成员推断攻击才能实现可量化的隐私收益。

（二）数据蒸馏方法的发展回顾

自2018年数据蒸馏概念被提出以来，其核心算法经历了快速的技术迭代。这些演进主要围绕一个根本问题：如何高效且准确地将大型数据集T所蕴含的知识迁移并压缩到小型合成数据集S中。

最初的开创性思路源自元学习（Meta-Learning）方法[1]，其目标是直接匹配模型的最终性能。该方法将合成数据集视为一组可优化的超参数，并通过一个双层优化问题求解：内层循环使用S训练一个模型，外层循环则使用原始数据T来评估该模型的性能，即计算“元损失”，并以此更新S。然而，这种方法依赖于通过多步训练过程进行反向传播，导致计算成本极其高昂且难以扩展。为解决此效率瓶颈，后续研究引入了核岭回归（KRR）或神经正切核（NTK）等方法，它们将内层迭代训练替换为具有闭式解的核回归，从而显著提升了效率。

为了从根本上绕开双层优化的复杂性，参数匹配（Parameter Matching）方法被提出。其核心思想是，不再匹配最终的模型性能，而是匹配模型训练过程中的动态。该框架假设，如果S和T蕴含的知识等价，模型在这两个数据集上训练时，其参数的更新轨迹也应相似。这一框架根据匹配粒度的不同，迅速分化为两个主要分支：一是梯度匹配[2]（Gradient Matching），它要求模型在单步训练中，由S计算出的梯度应与由T计算出的梯度尽可能一致；二是轨迹匹配[3]（Trajectory Matching），它将这一思想从匹配单步的“梯度”扩展到了匹配多步训练后的“模型权重”轨迹。

尽管参数匹配显著提高了效率，但它仍需在蒸馏过程中反复初始化和模拟模型训练。因此，分布匹配[4] （Distribution Matching）方法提供了一种更高效的思路，它避免了对训练动态的模拟。该框架的核心假设是，如果S和T在某个深度特征空间中的数据分布相似，它们对模型的训练效果也应相似。其实现通常是使用一个神经网络作为特征提取器，通过最小化与在特征空间中的分布差异（例如匹配各类别特征的均值）来优化S。这使其成为计算速度最快的方法之一，但其性能可能略低于参数匹配方法。

另一个重要的发展方向是因子化与生成式参数化[5][6][7][8]（Factorization & Generative Parameterization）方法。这一思路的重点不在于优化目标，而在于对“合成数据S应如何被表示”这一问题提出了新的见解。传统方法直接优化S中的每一个像素，而因子化方法则认为这样做存在信息冗余，转而优化一组更紧凑的参数化表示，例如将S分解为共享的“基向量”和对应的“系数”，或利用生成模型优化其输入端的潜码。这些方法通过引入更强的结构先验，不仅提高了压缩率，还在多个基准上取得了当前最优的性能。

此外，随着该方向研究的不断演化，研究人员也开始从更宏观的视角对这一技术体系进行系统梳理[11]，对上述四大技术路线元学习、参数匹配、分布匹配以及生成式/因子化方法进行了统一分析，并系统总结了数据蒸馏在跨架构泛化、隐私保护、可扩展性以及多模态场景中的新趋势。

二

数据蒸馏方法

第一章回顾了数据蒸馏技术的核心演进脉络。本章将重点介绍数据蒸馏的几种关键方法，按照上一章总结的四个方向，即元学习、参数匹配、分布匹配以及因子化与生成式参数化方法，逐一展开详细论述。

（一）元学习方法

元学习方法是数据蒸馏领域的开创性思路。其核心目标是直接匹配模型的最终性能。

1.方法框架：

该方法将合成数据集S视作一组可学习的参数，并构建了一个双层优化（Bilevel Optimization）问题：

· 内层循环 (Inner Loop)： 优化模型参数。给定当前的合成数据集S，一个学习器通过最小化其在S上的损失来找到一组最优参数θ_S。

· 外层循环 (Outer Loop)： 优化合成数据θ_S。使用在内层循环中得到的模型，评估其在原始数据集T上的性能，即计算“元损失”LT(θ_S)。这个元损失的梯度将反向传播，用于更新合成数据集S。

该过程可以形式化描述为：

2.挑战

在实际操作中，内层循环的最优参数θ_S^∗是通过多步梯度下降迭代得到的。因此，为了计算外层循环对S的梯度，需要将整个内层训练过程展开，应用时间反向传播算法(BPTT)。这个过程计算成本极高，且需要存储完整的计算图，导致内存占用巨大，严重限制了方法的可扩展性。如下式所示，θ_S^∗对S的偏导数计算需要沿训练轨迹链式计算，所以需要将计算图完整保留：

3.改进

为解决 BPTT 的效率瓶颈，后续研究提出用核岭回归（KRR）替代内层循环的迭代训练。基于神经正切核（NTK）理论，无限宽网络的训练等价于一个具有闭式解的核回归问题。通过这种方式，内层优化不再需要迭代，从而在近似意义上避免了BPTT，显著提升了效率。如下式所示：

（二）参数匹配方法

参数匹配框架为了从根本上解决元学习的效率问题，不再匹配模型的最终性能，转而匹配模型训练过程中的动态。其核心假设是：若S与T等效，则模型在二者上训练时，其参数（梯度或权重）的更新应保持一致。

该框架主要分为梯度匹配和轨迹匹配两种路径实现。

1.路径一梯度匹配方法

梯度匹配方法是一种“单步”的参数匹配方法。该方法要求在任意给定的模型参数θ下，由合成数据S计算出的梯度应与由原始数据T计算出的梯度尽可能一致。

其优化目标是最小化两个梯度向量之间的距离，通常使用余弦距离：

在实践中，为提高收敛性和稳定性，梯度匹配通常在网络的多个训练阶段进行，并且是逐类别独立计算和优化。

· 优势：该方法成功避免了双层优化，计算效率远高于元学习的BPTT方法。它不需要计算高阶梯度，内存占用也更小。

· 挑战：该方法只匹配了训练过程中的梯度，而非最终的权重。这种单步近似可能导致在多步训练后产生“累积轨迹误差”（accumulated trajectory error），即在S上训练的轨迹会逐渐偏离在T上的轨迹。

2.路径二轨迹匹配方法

轨迹匹配方法则是分为“多步”进行参数匹配。该方法将匹配目标从单步的“梯度”∇θ扩展到了多步训练后的“模型权重” θ。

轨迹匹配方法通常包含以下步骤：

Step1 专家轨迹：首先，在原始数据集T上完整训练一个“专家模型”，并将其整个训练过程中的模型权重θ _T^(k)作为“专家轨迹”存储下来。

Step2 轨迹跟随：在蒸馏时，从专家轨迹中随机选取一个起始点θ _T^(k)来初始化模型。

Step3 匹配优化：使用合成数据S对该模型训练N步，得到θ s ^(k+N)。优化的目标是最小化与专家轨迹中未来某个点θ _T^(k+M)（通常M>>N）之间的距离。

以L2损失为例，其损失函数常被归一化为：

· 优势：通过匹配长程轨迹而非瞬时梯度，该方法能更准确地捕捉原始数据集的训练动态，因此在性能上通常优于梯度匹配。

· 挑战：该方法引入了新的计算开销。首先，它需要预先训练并存储专家轨迹，这在大型数据集（如ImageNet）上开销巨大。其次，在优化S时，它需要反向传播N步的训练过程，虽然通常小于BPTT的总步数，但这仍然带来了显著的时间和内存成本。

（三）分布匹配方法

分布匹配方法提出了一种更高效的思路，它避免了模拟训练动态的过程，转而采用单层优化（single-level optimization）来对齐特征分布。

该框架的核心假设是：如果S和T在某个深度特征空间中的数据分布相似，那么它们对模型的训练效果也应相似。

其典型实现方式是引入一个固定的特征提取器𝜓，通常采用随机初始化并保持参数冻结，以避免引入na模型偏置。在此特征空间中，通过最小化合成数据𝑆与原始数据𝑇的特征分布差异来优化𝑆。最常见的策略是匹配分布的统计矩，例如对每个类别𝑐匹配特征均值：

尽管经典方法采用随机特征提取器以确保表征中性，后续研究也探索了使用轻量预训练特征来提升稳定性与表征质量。

由于该方法无需嵌套优化或BPTT，其计算速度非常快。后续的改进方法，CAFE[9]则通过匹配多个网络层的特征分布来捕捉更丰富的信息。

· 优势：效率极高。由于该方法无需嵌套优化或BPTT，也不涉及模型训练的迭代，其计算速度非常快，内存占用也最小。

· 挑战：性能权衡。该方法的性能通常略低于参数匹配方法。其核心假设：特征分布相似则训练效果相似是一个比参数匹配更“间接”的代理目标。它保证了数据的静态特征相似，但不能直接保证数据在训练动态中的行为也相似。

（四）因子化与生成式参数化方法

上述三类方法主要关注“优化目标”是什么（匹配性能、参数或分布）。而因子化与生成式参数化则是一个正交的维度，它关注合成数据S应如何被表示。

传统方法直接将的每个像素作为自由参数进行优化。此类方法则认为这样做存在大量信息冗余，转而优化一组更紧凑的参数化表示，从而提高压缩效率。

1.因子化方法

因子化 (Factorization)方法将合成数据集分解为更小的、可学习的组件。

一种代表性工作将数据集参数化为S=A×M，其中是一组共享的“基向量”（Bases），或称“记忆”；而A是可学习的“系数” （Coefficients），或称“寻址矩阵”。

另一种方式S=h（b，y），其中b是一组可学习的潜码，y为类别/语义条件，h是一个或多个可学习的解码器网络。

这些新引入的参数A，M，b，h可以在上述任意蒸馏目标，BPTT，轨迹匹配，分布匹配目标下，进行端到端优化。

2.生成式参数化方法

生成式参数化(Generative Parameterization)方法则利用一个预训练好的生成模型，如GAN或扩散模型作为生成S的先验。

在这种范式下，优化的不再是数据像素或解码器网络，而仅仅是输入到这个固定生成器G _fixed的潜码Z_learnable。

这种方法利用了生成模型中蕴含的丰富视觉先验，使得合成的图像更真实，并显著提升了合成数据在不同网络架构间的泛化能力（Cross-Architecture Generalization）。

3.优势与挑战

因子化与生成式参数化方法的优势与挑战如下：

（1）优势：

· 极高的数据压缩率：通过存储紧凑的潜码或基向量，而非完整的像素，极大地提高了压缩效率。

· 性能更优：通过在参数化空间中引入结构先验和知识共享，如共享的基向量。这类方法，特别是因子化在多个基准上取得了当前最优的性能。

· 泛化性更强：生成式参数化方法利用了大型生成模型的视觉先验，使得合成的图像更“真实”，这显著提升了合成数据在不同网络架构间的泛化能力。

（2）挑战：

· 先验依赖：方法的有效性高度依赖于所选的参数化形式。例如，解码器网络h的结构，或预训练生成器G_fixed的质量，会成为影响蒸馏效果的上限。

· 优化复杂度：虽然参数量减少了，但优化解码器网络h或在GAN的潜空间中搜索z本身也可能是一个复杂的非凸优化问题。

三

数据蒸馏的评估方法

评估数据蒸馏（DD）算法的有效性是一个多维度的任务。一个优秀的蒸馏数据集不仅要在标准测试中表现良好，还必须兼顾生成效率、对不同模型架构的泛化能力，以及在特定下游任务中的实用性。本章主要介绍评估范式。

（一）核心评估指标：性能、效率与泛化性

根据文献总结，数据蒸馏的评估主要围绕三个核心基石展开：

1.蒸馏性能 (Performance)

这是最直接的评估指标，衡量了合成数据集S在多大程度上复现了原始数据集T的知识。

· 标准基准测试 (Standard Benchmark)：评估的标准流程是，在合成数据集S上从头开始训练一个模型，然后在原始的测试集上评估该模型的性能。

· 任务相关性：性能指标随任务而变化。对于图像分类，这通常指“测试准确率”（Test Accuracy）；对于回归任务，则可能是“均方误差”（MSE）；在推荐系统等领域，也可能使用nDCG等排名指标。

2.效率与可扩展性 (Efficiency & Scalability)

数据蒸馏的主要动机之一是提升效率，因此其成本是一个关键考量因素。

· 训练加速比：评估模型在S上达到与在T上相当的性能所需的时间。这通常也通过比较不同压缩比（即 IPC，Images Per Class）下的性能曲线来体现。

· 蒸馏成本：指生成合成数据集S本身所需的时间和资源。这包括“总运行时间”（Run-Time）和“峰值GPU内存占用”（Peak GPU Memory Usage）。

· 可扩展性：指算法处理大规模数据集（如 ImageNet）的能力。许多在小型数据集（如 CIFAR-10）上有效的方法，在扩展到高分辨率或多类别时会面临严峻的计算和内存挑战。

3.泛化性与迁移能力 (Generalization & Transferability)

这是评估蒸馏算法稳健性的一个更严苛的标准，衡量了合成数据S在“未见过”的条件下是否依然有效。

· 跨架构泛化性 (Cross-Architecture Generalization)：这是最核心的泛化性测试。

· 评估方式：标准的做法是，使用一种架构（如ConvNet）来生成合成数据集S，然后使用这个固定的S去训练一系列不同的、在蒸馏过程中未见过的架构（如 ResNet, VGG, ViT）。

· 评估重点：理想的S应当与蒸馏时所用的架构解耦。然而，许多方法生成的S会“过拟合”到特定的训练架构上，导致在其他架构上训练时性能显著下降。

（二）扩展评估维度：下游任务与可信度

随着领域的发展，评估方法不再局限于标准的分类准确率，而是扩展到更复杂、更贴近实际应用的维度。

1.下游任务应用 (Downstream Task Application)

合成数据集S作为原始数据的高效代理，其在特定下游任务中的表现是衡量其价值的重要标准：

· 持续学习 (Continual Learning)：评估S作为“记忆回放缓冲区”（Replay Buffer）时，在多大程度上能够缓解模型在学习新任务时的“灾难性遗忘”问题。

· 神经架构搜索 (NAS)：评估在S上训练不同网络架构所得到的性能排序，是否与在上的排序（即真实排名）保持一致。

· 联邦学习 (Federated Learning)：评估在客户端之间传输S（而非模型参数）的策略，能否有效降低通信成本，同时解决数据非独立同分布（non-iid）带来的挑战。

2.稳健性与可信度 (Robustness & Trustworthiness)

这是一个前沿的评估方向，关注模型在S上训练后，是否具备“可信赖”的特性：

· 隐私保护 (Privacy Preservation)：评估S在多大程度上保护了中的隐私信息，例如通过差分隐私（DP）理论分析或成员推理攻击（Membership Inference Attack）来衡量。

· 对抗稳健性 (Adversarial Robustness)：评估在S上训练的模型，其抵御对抗性攻击（如 PGD 攻击）的能力是否能与在T上训练的模型相媲美。

· 后门攻击 (Backdoor Attacks)：这是一个双向评估。既可以评估S是否能被恶意注入后门触发器，也可以评估在S上训练的模型是否能天然抵御此类攻击。

· 模型校准与分布外检测：评估在S上训练的模型是否存在过度自信，即模型校准度不佳，以及其检测分布外（Out-of-Distribution, OoD）样本的能力是否下降。

综上所述，数据蒸馏的评估是一个综合性的过程。一个理想的蒸馏算法不仅要在标准性能测试中取得高分，还必须在效率、跨架构泛化性、下游任务适用性乃至新兴的可信度挑战上展现出均衡且稳健的表现。

四

数据蒸馏的应用

（一）提升训练效率

提升训练效率是数据蒸馏最直接的应用，旨在解决大型数据集带来的训练时间和计算资源瓶颈。

· 持续学习 (Continual Learning)： 数据蒸馏被广泛用于解决“灾难性遗忘”问题。在持续学习中，模型需要不断学习新任务而不忘记旧任务。使用数据蒸馏，可以将旧任务的知识压缩到一个极小的合成数据集中。这个合成数据集中含有数据中相应的知识，可以充当记忆回放的缓冲区，模型在学习新任务时只需这个小型数据集，提高了训练效率。

· 联邦学习 (Federated Learning)：在联邦学习中，数据蒸馏被用于大幅降低通信成本并增强隐私保护。传统联邦学习需要客户端上传庞大的模型梯度或参数。应用数据蒸馏后，客户端可以在本地将自己的私有数据提炼成一个微小的、匿名的合成数据集，然后仅将这个合成数据集上传到中央服务器。这极大地减少了通信量，并且由于传输的是合成数据而非原始数据梯度，隐私性也得到提升。

· 神经架构搜索 (Neural Architecture Search)：NAS需要在搜索空间中评估数千种候选网络架构的性能，计算成本高。数据蒸馏可以创建一个高质量的“代理数据集”。研究人员可以在这个微型数据集上快速训练和评估不同的架构，其性能排序与在完整数据集上的真实排序具有较高的相关性，从而显著降低NAS评估成本。

（二）可信AI

数据蒸馏在隐私、安全性和可解释性方面展现了独特的应用价值。

· 隐私保护 (Privacy Protection)： 这是一个重大的应用方向。由于蒸馏算法合成的数据是“创造”出来的，它们通常在视觉上难以辨认，或呈现为抽象的模式，从而天然地隐藏了原始数据中的敏感信息。例如，可以将数据蒸馏技术应用在医疗影像领域。医疗机构可以将其敏感的患者数据蒸馏为小型的匿名合成数据集，既能用于科研和模型共享，又无需担心患者隐私泄露。同时，数据蒸馏也可以和差分隐私 (DP)相结合，以实现可量化的隐私保护。

· 安全性与稳健性 (Security & Robustness)： 数据蒸馏可以用于高效的对抗性训练，以提升模型的稳健性。此外，合成样本的抽象形态可能使简单的像素及触发器难以直接注入，但需要注意的是若攻击者操控蒸馏过程，如优化目标、增强策略、初始化或生成器潜码，后门反而可能更隐蔽。因此，数据蒸馏与后门防御/攻击是双向问题，需要专门的安全评测。

· 可解释性 (Explainability)：数据蒸馏产生的微型数据集可以充当连接训练数据和测试数据的“桥梁”。研究人员可以通过分析这个小型数据集，来理解和解释模型的决策依据，例如衡量特定训练样本对模型预测的影响。

五

总结与展望

综上所述，数据蒸馏技术通过从原始数据中提取核心知识，为解决深度学习的数据效率问题提供了极具潜力的解决方案。当前，这一领域正经历着从单一模态向多模态融合的关键跨越，研究范式已不再局限于静态图像，而是拓展至更复杂的数据形态。

一方面，图结构数据的蒸馏（图浓缩）正在赋能生物制药与社交网络分析，解决复杂拓扑结构下的模型训练难题；另一方面，基于词嵌入空间，面向大语言模型的文本蒸馏技术应运而生，为模型的低成本微调开辟了新路径。此外，针对视频与时序数据，通过解耦时空特征实现动态信息的“高保真”压缩，也成为了最新的探索方向。

未来，数据蒸馏不仅是一种数据预处理的手段，更将演变为一种通用的数据表征范式，成为推动人工智能发展的支撑技术。