我要投稿

社区供稿 | 3700 次预训练总结超参规律，开源海量实验，告别盲猜

发布日期：2025-04-17 12:41:21 浏览次数： 1781

作者：Hugging Face

微信搜一搜，关注“Hugging Face”

近年来，大语言模型 LLMs 在多种任务上的卓越表现已得到广泛认可。然而，要实现其高效部署，精细的超参数优化至关重要。为了探究最佳超参数的规律，我们开展了大规模的实证研究，通过在不同配置上进行网格搜索，我们揭示了一套通用的最优超参数缩放定律（Optimal Hyperparameter Scaling Law）。

我们的研究发现，最优学习率与模型参数规模及数据规模呈幂律关系，而最优批量大小则主要随数据规模变化。在固定模型参数和数据规模的条件下，我们进一步分析了超参数的损失函数曲面，揭示了其凸性特征。这一凸优化特性意味着存在一个稳定的超参数最优区间，使得在合理范围内调整超参数时性能仍能保持接近最佳水平。

基于这一研究，我们为社区贡献了一套通用的即插即用超参数优化工具。在测试集上的实验表明，该工具估算的超参数配置与全局最优 LLM 性能（通过穷举搜索得到）之间的误差仅为 0.09%，展现出了极高的可靠性和有效性。更重要的是，这些规律在不同模型稀疏度、训练数据分布以及模型结构变化下均表现出惊人的鲁棒性。

据我们所知，这是首个同时适用于不同模型结构（如专家混合模型 Mixture-of-Experts 和稠密 Transformer 结构）以及不同数据分布的最优超参数缩放定律的研究。这项研究的实验规模空前，消耗了近百万小时的 NVIDIA H800 GPU 计算资源，从零开始训练了 3,700 个不同模型尺寸和超参数配置的 LLM，总计处理了约 100 万亿个 tokens。

论文链接：https://arxiv.org/abs/2503.04715

工具链接：https://step-law.github.io/

开源地址：https://github.com/step-law/steplaw

训练过程：https://wandb.ai/billzid/predictable-scale

Hugging Face 主页：https://hf.co/StepLaw

「Step Law」最优超参数缩放法则

我们从头训练了 3,700 个不同规模和超参数组合的大语言模型 (LLM)，共处理了超 100 万亿个 token，对超参数进行了全面的网格搜索，发现了一条普适的缩放法则 (简称 Step Law): 最优学习率随模型参数规模与数据规模呈幂律变化，而最优批量大小仅与数据规模相关。其具体公式如下:

图一展示了一个 10 亿参数的模型在 1000 亿个 tokens 上训练的超参数空间。全局最优点（红色的）代表每对学习率和批量大小组合下的最低训练损失，而等高线显示了相对于这些最优点的相对损失差异。我们的 Step Law 在预测最优点方面的准确性最高，几乎与全局最优点一致。

图一：在 400M 的 Dense LLM 上训练 40B Token（左）和在 1B 的 Dense LLM 上训练100B Token（右）的超参-损失等高线图

我们对行业内不同方法进行了比较，所有方法都转换成了预测 Optimal Token Wise BatchSize。这里所有的等高线都是从头训练的小模型所得的真实收敛后的 Train Smooth Loss。左右两张图的所有等高线，分别来自于两组共 240 个采用不同超参（Grid Search）的端到端训练的小模型。Global Mimimum 是来 120 个小模型中最终 Train Smooth Loss 最小的那个。等高线表示距离 Global Mimimum 的从最终 loss 角度的相对距离。而超越 +2% 的点位，并没有体现在图中。

在做相同的 Model Size (N)，相同的训练 Token 量 (D) 的情况下。值得关注的是，实验表明，在固定模型与数据规模时，超参数优化的损失函数曲面呈现出明显的凸性特征，这意味着存在一个稳定且易寻的最优超参数区域。凸性特征如下图所示：

图二：Learning Rate 与 Batch Size 在 1B 模型训练 100B Token 上的损失分布。散点图（左）与 3D 曲面（右）图中的每一个实心点都是真实值，是 120 个从头训练的一个小模型，在训练结束之后的收敛 Loss

为了展示这样的凸性，研究员们构造了如右图一样的 3 维空间，空间的横轴为 Learning Rate，纵轴为 Batch-size，高度轴为 Loss。对于这个三维空间我们进行横面和竖面的切割。

如左上图得到固定不同的 Learning Rate 情况下，最终收敛的 Train Smoothed Loss随着 Batchsize 的变化。而左下图是固定不同的 Batchsize 情况下，最终收敛的 Train Smoothed Loss 随着 Learning Rate 的变化。可以显著的观测到一种凸性，且在凸性的底端，是一个相对平坦的区域。这意味着 Optimal Learning Rate 和 Batchsize 很可能是一个比较大区域。

为了便于学界和业界应用，我们推出了一款通用的最优超参数估算工具——（https://step-law.github.io），其预测结果与穷举搜索的全局最优超参数相比，性能仅有 0.09% 的差距。同时，我们还在该网站上公开了所有超参数组合的 loss 热力图，以进一步推动相关研究。

图三：1B 模型、100B Token 训练上的 LR 与 BS 热力图

在这张图中，每一个点上的数字都是从头训练的一个小模型（共训练了 120 个小模型），在训练结束之后的收敛真实 Train Smoothed Loss。红点是上述公式的预估值所对应的 BS、LR 位置。其中空白的部分，是因为种种原因训练失败的点位。
所有热力图见：https://step-law.github.io/

「相关研究梳理】如何为大规模训练找到最优超参？

首先研究最优学习率和批量大小前提是在固定的模型结构，数据分布，模型参数规模和数据规模下:

考虑到上面的相关维度，对比现有的大模型最优超参数估算公式，我们的研究进行了充分的、覆盖模型参数规模、训练数据规模、批量大小 (BS) 和学习率 (LR) 的网格搜索，最终得到的缩放法则展现出显著的优越性，在适用性和准确度方面均有大幅提升。对比表格如下：

表一：不同方法的最佳超参数缩放定律比较，其中 Data Recipe 是指是否有在不同的预训练语料的配比下的最优超参进行研究

Model Sparsity 是指是否同时支持 MoE Model 和Dense Model，以及不同的稀疏度下的 MoE 模型。LR 指的是 learning Schedule 中的峰值 Learning Rate，其中 BS 值得是 Token Wise 的 Batch Size。

「普适性」超参数缩放法则的三大性质

1. 跨模型形状的稳定性

我们还深入探讨了不同模型形状（如宽度与深度的不同组合）对缩放规律的影响，发现无论模型是以宽度为主还是深度为主，抑或是宽深平衡的设计，Step Law 均表现出了高度的稳定性。这表明，缩放规律不仅适用于特定类型的模型结构，在更广泛的架构设计空间中依然适用，为复杂模型架构的设计和优化提供了指导意义。实验结果如下图所示：

图四：最优超参在不同 Model Shape 下的拓扑不变性。这里固定了模型的非词表参数量的大小和模型的训练 Token 数

在这里，研究团队虽然固定了上面的两项，但使用了不同的 Model Shape。例如变换了层数，从左到右分别是 14/10/8 层；变换了 Model Hidden Dimension，分别包括 1280/1536/2048 这三种；同时变换了 6 种不同的 FFN 倍数(FFN_media_dim/model_dim)，从 1.1 倍 ~ 6.25 倍。

其中红色五角星的点是 Step Law 预测的点位，可以观察到 Step_law 在 6 个不同的Shape上都预测到了 Global Minimum 附近。然而也可以同时观察到，不同的 Model Shape，Bottom 的一片区域的位置是会发生 shift 的。

2. 跨模型架构的泛化性

我们的研究结果发现，这一缩放规律不仅适用于稠密模型，还能很好地推广到不同稀疏度的 MoE (Mixture-of-Experts) 模型，对于不同的模型结构展示了极强的泛化能力。实验结果如下图所示：

图五：不同稀疏比下 MoE 模型的超参-损失等高线图

左：低稀疏度（N_a/N=0.27），中间：中等稀疏度（N_a/N=0.58，D/N=10），右：中等稀疏度、较少训练 Token 数（N_a/N=0.58，D/N=4）

研究员们在不同稀疏度，不同 D/N 的 MoE 模型配置，每一种配置都从头训练了 45 个小模型，来做最优超参搜取。共计从头训练了 495 个不同稀疏度、不同超参、不同 D/N 的 MoE 模型。从而得到了不同配置下的基于真实值的 Global Minimum Train Smoothed Loss。其中除了一组 D/N = 1 的实验，其余实验 Step Law 预测位置都在 Global Minimum+0.5%的范围之内。并且大多数配置下都在 Global Minimum+0.25% 的范围之内。充分的验证了 Step Law 的鲁棒性。详细结果可以参考论文的附录部分。

3. 跨数据分布的稳定性

我们进一步验证了不同数据分布下的规律一致性: 无论是英语主导、中英双语、Code 和英语混合，还是代码主导的数据配比，Step Law 都表现出了稳定的性能。这为多语言、多任务场景下的实际应用提供了可靠支持。数据配置表格如下所示:

表二：实验的不同数据分布

其中 Baseline 是得出 Step Law 的训练 Recipe。而 Code-Math，是压缩英文 web-data 的配比近一半，扩大 code-math 的比例至近 40%。而 More Code-Math 比例更加极端，将英文 web-data 的配比压缩为之前的 1/4，将 Code-math 扩大为近 2/3。EN-CN 是下调英文 web-data 的配比近一半，将余量的部分都转化为中文网页数据。

实验结果如下图所示：

图六：不同数据分布下的超参-损失等高线

左：双语数据（表格中 En-CN ），中间：加入 Code 数据（表格中的 Code+Math ），右：主要为 Code 数据（表格中的 More Code+Math ）

每一个图都是从头训练了 45 个模型，每一个模型除了 Bs/lr 不同以外，其他设置完全相同。总共训练了 135 个在三种数据分布下的模型。其中 Global Minimum 是通过这种 grid search 的方法得到的最低 Final Train Smoothed Loss 的真实值。Step Law 预测出来的最优 Batch Size/Learning Rate 都在最低 Loss +0.125%/0.25% 的范围内。

研究细节解读

1. 学习率调度策略优化

我们通过对比分析发现，学习率调度策略对最优超参选择会产生显著影响。如下图所示，我们揭示了传统学习率衰减与固定最小学习率方案间的重要差异：

图七：不同学习率策略的比较

蓝色等高线 (传统衰减策略): 学习率会从一个最大值 (max_lr) 逐渐减小到一个最小值 (min_lr，常是峰值的十分之一)。红色等高线 (固定最终学习率策略): 保持一个固定的最小学习率 (min_lr = 1e-5)，而不是像传统方法那样与最大学习率挂钩。

两张图都分别为 120 个从头训练的模型，在相同的 batch size/learning rate 范围内做的 Grid Search。红色和蓝线的 Global Minimum 都是各自配置下的真值-最小的 Final Train Smoothed Loss。可以观察到改成 max_lr/10 之后，蓝点会向左上方偏移，即更小的 Learning Rate 和更大的 Batchsize。如果不是对比相对值，而是对比真值，min_lr=1e-5 的最终收敛 loss 普遍小于 max_lr/10。
相关的真值开源在 https://github.com/step-law/steplaw

传统学习率衰减方案将最小学习率设为最大值的十分之一 (max_lr/10)，而我们提出的方案则采用恒定的绝对最小值 (10^-5)。从等高线图可以看出，传统衰减方法使得最优学习率区域出现明显的左偏分布——即损失最小区域向较低学习率区间显著偏移。

我们揭示了传统学习率调度方案的局限性：采用较高初始峰值学习率时，其退火机制会同步抬升最低学习率阈值。这种耦合设计在训练末期会使学习率超出理想区间，过大的参数更新幅度引发损失函数在收敛阶段持续振荡。相比之下，固定最小学习率策略通过解耦初始学习率与终值学习率的关联，在训练后期始终维持符合梯度下降动态特性的更新步长。

此外，这种固定最终较小最终学习率的策略也与业界的训练经验相匹配，更有实际应用价值。

退火机制：随着训练的进行，学习率通常会逐渐降低（即“退火”），以便在训练后期进行更精细的参数更新。然而，这种调度通常是耦合的，即高初始学习率也提高了最低学习率的阈值。

2. 训练损失与验证损失的最优超参一致性

根据 DeepMind Chinchilla 研究，平滑训练损失（smoothed training loss）可作为验证损失的无偏估计，以简化评估过程。本论文采用相同的设定，并通过实验分析进行最优超参视角下的补充验证。如下图所示：

图八：平滑训练损失（Final Train Smoothed Loss）的超参-损失等高线图（左）和验证损失（Validation Loss of Final Checkpoint）的超参-损失等高线图（右）

两张图都是在同一组实验下进行，对于相同的模型尺寸，相同的训练 Token 数，分别采用了 64 组不同的超参进行 Grid Search。从而得到64个模型的 Final Train Smoothed Loss、和Validation Loss。

我们在 429M 模型上训练 40B 的 Token 验证，当平滑训练损失达到最优时，学习率为 1.95×10^-3，批量大小为 393,216，这一点与验证损失最优时的超参数完全重合。此外，从右图中可以看出，平滑训练损失在不同学习率和批量大小下的偏离趋势，与验证损失的变化趋势高度一致。这种一致性表明，平滑训练损失能够为学习率和批量大小的选择提供稳定的优化指导，其得到的最优参数配置与直接基于验证损失评估所得的结果相匹配。尽管采用 Train Smoothed Loss可以降低实验成本 (节省了 Final Checkpoint 在 Validation Set 上推理的算力)，但仍然具有一定的局限性，例如训练数据不能重复。我们团队将会陆续开源这近 4000 个模型的 Final Checkpoint，供广大研究员进行进一步的分析。

3. 最优超参的 Scaling Law 拟合

图九：(a) 散点图表示模型规模为 N 时，经验最优学习率与批量大小的关系；(b) 散点图表示数据集规模为 D 时，经验最优学习率与批量大小的关系

曲线表示超参数缩放定律的预测结果，阴影区域表示基于采样拟合策略得到参数不确定性范围。图上的每一个点，背后都代表着 45~120 个采用了不同的超参的从头训练的模型。图上的每一个点位都在不同的 Model Size、Data Size 下通过 Grid Search 得到的最优的超参 (Optimal Learning Rate，Optimal Batch Size)。这张图总共涉及了 1912 个从头训练的 LLM。
真值和拟合方法开源在 https://github.com/step-law/steplaw。

如上图所示，在 log-log 坐标下，我们发现：

最优学习率：随模型规模增大而减小，随数据规模增大而增大。
最优批量大小：随数据规模增大而增大，与模型规模弱相关。

因此，我们可以将最优超参建模成如下公式：

其中、、、、是五个待拟合的五个常数。接着，我们通过对数变换将幂律关系转化为线性形式:

我们通过对数变换将幂律关系转化为线性形式，采用最小二乘法拟合参数，并通过 Bootstrap 采样方法提升稳健性。最终，提出了一套精确的预测公式，为大模型预训练的超参数设置提供了一个开箱即用的工具。目前我们在研发过程中，已经广泛使用了 Step Law，主要是在大于 1B 的模型和非极端的 D/N 下使用。

讨论与未来工作

尽管我们付出了很多的算力，也付出了大量的精力来分析相关的实验。但是我们认为面对这些海量的实验结果，我们的分析仍然是不足的。需要更多社区的研究员参与进来对很多 Topic 进行进一步的分析。我们会陆续将实验的各个细节整理并且开源出来，由于实验量过于庞大，所以需要一定时间来整理。我们非常期待更多研究员能发掘这些海量实验中的宝藏，揭示出出更多的规律，并给出理论解释。我们也同时欢迎对该方向感兴趣的研究团队，联系我们和我们一起合作来揭秘这些规律。抛砖引玉，包括但不仅限于以下话题：

在给定模型、训练 Token 数的情况下，(Loss , bs, lr) 这三维空间是否是真正的凸性。
是否有更好的 optimal BS LR 的拟合方法，并且可以兼容 BS、LR 的内在关系。
尽管 Step Law 在不同 Model Shape、不同稀疏的 MoE 模型是鲁棒的，但是次优的区域是在不同配置下是变化的，有无更好的解释方法。
上文中这些基于海量 Grid Search 的数据驱动的结论的理论解释。
不同的超参、不同 Model Size、Model Shape、Model Sparsity 下的 Training Dynamic 研究。

我们的开源计划，以及 Predictable Scale 系列工作的发布节奏发布节奏如下。

Predictable Scale 是一个论文系列，很多实验已经完成，后续可能进一步讨论超大模型性能预测、Code & Math Scaling 性质、不同 Attention 类型的 Scaling 性质等问题。大家敬请期待！

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费场景POC验证，效果验证后签署服务协议。零风险落地应用大模型，已交付160+中大型企业