支持私有化部署
AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


NVIDIA紧追Qwen3:首发Nemotron高效推理模型技术报告

发布日期:2025-05-07 07:22:27 浏览次数: 1555 作者:CourseAI
推荐语

AI技术的新突破,NVIDIA如何通过Nemotron模型提升AI推理效率。

核心内容:
1. NVIDIA推出的Llama Nemotron系列模型及其动态切换功能
2. 神经架构搜索(NAS)和块级局部蒸馏技术详解
3. 混合整数规划(MIP)和FFN融合技术在模型优化中的应用

杨芳贤
53A创始人/腾讯云(TVP)最具价值专家

英伟达发布 LLama Nemotron系列模型,能够在推理模式和普通聊天模式之间动态切换,以适应不同的任务需求。

Llama-Nemotron关键技术解读

神经架构搜索(NAS)

  • 块级局部蒸馏

    • 从 Llama 3 指令模型出发,Puzzle 框架对每个替代子块进行独立并行训练,使其在保持父块功能的同时提高计算性能,如降低延迟、内存使用或提高吞吐量。

    • 例如,对于 LN-Ultra 模型,从 Llama 3.1-405B-Instruct 模型开始,对每个替代子块进行训练,使其在保持父块功能的同时提高计算性能。

    • 在训练过程中,每个替代块被训练成能够近似父块的功能,同时在计算性能上有所提升。

    • 例如,一些块可能通过移除注意力机制来降低计算和 KV 缓存内存消耗,而另一些块可能通过调整前馈网络(FFN)的中间尺寸来实现不同程度的压缩。

  • 混合整数规划(MIP)

    • 在构建了替代块库之后,Puzzle 框架利用混合整数规划求解器根据给定约束选择每层的最优块。

    • 例如,对于 LN-Super 模型,约束条件包括在单个 NVIDIA H100 GPU 上实现至少 5 倍的吞吐量提升,并且在 FP8 精度下支持约 300K 缓存标记。

    • 通过 MIP 求解器根据给定约束(如硬件兼容性、最大允许延迟、总内存预算或期望推理吞吐量)从块库中选择每层的最优块,构建完整的模型。

    • MIP 求解器通过优化目标函数,在满足约束条件的前提下,从块库中选择最优的块组合,构建完整的模型。

    • 例如,对于 LN-Ultra 模型,最终模型在 8 个 H100 GPU 上实现了至少 1.5 倍的延迟降低,并且在 FP8 精度下支持高达 3M 缓存标记。

  • FFN 融合

    • 对于 LN-Ultra 模型,引入 FFN 融合技术。在 Puzzle 移除部分注意力层后,模型中经常出现连续的 FFN 块。

      例如,如果模型中有两个连续的 FFN 块,FFN 融合技术会将它们替换为一个更宽的 FFN 层,并且可以并行执行,从而减少序列步骤,提高计算利用率。

    • 通过 FFN 融合,LN-Ultra 模型在推理延迟方面得到了显著改善,最终实现了 1.71 倍的延迟提升。

知识蒸馏与持续预训练

  • 知识蒸馏

    • LN-Super 模型在 Distillation Mix 数据集上进行知识蒸馏训练,训练 40B 标记。

    • 例如,通过将 LN-Super 模型的输出与教师模型的输出进行对比,调整 LN-Super 模型的参数,使其能够更好地近似教师模型的行为。

    • LN-Ultra 模型首先在 Distillation Mix 数据集上进行知识蒸馏训练,训练 65B 标记,然后继续在 Nemotron-H 阶段 4 预训练数据集上进行预训练,训练 88B 标记。

    • 例如,在知识蒸馏阶段,LN-Ultra 模型通过学习教师模型的输出,逐步提升自身的性能;

    • 在持续预训练阶段,模型进一步扩展其知识范围,最终在关键基准测试中超越了参考模型 Llama 3.1-405B-Instruct。

  • 持续预训练

    • LN-Ultra 在知识蒸馏后继续在 Nemotron-H 阶段 4 预训练数据集上进行预训练,进一步提升性能。

    • 例如,LN-Ultra 模型在持续预训练阶段通过学习大量的未标记数据,扩展了其词汇表和语言模式,从而在推理任务中表现得更加出色。

监督微调(SFT)

  • 数据准备

    • 构建包含推理和非推理数据的混合数据集。

    • 例如,在推理数据中,每个提示都包含“detailed thinking on”指令,模型需要输出详细的推理过程;

    • 在非推理数据中,每个提示都包含“detailed thinking off”指令,模型需要输出简洁的回复。

    • 对于推理数据,进一步细分为数学、编码、科学和通用领域。

    • 例如,在数学领域,通过从 Art of Problem Solving(AoPS)社区论坛收集数学问题,并使用 DeepSeek-R1 和 Qwen2.5-Math-7BInstruct 等模型生成推理和非推理解决方案,然后通过过滤和验证步骤,确保数据的质量和正确性。

  • 训练过程

    • 初始阶段专注于推理数据的训练

    • 中间阶段引入非推理数据

    • 最后阶段专注于聊天、指令遵循和工具调用的混合数据;

    • 所有模型使用基于指令调整数据的逐标记交叉熵损失进行训练。

    • 例如,在训练过程中,模型的输出与目标输出进行对比,通过计算交叉熵损失来调整模型的参数。

    • 根据模型规模和需求,采用不同的学习率、序列长度和训练周期进行训练。

    • 例如,LN-Nano 模型采用三阶段 SFT 流程:

    • LN-Super 模型在全数据集上进行单周期训练;

    • LN-Ultra 模型则采用更复杂的训练策略,包括线性热身和余弦衰减学习率调整,以确保训练的稳定性和收敛性。

大规模强化学习

  • 训练算法

    • 对于 LN-Ultra,采用 Group Relative Policy Optimization(GRPO)算法进行强化学习,以提升科学推理能力。
  • 数据处理

    • 通过独立生成响应并计算通过率,筛选出通过率较低的提示,增加训练数据的难度。

    • 同时,采用课程训练策略,根据预计算的通过率作为难度指标,动态调整每个批次的难度分布,使模型逐步学习从简单到复杂的任务。

  • 奖励机制

    • 使用准确性奖励和格式奖励来引导模型学习。

    • 准确性奖励,通过判断模型生成的响应是否与真实答案匹配来给予奖励,确保模型能够准确回答问题;

    • 格式奖励,通过检查模型是否在推理模式下正确输出思考过程,并在非推理模式下避免输出思考标签,从而引导模型遵循正确的输出格式。

  • 推理模式切换

    • 通过轻量级系统提示“detailed thinking on/off”,实现推理模式和普通聊天模式之间的动态切换。

53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询