微信扫码
添加专属顾问
我要投稿
AI技术的新突破,NVIDIA如何通过Nemotron模型提升AI推理效率。 核心内容: 1. NVIDIA推出的Llama Nemotron系列模型及其动态切换功能 2. 神经架构搜索(NAS)和块级局部蒸馏技术详解 3. 混合整数规划(MIP)和FFN融合技术在模型优化中的应用
英伟达发布 LLama Nemotron系列模型,能够在推理模式和普通聊天模式之间动态切换,以适应不同的任务需求。
块级局部蒸馏:
从 Llama 3 指令模型出发,Puzzle 框架对每个替代子块进行独立并行训练,使其在保持父块功能的同时提高计算性能,如降低延迟、内存使用或提高吞吐量。
例如,对于 LN-Ultra 模型,从 Llama 3.1-405B-Instruct 模型开始,对每个替代子块进行训练,使其在保持父块功能的同时提高计算性能。
在训练过程中,每个替代块被训练成能够近似父块的功能,同时在计算性能上有所提升。
例如,一些块可能通过移除注意力机制来降低计算和 KV 缓存内存消耗,而另一些块可能通过调整前馈网络(FFN)的中间尺寸来实现不同程度的压缩。
混合整数规划(MIP):
在构建了替代块库之后,Puzzle 框架利用混合整数规划求解器根据给定约束选择每层的最优块。
例如,对于 LN-Super 模型,约束条件包括在单个 NVIDIA H100 GPU 上实现至少 5 倍的吞吐量提升,并且在 FP8 精度下支持约 300K 缓存标记。
通过 MIP 求解器根据给定约束(如硬件兼容性、最大允许延迟、总内存预算或期望推理吞吐量)从块库中选择每层的最优块,构建完整的模型。
MIP 求解器通过优化目标函数,在满足约束条件的前提下,从块库中选择最优的块组合,构建完整的模型。
例如,对于 LN-Ultra 模型,最终模型在 8 个 H100 GPU 上实现了至少 1.5 倍的延迟降低,并且在 FP8 精度下支持高达 3M 缓存标记。
FFN 融合:
对于 LN-Ultra 模型,引入 FFN 融合技术。在 Puzzle 移除部分注意力层后,模型中经常出现连续的 FFN 块。
例如,如果模型中有两个连续的 FFN 块,FFN 融合技术会将它们替换为一个更宽的 FFN 层,并且可以并行执行,从而减少序列步骤,提高计算利用率。
通过 FFN 融合,LN-Ultra 模型在推理延迟方面得到了显著改善,最终实现了 1.71 倍的延迟提升。
知识蒸馏:
LN-Super 模型在 Distillation Mix 数据集上进行知识蒸馏训练,训练 40B 标记。
例如,通过将 LN-Super 模型的输出与教师模型的输出进行对比,调整 LN-Super 模型的参数,使其能够更好地近似教师模型的行为。
LN-Ultra 模型首先在 Distillation Mix 数据集上进行知识蒸馏训练,训练 65B 标记,然后继续在 Nemotron-H 阶段 4 预训练数据集上进行预训练,训练 88B 标记。
例如,在知识蒸馏阶段,LN-Ultra 模型通过学习教师模型的输出,逐步提升自身的性能;
在持续预训练阶段,模型进一步扩展其知识范围,最终在关键基准测试中超越了参考模型 Llama 3.1-405B-Instruct。
持续预训练:
LN-Ultra 在知识蒸馏后继续在 Nemotron-H 阶段 4 预训练数据集上进行预训练,进一步提升性能。
例如,LN-Ultra 模型在持续预训练阶段通过学习大量的未标记数据,扩展了其词汇表和语言模式,从而在推理任务中表现得更加出色。
数据准备:
构建包含推理和非推理数据的混合数据集。
例如,在推理数据中,每个提示都包含“detailed thinking on”指令,模型需要输出详细的推理过程;
在非推理数据中,每个提示都包含“detailed thinking off”指令,模型需要输出简洁的回复。
对于推理数据,进一步细分为数学、编码、科学和通用领域。
例如,在数学领域,通过从 Art of Problem Solving(AoPS)社区论坛收集数学问题,并使用 DeepSeek-R1 和 Qwen2.5-Math-7BInstruct 等模型生成推理和非推理解决方案,然后通过过滤和验证步骤,确保数据的质量和正确性。
训练过程:
初始阶段专注于推理数据的训练
中间阶段引入非推理数据
最后阶段专注于聊天、指令遵循和工具调用的混合数据;
所有模型使用基于指令调整数据的逐标记交叉熵损失进行训练。
例如,在训练过程中,模型的输出与目标输出进行对比,通过计算交叉熵损失来调整模型的参数。
根据模型规模和需求,采用不同的学习率、序列长度和训练周期进行训练。
例如,LN-Nano 模型采用三阶段 SFT 流程:
LN-Super 模型在全数据集上进行单周期训练;
LN-Ultra 模型则采用更复杂的训练策略,包括线性热身和余弦衰减学习率调整,以确保训练的稳定性和收敛性。
训练算法:
数据处理:
通过独立生成响应并计算通过率,筛选出通过率较低的提示,增加训练数据的难度。
同时,采用课程训练策略,根据预计算的通过率作为难度指标,动态调整每个批次的难度分布,使模型逐步学习从简单到复杂的任务。
奖励机制:
使用准确性奖励和格式奖励来引导模型学习。
准确性奖励,通过判断模型生成的响应是否与真实答案匹配来给予奖励,确保模型能够准确回答问题;
格式奖励,通过检查模型是否在推理模式下正确输出思考过程,并在非推理模式下避免输出思考标签,从而引导模型遵循正确的输出格式。
推理模式切换
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2025-05-07
CAG 与 RAG:哪种方法能带来性能更好的人工智能
2025-05-07
大模型与安全|第一弹:AI防口误指南之LLM输出安全实践
2025-05-07
从RAG到CoT再到MCP,一文读懂AI Agent落地难题|大模型研究
2025-05-07
蚂蚁集团基于 Ray 构建的分布式 AI Agent 框架
2025-05-07
AI编程模型领域迎新王?谷歌发布Gemini 2.5 Pro I/O,单条文本提示即可生成完整应用
2025-05-07
AI Agent“虚火”过旺,或沦为“假Agent”?
2025-05-07
用AI把一段视频变成可视化网页,Google的新模型又卷飞了。
2025-05-07
忽视小模型和知识库,企业AI应用必将是死路一条
2024-08-13
2024-06-13
2024-08-21
2024-09-23
2024-07-31
2024-05-28
2024-08-04
2024-04-26
2024-07-09
2024-09-17
2025-05-07
2025-04-30
2025-04-29
2025-04-29
2025-04-29
2025-04-28
2025-04-28
2025-04-28