我要投稿

NVIDIA紧追Qwen3：首发Nemotron高效推理模型技术报告

发布日期：2025-05-07 07:22:27 浏览次数： 1791

作者：CourseAI

微信搜一搜，关注“CourseAI”

英伟达发布 LLama Nemotron系列模型，能够在推理模式和普通聊天模式之间动态切换，以适应不同的任务需求。

Llama-Nemotron关键技术解读

神经架构搜索（NAS）

块级局部蒸馏：

从 Llama 3 指令模型出发，Puzzle 框架对每个替代子块进行独立并行训练，使其在保持父块功能的同时提高计算性能，如降低延迟、内存使用或提高吞吐量。
例如，对于 LN-Ultra 模型，从 Llama 3.1-405B-Instruct 模型开始，对每个替代子块进行训练，使其在保持父块功能的同时提高计算性能。
在训练过程中，每个替代块被训练成能够近似父块的功能，同时在计算性能上有所提升。
例如，一些块可能通过移除注意力机制来降低计算和 KV 缓存内存消耗，而另一些块可能通过调整前馈网络（FFN）的中间尺寸来实现不同程度的压缩。

混合整数规划（MIP）：

在构建了替代块库之后，Puzzle 框架利用混合整数规划求解器根据给定约束选择每层的最优块。
例如，对于 LN-Super 模型，约束条件包括在单个 NVIDIA H100 GPU 上实现至少 5 倍的吞吐量提升，并且在 FP8 精度下支持约 300K 缓存标记。
通过 MIP 求解器根据给定约束（如硬件兼容性、最大允许延迟、总内存预算或期望推理吞吐量）从块库中选择每层的最优块，构建完整的模型。
MIP 求解器通过优化目标函数，在满足约束条件的前提下，从块库中选择最优的块组合，构建完整的模型。
例如，对于 LN-Ultra 模型，最终模型在 8 个 H100 GPU 上实现了至少 1.5 倍的延迟降低，并且在 FP8 精度下支持高达 3M 缓存标记。

FFN 融合：

对于 LN-Ultra 模型，引入 FFN 融合技术。在 Puzzle 移除部分注意力层后，模型中经常出现连续的 FFN 块。
例如，如果模型中有两个连续的 FFN 块，FFN 融合技术会将它们替换为一个更宽的 FFN 层，并且可以并行执行，从而减少序列步骤，提高计算利用率。
通过 FFN 融合，LN-Ultra 模型在推理延迟方面得到了显著改善，最终实现了 1.71 倍的延迟提升。

知识蒸馏与持续预训练

知识蒸馏：

LN-Super 模型在 Distillation Mix 数据集上进行知识蒸馏训练，训练 40B 标记。
例如，通过将 LN-Super 模型的输出与教师模型的输出进行对比，调整 LN-Super 模型的参数，使其能够更好地近似教师模型的行为。
LN-Ultra 模型首先在 Distillation Mix 数据集上进行知识蒸馏训练，训练 65B 标记，然后继续在 Nemotron-H 阶段 4 预训练数据集上进行预训练，训练 88B 标记。
例如，在知识蒸馏阶段，LN-Ultra 模型通过学习教师模型的输出，逐步提升自身的性能；
在持续预训练阶段，模型进一步扩展其知识范围，最终在关键基准测试中超越了参考模型 Llama 3.1-405B-Instruct。

持续预训练：

LN-Ultra 在知识蒸馏后继续在 Nemotron-H 阶段 4 预训练数据集上进行预训练，进一步提升性能。
例如，LN-Ultra 模型在持续预训练阶段通过学习大量的未标记数据，扩展了其词汇表和语言模式，从而在推理任务中表现得更加出色。

监督微调（SFT）

数据准备：

构建包含推理和非推理数据的混合数据集。
例如，在推理数据中，每个提示都包含“detailed thinking on”指令，模型需要输出详细的推理过程；
在非推理数据中，每个提示都包含“detailed thinking off”指令，模型需要输出简洁的回复。
对于推理数据，进一步细分为数学、编码、科学和通用领域。
例如，在数学领域，通过从 Art of Problem Solving（AoPS）社区论坛收集数学问题，并使用 DeepSeek-R1 和 Qwen2.5-Math-7BInstruct 等模型生成推理和非推理解决方案，然后通过过滤和验证步骤，确保数据的质量和正确性。

训练过程：

初始阶段专注于推理数据的训练
中间阶段引入非推理数据
最后阶段专注于聊天、指令遵循和工具调用的混合数据；

所有模型使用基于指令调整数据的逐标记交叉熵损失进行训练。
例如，在训练过程中，模型的输出与目标输出进行对比，通过计算交叉熵损失来调整模型的参数。
根据模型规模和需求，采用不同的学习率、序列长度和训练周期进行训练。
例如，LN-Nano 模型采用三阶段 SFT 流程：
LN-Super 模型在全数据集上进行单周期训练；
LN-Ultra 模型则采用更复杂的训练策略，包括线性热身和余弦衰减学习率调整，以确保训练的稳定性和收敛性。

大规模强化学习

训练算法：

对于 LN-Ultra，采用 Group Relative Policy Optimization（GRPO）算法进行强化学习，以提升科学推理能力。

数据处理：

通过独立生成响应并计算通过率，筛选出通过率较低的提示，增加训练数据的难度。
同时，采用课程训练策略，根据预计算的通过率作为难度指标，动态调整每个批次的难度分布，使模型逐步学习从简单到复杂的任务。

奖励机制：

使用准确性奖励和格式奖励来引导模型学习。
准确性奖励，通过判断模型生成的响应是否与真实答案匹配来给予奖励，确保模型能够准确回答问题；
格式奖励，通过检查模型是否在推理模式下正确输出思考过程，并在非推理模式下避免输出思考标签，从而引导模型遵循正确的输出格式。

推理模式切换

通过轻量级系统提示“detailed thinking on/off”，实现推理模式和普通聊天模式之间的动态切换。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2025-08-06

文档处理新革命！Chunkr 专为RAG与知识库场景设计，多格式智能解析！

2025-08-06

当AI洪流来袭：我们正在经历怎样的智能跃迁

2025-08-06

谷歌DeepMind深夜放核弹：世界模型Genie 3登场，重新定义“生成式AI”

2025-08-06

通义 Qwen-Image 实测：从写实到书法，AI 绘图进入文化表达力时代

2025-08-06

AI 基础知识从 0.5 到 0.6—— Transformer 架构为何能统治AI领域？

2025-08-06

谷歌新发布Genie 3世界模型：重塑我们对世界的想象

2025-08-06

人工智能：AI大模型在金融应用实践的业务场景汇总【三】

2025-08-06

刚刚，Claude 4.1 发布

了解更多

了解更多

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

DeepSeek R1-0528 小版本升级

2025-05-29

高效 Agents 构建指南

2025-05-23

SpringAI Alibaba实战文生图、聊天记忆功能

2025-06-01

AIGC合规落地全景图 | 如何做好AIGC数据合规

2025-06-07

精|知识探索新范式：深度研究Deep Research智能体全面综述，系统、方法与应用

2025-06-21

别再被MCP协议绕晕！一文搞懂连接流程与核心架构

2025-06-12

OpenAI创始人红衫AI峰会最新爆论：AI创业者，想活命就别再跟老子卷大模型了！

2025-05-20

能办成事的 Agent：实时与环境交互，从经验中学习

2025-06-19

聊聊AI应用架构演进

2025-06-13

这篇AI Agent漫游指南，带你建立全面的科技史观

2025-05-28

大家都在问

AI 基础知识从 0.5 到 0.6—— Transformer 架构为何能统治AI领域？

2025-08-06

金融Agent竞赛：什么才是最实用的打开方式？

2025-08-05

独家对话火山引擎，企业级Agent落地难在哪儿？

2025-08-05

文档重排序（rerank）中的损失函数之争：为何单点模式更常见？

2025-08-05

玩转大模型：拥有一个万能大模型助手是什么体验？

2025-08-04

ChatGPT agent介绍，OpenAI又要放大招了？

2025-08-02

当 AI 拥有永久记忆：MemOS 如何终结大模型 "健忘症"？

2025-08-02

全网疯传GPT-5泄露！首次统一GPT和o系列，编程实测demo抢先曝光，下周发布？

2025-07-31

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS 提示词框架提示词技巧 AI+电商 AI面试数字员工 ChatBI 知识管理开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB

应聘简历请发送至： ceo@53ai.com

友情链接：

CopyRight © 2012-2024 深圳市博思协创网络科技有限公司版权所有

粤ICP备14082021号

广州：广州市华景路37号(华景软件园)暨南大学科技大厦6楼（整层）

深圳：深圳市福田区泰然四路29号天安创新科技广场一期A座1204

上海：上海市浦东新区金新路58号1602室

微信扫码
和创始人交个朋友

联系我们

售前咨询

预约演示

微信扫码

添加专属顾问

回到顶部