免费POC, 零成本试错
AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


我要投稿

DeepSeek R2憋大招:4个线索指向在线强化学习

发布日期:2025-11-28 21:53:49 浏览次数: 1660
作者:硅星GenAI

微信搜一搜,关注“硅星GenAI”

推荐语

DeepSeek R2蓄势待发,四大技术突破或将重新定义大模型训练范式。

核心内容:
1. 数学推理突破:开源IMO金牌级模型DeepSeekMath-V2的技术意义
2. 算法架构革新:Native Sparse Attention实现百万级上下文窗口
3. 存储创新:DeepSeek-OCR开创视觉压缩新路径

杨芳贤
53AI创始人/腾讯云(TVP)最具价值专家

11月27日,DeepSeek低调发布了DeepSeekMath-V2。这个专注于数学定理证明的模型在IMO 2025拿下金牌水平,在测试中超越了人类最高分。更重要的是,它是目前唯一开源开放权重的IMO金牌级模型,OpenAI和Google的同级别模型都还锁在API后面。

社区的反应很有意思。Hugging Face的CEO Clem Delangue说这相当于"把世界顶级数学家的大脑免费开放给所有人"。不少人在感叹:那条蓝色大鲸鱼又回来了。自从R1在年初引发震动后,DeepSeek似乎沉寂了很久,R2也一再推迟。

但如果你仔细看过去几个月DeepSeek发布的一系列技术工作,会发现他们根本没闲着,这些工作像是在为某个更大的东西做准备。

剧透一|算法架构,触及GPU层的彻底革新:NSA

今年2月,DeepSeek发布了一篇关于注意力机制的论文:Native Sparse Attention。这看起来是个很"学术"的工作,但它解决的是大模型最核心的效率瓶颈。

传统的注意力机制是"全连接"的:每个token都要和所有其他token计算关系,计算量随序列长度呈平方级增长。当上下文窗口扩展到64k甚至更长时,这种开销会变得难以承受。NSA的核心思路是"动态分层稀疏":通过三条并行路径处理信息——粗粒度压缩捕捉全局模式,细粒度选择保留关键细节,滑动窗口维持局部上下文。

关键创新有两点。第一是硬件对齐设计,让算法真正能在现代GPU上跑出理论加速比,而不是停留在论文里。第二是端到端可训练,模型可以在预训练阶段就学习最优的稀疏模式,而不是训练完再强行剪枝。

实测结果相当惊人:在64k长度序列上,NSA实现了11.6倍的解码加速,前向传播加速9倍,反向传播加速6倍。更重要的是,稀疏化后的模型在通用benchmark上不仅没有掉点,反而略有提升。

NSA论文的第一作者、前DeepSeek团队成员袁境阳凭借这项工作荣获ACL 2025最佳论文奖。他在现场报告中提到:

NSA的目标是将上下文长度扩展至100万,而且这项技术将出现在下一代前沿模型中。

这项技术已经在9月发布的V3.2-Exp中正式落地,证明它不是实验室产物,而是生产就绪的架构升级,V4或R2采用NSA几乎是板上钉钉的事。

剧透二|记忆存储,另辟蹊径的全新思路:DeepSeek OCR

10月,DeepSeek发布了一个看起来很"普通"的OCR模型。但如果你只把它当成文字识别工具,就完全误读了这项工作的意义。

DeepSeek-OCR的核心思想是“上下文光学压缩”:与其让语言模型直接处理文本token,不如先把文本渲染成图像,再用视觉encoder压缩成少量视觉token。听起来很反直觉,但实验结果表明:当压缩比在10倍以内时,模型仍能保持97%的解码精度;即使压缩到20倍,精度也能维持在60%左右。

MIT Technology Review专门撰文分析这项工作,标题是"DeepSeek可能找到了改善AI记忆的新方法"

这确实切中要害。当前大模型的上下文窗口受限于注意力计算的开销,而OCR提供了一种绕过这个瓶颈的可能,把历史对话渲染成图像,用视觉token存储"记忆",需要时再解压调用。

论文中还展示了一个有趣的设计,通过逐步降低历史图像的分辨率来模拟"遗忘机制",最近的信息保持清晰,久远的信息逐渐模糊但仍可访问,这和人类记忆的衰减模式颇为相似。

如果说NSA解决的是如何高效处理长上下文,OCR解决的则是如何高效存储长上下文。两者结合,指向的是百万级甚至更长的有效上下文窗口。

剧透三|多模态,早已搭建的统一底层系统:Janus-Pro

1月底,就在R1引发全球关注的同一周,DeepSeek还发布了Janus-Pro。这是一个能同时进行图像理解和图像生成的多模态模型。Janus的核心设计是"解耦视觉编码":用两条独立的路径分别处理图像理解和图像生成,但共享同一个Transformer主干。

这解决了传统多模态模型的一个根本矛盾,理解任务需要提取语义特征,生成任务需要保留像素细节,两者对视觉编码器的要求是冲突的。通过解耦,Janus让两种能力可以各自优化,同时又通过共享主干实现高效的跨模态融合。

而这项工作的意义不仅在于图像能力本身。它验证了一种"统一架构"的可行性:不同模态、不同任务可以在同一个模型框架内高效协作。如果R2要成为真正的通用智能体,多模态能力是绕不过去的基础设施。

剧透四|推理架构,死磕更复杂环境里的自我验证能力:Math-V2

回到开篇提到的DeepSeekMath-V2。它最重要的创新不是拿了多少奖牌,而是提出了"自我验证"的推理范式。

当前主流的数学推理模型有一个根本问题,它们被训练去答对题,而不是正确推理。用强化学习优化最终答案的正确率,模型可能学会各种取巧的捷径——答案对了,但推理过程漏洞百出。这在有标准答案的竞赛题上或许还能蒙混过关,一旦面对没有已知解的开放问题就会失效。

Math-V2采用了“生成器-验证器”双模型架构。生成器负责产出证明,验证器负责评估证明的严谨性和完整性,然后把验证结果作为reward信号反馈给生成器。关键是如何保持"生成-验证差距",当生成器变强后,验证器也需要同步提升,否则就会失去纠错能力。DeepSeek的解决方案是动态扩展验证计算,用更多的计算资源自动标注那些"难以验证"的证明,生成新的训练数据来持续提升验证器。

这套机制让模型能够自我发现和修正推理中的问题,不再依赖外部的标准答案作为监督信号。这对于scaling test-time compute至关重要,如果模型不能可靠地评估自己的推理质量,增加推理时间只会生成更多的垃圾。

指向一个猜想:在线强化学习

表面上看,这四项工作分属不同领域:注意力机制、多模态、OCR、数学推理。但如果换一个视角,它们其实在解决同一个问题的不同侧面:

如何让大模型成为一个能在复杂环境中持续学习和行动的智能体?

  • 效率层面,NSA和OCR共同解决长上下文的计算与存储瓶颈。一个智能体需要记住长期历史、处理海量信息,不能每次推理都从头开始。
  • 能力层面,Janus提供多模态感知,Math-V2的自我验证提供可靠推理。一个智能体需要看懂世界、做出决策,而且要知道自己的决策是否靠谱。

这些拼图拼在一起,指向的不是一个更大的语言模型,而是一个具备感知、记忆、推理、自我评估能力的系统。R2的延期已经成为公开的秘密。如果只是常规的性能优化,以DeepSeek的迭代速度,不至于拖这么久。一个合理的推测是,他们在尝试一次更彻底的迭代。

结合以上这些剧透,一个猜测指向今天模型能力下一个跨越过程里最重要的一个方向:

在线强化学习。

预训练让模型学会一般知识;SFT让模型听懂人话;R1 类推理优化让模型会思考;但只有在线强化学习,才能让模型具备长期适应能力和真正的任务泛化能力。

R1的真正突破在于展示了即便没有大规模人工标注的推理链条,纯强化学习也能显著激发模型的推理能力,这一点通过R1-Zero得到了验证。它还没涉及在线强化学习,但它的方法事实上提高了“只用固定习题训练出强大模型”的效率,也就为之后在更复杂环境处理动态信息的实时强化学习留出更多可能性和空间。

真正的在线强化学习还要求智能体能够实时与环境交互、获取反馈、动态更新策略。这里面有三大瓶颈:多轮交互的计算成本、与开放环境的感知交互,以及实时reward信号的获取。回头看DeepSeek这一年的布局,NSA和OCR攻克效率瓶颈;Janus则为多模态环境交互提供了基础能力。

而更有信号意义的就是最新的Math V2。自我验证机制可以被认为在探索一种不依赖外部标注的评估方式,也就是一种可扩展的、自举式的 reward 生成机制。对于“在线强化学习”,这是最难的一块:环境 reward 不稳定、不够密集、不可标注。而 Math-V2 相当于给出了一个方向:用模型自身的推理一致性作为内部奖励。

它的自我验证机制让模型能够评估推理过程的严谨性,而不只是最终答案的对错。这理论上可以解决一个关键问题:当面对没有标准答案的开放问题时,如何判断推理质量?传统的规则化奖励在这类场景下会失效,而自我验证提供了一种可能的替代方案。

于是,当你拥有稀疏注意力、视觉压缩记忆、多模态统一主干、可扩展的内部 reward,自然就会开始问:那为什么不让模型直接与环境交互?

今天谁都期待当V4/R2到来时,不要只是又一个“更大”的模型,而是真的有更加原创的工作,更本质的创新。在线强化学习显然是是符合这个期待的少数几个答案之一。

Let's wait and see


53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询