我要投稿

Ring-1T，心流之境，顿悟所生

发布日期：2025-10-14 12:44:58 浏览次数： 1561

作者：百灵大模型

微信搜一搜，关注“百灵大模型”

今天，我们正式发布万亿思考模型Ring-1T。发布即开源，开发者可以通过Hugging Face、魔搭社区下载模型权重，也可以通过Ling Chat页面和ZenMux 进行直连模型的chat体验和API 调用(链接见文末）。

我们在上月底发布的 preview 版本基础上，持续扩展大规模可验证奖励强化学习（RLVR）训练，进一步激发万亿基座的自然语言推理能力，并通过 RLHF 训练完善模型通用能力，使得本次发布的 Ring-1T 在各项任务上表现更均衡。

Ring-1T 沿用 Ling 2.0 架构，在1T总参数、50B激活参数的 Ling-1T-base 基座上进行训练，支持最高 128K 上下文窗口。依托自研的强化学习稳定训练方法icepop（棒冰）与高效强化学习系统 ASystem（其中 AReaL 框架已开源），我们实现了从百亿（Ring-mini-2.0）到千亿（Ring-flash-2.0）再到万亿（Ring-1T）的 MoE 架构强化学习平稳扩展，显著提升模型的深度思考与自然语言推理能力。

持续进化的深度思考能力

为评估 Ring-1T 的深度思考能力，我们选取了具有代表性的开源思考模型（Ring-1T-preview、DeepSeek-V3.1-Terminus-Thinking、Qwen-235B-A22B-Thinking-2507）和闭源API （Gemini-2.5-pro 以及 GPT-5-Thinking(High)）作为参考。首先，相比于此前开源的 preview 版本，Ring-1T 在各项任务上表现更均衡。此外，Ring-1T 在数学竞赛（AIME 25、HMMT 25），代码生成（LiveCodeBench、CodeForce），逻辑推理（ARC-AGI-1）等高难推理基准上达到了开源领先水平；而在综合任务（Arena-Hard-v2.0），医疗健康（HealthBench），创意写作（Creative Writing v3）上也表现出很强的竞争力。

虽然我们已经对预训练、微调指令、强化学习提示词等所有阶段的训练数据进行了字符串和语义级别的基准任务污染过滤，但对于较早发布的基准任务，严格去污是当前业界难题之一。为了更客观地分析 Ring-1T 的深度思考能力，我们在今年7月举办的 IMO 2025（国际数学奥林匹克竞赛）和上月初刚结束的 ICPC world finals 2025（国际大学生程序设计竞赛世界总决赛）进行测试。

IMO 2025的测试与此前preview版本类似，我们将 Ring-1T 接入多智能体框架 AWorld（https://github.com/inclusionAI/AWorld），使用纯自然语言推理进行解题。结果显示，Ring-1T 仅用一次尝试即解出了第1、3、4、5题（IMO银牌水平），并在第三次尝试时对第2题几何证明也给出了接近满分的证明过程。而在最难的第六题（IMO 2025 AI选手无法正确求解）将答案收敛到与 Gemini 2.5 Pro 相同的 “4048”（正确答案为2112）。我们相信，仍在进行持续优化的 Ring-1T 未来很有机会达到 IMO金牌水平。

而在 ICPC world finals 2025 上，我们对比了 GPT-5-thinking、Gemini-2.5-pro 和 Ring-1T，在允许三次尝试的模型直接解题测试中，分别解出了 6（CDEFKL）、3（DFK）、5（DFJKL）题。可以看出，Ring-1T 在国际顶级代码竞赛上也有亮眼的表现。更多测试还在进行中，同时我们也将开源模型在上述比赛的解题轨迹，期待可以与社区一起优化这个万亿思考模型的推理潜能。

棒冰(icepop)：为RL长周期训练“保驾护航”

在 MoE 模型的强化学习训练中，训练和推理引擎之间的算子实现差异比 Dense 模型更显著，尤其是在生成长序列和长周期训练时，这种差异会随着序列长度和训练步数的增加而逐渐拉大。从下图的实验可以看出，在较少的训练步数内，原始的 GRPO 算法会开始崩溃，而我们提出的icepop（棒冰）算法通过带掩码的双向截断技术来修正分布，有效减小训练与推理阶段的差异，为急剧上升的训推差异“降温”。

图1：GRPO训推差异随着训练成指数上升，icepop较为平稳；图2：训推差异最大值，GRPO随着训练上升非常明显，icepop维持在较低水位

ASystem：自研RL框架“拿捏”万亿规模训练

为保障万亿基座强化学习的稳定高效训练，我们自研了高性能强化学习系统——ASystem。ASystem采用 SingleController + SPMD 架构。在训推引擎方面，特别针对万亿基座的显存管理和训推权重交换问题做了精细的优化。基于自研训推统一的显存池技术实现了显存透明卸载，高效释放显存碎片，降低了显存不足风险。通过 GPU 间 P2P 直接通信与原地更新等技术，实现了模型权重的秒级、零冗余交换。在RL训练框架上，我们构建了基于大规模 Serverless Sandbox 技术的混合奖励系统，该系统能以毫秒级速度启动、提供超过10余种语言的沙箱执行环境，支撑了高达 10K/s 的请求吞吐。我们已经将 AReaL 开源，希望通过技术开放加速开源社区的RL训练与研究工作。