我要投稿

颠覆！强化学习不再是微调专利，微软直接将其用于基模训练

发布日期：2025-06-12 12:20:52 浏览次数： 1905

作者：沈公子今天读什么

微信搜一搜，关注“沈公子今天读什么”

❝
一句话概括，强化学习不做微调这道“餐后甜点”了，RPT 直接把它变成预训练的“主食”，拿语料原文当答案，对了奖，错了罚，让模型从基础上就“长脑子”。

第一阶段：识别核心概念

想象一下，目前绝大多数LLM就像一个疯狂“刷题”的学生，它的学习方式（预训练）就是不断地做“填空题”——给定上文，预测下一个词（Next-Token Prediction）。这种方法很有效，能让模型记住海量知识和语言模式，但它可能更多是记住了表面关联，而非真正的理解和推理。另一方面，我们知道强化学习（Reinforcement Learning, RL）像一位教练，通过“奖励”和“惩罚”来训练模型完成特定任务或对齐人类偏好，能有效提升模型的推理能力，但这通常用在微调（Fine-tuning）阶段，并且需要昂贵的人工标注数据或特定领域的问答数据，规模很难做大。

这篇论文，就是想把这两者结合起来，提出了一种叫做 Reinforcement Pre-Training (RPT) 的新方法。

论文动机分析

论文的出发点，是想解决现有技术路线的两个核心痛点：

传统预训练的局限性：标准的“预测下一个词” (Next-Token Prediction, NTP) 预训练方法，虽然可扩展性极强（有多少文本数据都能用），但它倾向于让模型学习词与词之间的表面共现关系，也就是死记硬背，而不是鼓励模型去深入理解和推理“为什么”下一个词应该是这个。
现有强化学习应用的局限性：强化学习 (RL) 被证明能有效提升模型的推理能力和对齐能力（如RLHF）。但是，将RL应用于LLM面临可扩展性（Scalability）和通用性（Generality）的挑战。例如，RLHF依赖昂贵的人工反馈数据，且奖励模型可能被“钻空子”(Reward Hacking)；而基于可验证奖励的RL (如解数学题，对了就给奖励)，又依赖于特定领域的、带标注答案的数据集，数据量有限，难以用于通用的、大规模的预训练。
核心动机桥接： 作者希望弥合“可扩展但可能肤浅”的自监督预训练与 “强大但难扩展”的强化学习之间的鸿沟。目标是创造一种新的预训练范式，它既能像传统预训练一样利用海量无标注的网络文本数据，又能像强化学习一样，显式地激励模型发展出更强的推理能力，而不是简单记忆。论文的图1那个“樱桃蛋糕”比喻很形象：传统方法里，预训练(NTP)是蛋糕主体，RL只是最后点缀的樱桃(微调)；而RPT想让整个蛋糕（预训练）都融入RL和推理的风味。

论文主要贡献点分析

主要创新点

提出了RPT (Reinforcement Pre-Training) 这一全新的预训练范式。
将传统的“预测下一个词”任务，重新定义（reframe）为一个“推理下一个词”(Next-Token Reasoning) 的任务，并使用强化学习来训练。
设计了一种方法，使得强化学习可以规模化地应用于海量的、通用的、无标注的预训练文本语料，而非局限于特定数据集。

关键技术或方法

**任务重定义 (Next-Token Reasoning)**：模型在预测下一个词之前，被要求先生成一段“思考过程”（类似思维链 Chain-of-Thought），然后再给出预测的词。
**内在可验证奖励 (Intrinsic Verifiable Reward)**：这是实现规模化的关键！奖励信号直接来源于语料库本身——模型预测的词如果与语料库中真实的下一个词（Ground-Truth）匹配，就给予奖励（比如+1），否则不给奖励（比如0）。这个奖励是客观的、规则明确的、自动的，不需要人工标注，也极大减少了奖励被“钻空子”的风险。
强化学习框架：利用在线策略强化学习 (On-policy RL)，模型针对一段上文，生成多个不同的“思考+预测”的轨迹 (Rollouts)，根据每个轨迹获得的奖励（对或错），来更新模型参数，鼓励那些能导出正确预测的思考过程。

显著性结果

语言模型能力提升：经过RPT训练的模型，在最基础的“预测下一个词”的准确率上，显著超过了传统方法训练的基座模型，尤其是在预测那些比较难的词（高熵词）时。一个14B的RPT模型甚至能达到或超越一个更大的32B传统模型的性能。这意味着RPT让模型学得更“深”了。
更好的微调基础：RPT预训练出的模型，为后续的强化学习微调提供了一个更好的起点。相比于传统预训练模型，在它基础上进行特定任务RL微调，效果更好。这说明预训练和微调的目标更加一致了。
**良好的扩展性 (Scaling Property)**：论文展示了RPT具有良好的扩展法则（Scaling Law）特性，即随着训练计算量的增加，模型预测下一个词的准确率会持续、可预测地提升。这证明RPT有潜力成为未来模型规模化发展的一个可持续的技术路径。
推理模式的改变：分析表明，RPT鼓励模型产生与单纯解题不同的推理模式，更多地使用假设、演绎等思维方式，进行更具探索性的思考。

理解难点识别

关键概念/方法

标准下一个词预测 (NTP) 与强化学习目标函数的区别。
如何将一个确定的、通常用监督学习（交叉熵损失）训练的NTP任务，转变成一个包含“探索”和“奖励”的RL任务。
奖励信号的具体设计（特别是论文提到的前缀匹配 Prefix Matching Reward，考虑了字节和词的边界）。
RL中的 On-policy, Rollout, Trajectory, Policy Update 等概念如何应用在生成“思考过程+预测词”上。
“Next-Token Reasoning”本身：模型如何学习在预测一个词之前进行“思考”。

最具挑战性的部分

最难理解的可能是这个**“范式转换” (Paradigm Shift)**：如何把“预测下一个词”这个看似简单的模仿任务，硬核地套进强化学习的框架。读者需要理解： * 状态(State) = 当前的上文。 * 动作(Action) = 生成一整段的 (思考过程token序列 + 最终预测token)。 * 轨迹(Trajectory) = 从状态开始，执行完一个动作的全过程。 * 奖励(Reward) = 只在轨迹结束时，根据最终预测的token是否与真实token匹配来给予的一个稀疏奖励 (0或1)。 * 策略(Policy)= 模型本身，它决定了给定状态下，生成何种“思考+预测”轨迹的概率分布。 RL的目标是调整策略（模型参数），最大化累积奖励的期望值。这与NTP最大化每个位置上正确词的对数概率，是完全不同的优化目标和过程。

需要重点解释的核心概念

RPT的核心机制循环：即如何将“下一个词预测”重构为基于RL的“下一个词推理任务”，包括：模型如何生成带思考过程的多个轨迹 (Rollout)，如何基于语料库的真实词定义简单可验证的奖励 (Reward)，以及如何通过RL更新模型 (RL Update)。 (对应论文图3和公式3、4)。

概念依赖关系

概念关系梳理

首先，必须理解 标准下一个词预测 (NTP) 是什么，以及它的局限性 (这是背景和出发点)。
其次，需要了解 强化学习 (RL) 的基本思想 (奖励驱动学习) 以及 思维链 (CoT) / 推理(Reasoning) 的概念 (模型可以生成思考步骤)。
然后，才能理解论文提出的 下一个词推理 (Next-Token Reasoning) 任务定义：将CoT和NTP结合。
基于任务定义，理解如何巧妙地设计 可验证奖励 (Verifiable Reward) ，这是连接海量文本与RL的关键桥梁。
最后，将上述所有概念整合进 RPT整体框架 (Context -> Rollout -> Reward -> Update)。

最佳切入点

从对比开始是最好的：先描绘读者熟悉的“标准下一个词预测(NTP)”是如何工作的，然后引出论文的创新点——如果让模型在预测前先“思考一下”，并根据预测结果的对错给予“奖励”，会怎么样？即对比 “NTP” 与 “Next-Token Reasoning + RL reward”，这就自然地引出了我们需要重点解释的核心机制。

第二阶段：深入解释核心概念

理解了RPT的“野心”之后，我们现在来啃最硬的骨头，也是这篇论文本质的创新所在：它到底是怎么把预测下一个词，变成一个强化学习游戏的？我们将聚焦于最核心的概念：RPT的核心机制：如何将“下一个词预测”重构为基于RL的“下一个词推理任务”（生成思考轨迹 -> 定义奖励 -> RL更新）。

生活化比喻：学徒写诗与师傅批改

让我们想象一个场景：一位书法学徒正在学习续写古诗。他的师傅手里有一本完整的《唐诗三百首》（预训练语料库）。

**传统方法 (NTP)**：师傅给出一句诗的上半句，比如“床前明月光，”，学徒不假思索，直接凭感觉写下他认为最可能的下一个字，比如“疑”。师傅告诉他，你猜“疑”这个字的概率可以更高一点。学徒反复练习，目标就是让自己猜对的概率越来越高。他可能只是记住了这个搭配。

论文的RPT方法：师傅同样给出“床前明月光，”。这次，师傅要求学徒：

草稿1的结论字“疑”，与标准答案一致！师傅给这张草稿一个“大红花” (奖励 = 1)。
草稿2的结论字“霜”，与标准答案不一致。没有红花 (奖励 = 0)。
草稿3的结论字“照”，与标准答案不一致。没有红花 (奖励 = 0)。
...

草稿1: "思考：床前，明月，光，意境清冷，可能是怀疑... 结论字：疑"
草稿2: "思考：月光照在地上，像什么？可能是霜... 结论字：霜"
草稿3: "思考：光后面接什么顺口？... 结论字：照"
... （共8份草稿）

不能直接写答案。
拿几张草稿纸（比如8张，即 个Rollouts）。
在每张草稿纸上，先写下自己的**思考过程 (Reasoning/Chain-of-Thought, )，最后再写下推导出的下一个字 (Prediction, )**。
师傅拿到这8份草稿，他只看每份草稿最后的那个“结论字”。
师傅打开《唐诗三百首》，标准答案的下一个字是“疑”（**Ground-Truth, **）。
师傅**批改 (Reward, )**：
学习反馈 (RL Update)：学徒收到反馈后，他会自我调整： “哦！原来‘意境清冷，可能是怀疑’这个思考路径能得到红花！下次遇到类似场景，我要多往这个方向想。而‘像霜’和‘顺口溜’的思路得不到红花，要少用。” 学徒的目标不是猜测字本身，而是学习发展出一套能稳定获得“大红花”的思考方法。

这个比喻展示了核心机制：面对同一个上文，产生多种“思考+结论”的尝试，根据结论是否匹配客观标准答案给予简单奖励，最终强化那些能导出正确结论的思考路径。

建立比喻与实际技术的对应关系

下面我们把比喻中的元素和技术概念一一对应起来：

比喻中的关键元素	对应的实际技术概念	对应关系合理的解释
学徒	大语言模型 (LLM), 策略 Policy	模型就像学徒，根据当前状态（上文）生成动作（思考+预测），并通过奖励来学习和调整自身参数。
师傅和《唐诗三百首》	预训练语料库 & 奖励计算机制	语料库提供了上下文和客观的标准答案(Ground Truth)，奖励机制根据模型输出和标准答案自动计算奖励。
诗的上半句 "床前明月光,"	上下文 Context ()	这是模型进行预测的输入，即强化学习中的状态 State。
《唐诗三百首》中的下一个字 "疑"	真实的下一个词/序列 Ground-Truth ( 或 )	用于验证模型预测正确性的客观标准。
拿出多张 (G=8) 草稿纸尝试	生成多个轨迹 Rollout / Sampling G responses ${o_t^i}{i=1}^G \sim \pi\theta(\cdot	x_{\lt t})$
草稿上的思考过程 ("意境清冷...")	推理序列/思维链 Chain-of-thought reasoning sequence ()	模型在输出最终答案前生成的中间token，代表其“思考”。
草稿上最终写下的结论字 ("疑")	模型预测的下一个词/序列 Prediction ()	模型经过“思考”后，最终输出的用于和标准答案对比的结果。
一整张草稿 (思考过程+结论字)	一个完整的响应/轨迹 Response / Trajectory	从状态输入到最终输出和奖励评估的完整单元。
师傅对照答案给“大红花” (1或0)	可验证奖励信号 Reward Signal () (公式 3)	基于预测是否与真实匹配，给出的简单、客观、二元的奖励。论文中使用前缀匹配奖励。
学徒调整思考方法，争取更多红花	强化学习更新 RL Update (公式 4), 调整参数	模型根据收到的奖励，通过RL算法（如论文用的GRPO）更新参数，使得未来生成高奖励轨迹（即正确的思考+预测）的概率增加。
(师傅只让学徒续写难的诗句)	基于熵的数据过滤 (Entropy-based data filtering)	论文中会过滤掉那些太容易预测的词，让模型集中精力学习那些需要思考才能预测对的词。

深入技术细节

现在，我们从“学徒写诗”过渡到实际的技术原理和数学公式。核心在于奖励定义和优化目标。

我们先对比一下传统的NTP目标（论文公式1）：

原始数学形式:
符号替换版本:传统预测目标(模型参数) = 对序列中所有位置求和 [ 模型在给定上文和参数下，预测出「真实下一个词」的对数概率 ]
解释：这是最大似然估计。模型要做的就是，在每一个位置上，尽可能把概率质量都堆在那个正确的词上。这对应于学徒直接猜词，师傅告诉他猜对的“信心”要更高。

现在看RPT的核心：

关键技术1：奖励信号的定义 (Reward)

模型生成了个轨迹。我们需要给每个轨迹一个奖励。论文设计了“前缀匹配奖励”(prefix matching reward)。为什么要这么复杂，不直接比较和呢？因为模型预测的可能包含多个token，或者涉及到词表外的词，直接按token比较不方便，所以转换到字节(byte)层面，并检查是否匹配真实序列的一个合法前缀。

原始数学形式 (公式 3):
(其中是预测的字节序列，是其长度；是真实后续序列从头开始长度为的字节序列；是真实序列中所有合法token边界对应的字节长度集合)。
符号替换版本:

关键步骤解释:

将模型预测和真实后续文本都转成字节序列和。
检查预测的字节序列是否严格等于真实字节序列的开头部分。
检查预测字节序列的长度，是否对应真实序列中某个完整 token 的结束位置 (比如不能只匹配了半个token)。
两个条件都满足，奖励为1，否则为0。这是一个非常清晰、客观、二元的信号。

关键技术2：RPT的优化目标 (Objective)

有了奖励，模型的目标就是通过RL最大化期望奖励。

原始数学形式 (公式 4):
(注意：严格来说，RL算法如PPO/GRPO会利用这些轨迹和奖励计算策略梯度来更新，此公式表达了最大化期望奖励的核心意图)。
符号替换版本:RPT训练目标(模型参数) = 在以下情况下的「期望值」 [ 每次尝试获得的奖励 ]：数据从语料库中采样得到(上文，真实下文)，并且模型的多次尝试(思考+预测)是根据当前模型策略从给定上文生成的。

关键步骤解释:

从数据集采样一个上下文和真实后续。
模型基于生成条轨迹。
根据公式3计算每条轨迹的奖励。
使用RL算法（论文是GRPO，一种on-policy算法），利用这些 (状态 , 动作/轨迹 , 奖励 ) 来计算梯度，更新模型参数。更新的方向是：让未来产生奖励为1的轨迹的概率增大，让产生奖励为0的轨迹的概率减小。模型学习的不仅仅是输出，而是学习生成整个的过程。

将技术细节与比喻相互映射

公式3 (奖励) 在比喻中：就是师傅批改的“规则”。他把学徒的结论字 () 和《唐诗三百首》里的字 () 对比。不仅要字形一样(字节前缀匹配)，还要保证学徒写的是一个完整的字，不是半个字 (长度 )。完全符合规则，才给大红花 (1)，否则就是零蛋 (0)。这个规则简单明确，学徒没法跟师傅讨价还价，耍小聪明（避免 Reward Hacking）。
公式4 (目标) 在比喻中：就是学徒的“学习目标”。学徒的终极目标是最大化获得“大红花”的总数/期望值 ()。为了达到这个目标，他必须调整自己的思考方式(更新参数 )。如果“思考意境”这条路 (轨迹 ) 得到了红花 ()，学徒就强化这个思路 (增加的概率)；如果“想顺口溜”这条路 (轨迹 ) 没得到红花 ()，学徒就弱化这个思路 (减小的概率)。
与公式1 (NTP) 对比：传统NTP的目标相当于学徒不写思考过程，直接猜字，师傅不给红花，而是告诉他“你对‘疑’字的信心值还不够高”，学徒只调整对“疑”字的信心。而RPT 是奖励整个“思考+得出正确结论”的过程。
比喻的局限性：

比喻简化了RL更新的具体数学过程（如优势函数、梯度计算等）。
“字”与“token/byte”的对应关系，以及token边界 () 的概念，在比喻中被简化了。
学徒的“思考”是有意识的，而模型的token生成是基于概率分布的。

总结

核心联系在于：“学徒写诗”的比喻，生动地展示了RPT如何通过“探索”（多份草稿）、“客观评估”（对照答案给红花）和“反馈学习”（强化得红花的思路），来训练模型。

这种对应关系帮助我们理解：RPT不是让模型简单地“记住”下一个词，而是通过RL奖励机制，迫使模型学习如何“推导”出正确的下一个词。
用比喻总结最关键的数学原理：公式3定义了“大红花”的客观标准（预测必须精确匹配真实答案），公式4定义了学徒的终极目标——通过调整思考策略(模型参数)，来最大化获得“大红花”的期望数量。这套机制让模型从一个“背答案的填空者”，转向一个学习“如何思考才能得分的策略家”。

第三阶段：详细说明流程步骤

理解了RPT的核心机制和比喻后，现在我们来“按部就班”地拆解一下，如果我们要实现RPT，整个数据流和处理过程具体是什么样子的。

以下是 Reinforcement Pre-Training (RPT) 方案处理问题的完整流程：整个流程可以分为准备阶段和循环训练阶段。

准备阶段 (Pre-computation / Setup)

输入准备

一个基础语言模型（论文中使用 DeepSeek-R1-Distill-Qwen-14B），这个模型已经具备一定的语言能力和基础推理能力，作为训练的起点（学徒入学）。记作模型。
一个大规模预训练语料库（论文中使用 OmniMATH 数学语料库），包含大量文本序列。记作语料库。
一个用于推断的、更小的代理模型 (Proxy Model，论文中使用 1.5B 模型)。

语料过滤处理 (可选，但论文采用)

输入: 原始语料库，代理模型。
过程:

遍历原始语料库中的每一个文本序列。
对于序列中的每一个位置，将它前面的文本作为上下文，输入给代理模型。
代理模型计算预测下一个词的概率分布，并计算其熵（Entropy），比如计算Top-K个词的熵。熵越高，说明这个词越难预测，模型越不确定；熵越低，说明这个词很容易猜到（比如句子结尾的句号）。
设定一个熵的阈值。只保留那些下一个词的预测熵高于该阈值的位置及其对应的上下文。这样做的目的是过滤掉那些无需推理就能轻易预测的词，让模型把计算资源集中在学习那些“困难”的、需要推理的词上 (师傅只挑难题考学徒)。

输出: 过滤后的、包含“困难”预测点的数据集，其中每个元素可以看作一对 (上下文 , 真实的后续文本 )。

超参数设定

设定强化学习算法（如GRPO/PPO）的学习率、批大小(Batch Size)、每个上下文生成轨迹的数量 (论文中 )、采样温度 Temperature (控制探索性，论文中 0.8)、最大长度等。

循环训练阶段 (Training Loop)

该阶段会迭代执行很多步 (Steps)，每一步包含以下流程：

数据采样 (Batch Sampling)

输入: 过滤后的数据集，批大小 B。
过程: 从数据集中随机采样 B 个样本，构成一个批次(Batch)。每个样本包含 (上下文 , 真实的后续文本 )。
输出: 一个批次的样本。

轨迹生成 (Rollout Generation / On-Policy Sampling)

输入: 当前模型，批次中的一个样本，轨迹数量，采样温度，预设的提示词模板(Prompt Template)。
过程:

将上下文按照提示词模板构造成模型的输入（例如，提示词会告诉模型：“请思考并预测下一个词，将思考过程写下，最终答案放入\boxed{}中”）。
将构造好的输入喂给当前模型。
模型以设定的温度进行采样生成，重复次，独立地生成条不同的完整响应文本。
从每条响应文本中，解析出： * 思考过程的token序列 (例如，特殊标记 <think> 和 </think> 之间的内容)。 * 最终预测的token序列 (例如，最后一个 \boxed{} 中的内容)。
将思考和预测组合成一条轨迹。
对批次中所有的 B 个样本都执行此操作。

输出: 对于批次中的每个样本，都得到一组条轨迹。以及它们对应的真实后续文本。

奖励计算 (Reward Calculation)

输入: 针对一个样本，模型生成的条轨迹的预测部分，以及真实的后续文本。
过程:

将其转换为字节序列，并记录其字节长度。
应用奖励公式(公式3)：判断是否等于的前个字节，并且是否属于集合。
如果两个条件都满足，赋值奖励。
否则，赋值奖励。

预先计算真实后续文本对应的字节序列，以及其中所有合法token边界对应的字节长度集合。
对于每一条轨迹的预测 :
对批次中所有 B 个样本的所有条轨迹都执行此操作。

输出: 对于批次中每个样本的每条轨迹，都计算得到了一个对应的奖励值。整个批次的数据现在是。

模型参数更新 (Policy Update)

输入: 整个批次的数据，包括所有的上下文、生成的完整轨迹（包含思考和预测的全部token）、以及对应的奖励，当前模型。
过程:

使用在线策略强化学习算法（论文使用GRPO，其核心思想与PPO类似）。
算法会基于当前模型重新计算生成这些轨迹的概率（或对数概率）。
算法利用奖励信号（可能还会计算基线值或优势函数 Advantage，以减小方差），结合轨迹的概率，计算策略梯度。
根据计算出的梯度和学习率，使用优化器（如Adam）更新模型的参数。更新的目标是最大化期望奖励（公式4），即增加那些获得奖励为1的轨迹的生成概率，降低获得奖励为0的轨迹的生成概率。

输出: 更新后的模型参数，得到新的模型，用于下一个训练步的第2步（轨迹生成）。

循环: 不断重复步骤数据采样 -> 轨迹生成 -> 奖励计算 -> 模型参数更新，直到达到预设的训练步数或收敛。

评估阶段 (Evaluation)

训练结束后：

输入: 训练好的RPT模型，测试集上下文。
过程:

用于语言模型任务: 给定上下文，可以让模型生成思考过程和预测，取评估准确率；或者直接像传统模型一样，贪婪解码或采样概率最高的下一个词，评估准确率。
用于下游任务: 可以直接零样本(Zero-shot)测试，或者将该模型作为基础，在特定任务数据集上继续进行强化学习微调(RL Fine-tuning)。

输出: 模型在各项任务上的性能指标。

第四阶段：实验设计与验证分析

一个新方法的提出，必须经过实验的千锤百炼才能站稳脚跟。现在我们就化身审稿人，来审视一下 RPT 这篇论文的实验部分，看看作者是如何构建证据链条，来证明 RPT 是先进且有效的。

主实验设计解读：核心论点的验证

论文的核心主张

RPT作为一种新的预训练范式，能够： (1) 提升模型的基础语言建模能力（即下一个词预测的准确率）； (2) 激发模型的推理能力； (3) 为后续的RL微调提供更好的基础； (4) 具备良好的计算扩展性(Scaling property)。

主实验设计与选择合理性分析

作者设计了几个关键实验来直接回应这些主张：

语言模型性能测试 (Table 1, Figure 4): 直接验证主张(1)。
扩展性法则测试 (Figure 5): 直接验证主张(4)。
后续RL微调测试 (Table 2): 直接验证主张(3)。
零样本下游任务测试 (Table 3): 直接验证主张(2)和(1)。

我们来看选择的合理性：

数据集 (Datasets)

训练/验证: OmniMATH (包含4000多数学竞赛题和解答)。

合理性: 选择数学数据集是合理的，因为数学文本天然包含严密的逻辑和推理过程，非常适合验证RPT“激励推理”的目标。下一个词的预测往往依赖于对前面数学概念和步骤的理解，而非简单模式匹配。
局限性: 论文结论部分也承认，目前主要在数学语料上训练，其在更广泛、通用领域的文本（如新闻、小说）上的效果仍需未来工作验证。

RL微调: Skywork-OR1 (可验证答案的问题)。
Zero-Shot评估: MMLU-Pro (多任务理解), SuperGPQA (研究生水平的、跨学科的推理问题)。

合理性: 这些都是衡量模型通用能力和复杂推理能力的公认的、有挑战性的基准(Benchmark)，覆盖领域广，难度高，能有效检验RPT训练出的模型是否真的具备了更强的、可迁移的推理能力。

评价指标 (Metrics)

Next-Token Prediction Accuracy: 预测下一个词的准确率。

合理性: 衡量模型解决具体任务和推理能力的标准指标。

Accuracy on downstream tasks (MMLU-Pro, SuperGPQA, Skywork-OR1): 任务准确率。

合理性: 这是衡量语言模型基础能力最直接的指标，直接回应RPT是否提升了语言建模能力。特别地，作者根据基线模型的预测熵，将测试数据分为 Easy, Medium, Hard 三个难度等级，分别报告准确率。这个设计非常关键且合理，它能揭示RPT是否尤其在“困难”词上（那些真正需要推理的词）带来提升。

$R^2$ (Coefficient of determination): 衡量Scaling Law曲线拟合优度。

合理性: 量化说明实验数据点与预测的扩展法则趋势的吻合程度，证明性能提升是可预测和稳定的。

基线方法 (Baselines)

R1-Distill-Qwen-14B: 论文RPT-14B模型的直接基础模型 (Base Model)。这是最核心的比较对象。作者还让它以两种模式评估：(a) 标准下一个词预测模式；(b) 推理模式（即在测试时也让它生成思考过程再预测）。
Qwen2.5-14B: 基础模型的Base。
R1-Distill-Qwen-32B: 一个参数量大得多的模型。

合理性: 选择非常合理且有代表性。

与同尺寸Base模型(14B)对比，证明RPT方法本身的增益。
特别加入Base模型在“推理模式”下的对比，是为了排除性能提升仅仅来源于“测试时进行思考”这个形式，而非RPT训练过程本身 (消融实验的思想)。
与更大的模型(32B)对比，是为了展示RPT的效率，看14B的RPT模型能否匹敌甚至超越未经RPT训练的更大模型，这具有很强的说服力。
在Table 2中，还加入了+ Continual NTP training基线，即在相同数据上继续用传统NTP方法训练Base模型，证明了效果提升不是因为简单地“在OmniMATH数据上多训练了一会”，而是因为RPT这种训练“方式”本身。

主实验结果如何支撑核心贡献

Table 1 & Figure 4: RPT-14B 在所有难度级别上的下一个词预测准确率均高于 Base 14B 模型。尤其值得注意的是，Base 14B 在推理模式下的准确率极低 (1.41-3.31%)，证明了未经RPT训练，模型并不会“下一个词推理”；而RPT-14B的性能甚至匹敌或超过了32B模型，直接支撑了RPT显著提升语言建模能力的主张。
Table 2: 在进行后续RLVR微调后，以RPT-14B为起点的模型最终性能(58.3) 高于以Base 14B为起点的模型(52.7)，更高于以Base 14B + NTP训练为起点的模型(13.0)。这直接支撑了RPT能为后续RL微调提供更好基础的主张。
Table 3: RPT-14B (推理模式) 在MMLU-Pro和SuperGPQA上的Zero-shot性能，不仅超越了Base 14B (两种模式)，甚至显著超越了32B模型 (标准模式)，这有力支撑了RPT能提升模型通用推理能力的主张。
Figure 5: 随着计算量增加，准确率稳定上升，且曲线拟合度极高()，支撑了RPT具备良好扩展性的主张。

结论：主实验形成了一个闭环，从基础能力、推理能力、微调潜力和扩展性四个方面，通过与恰当且强大的基线在标准数据集和指标上对比，定量地支撑了论文的核心贡献。

消融实验分析：内部组件的贡献

严格意义上，论文没有一个典型的、逐个移除模块的 "Ablation Study" 表格。但是，作者通过巧妙的对比实验起到了消融实验的效果，验证了关键设计的必要性：

关键模块/设计 1: RPT训练过程本身 (vs. 仅在推理时思考)

验证实验: Table 1 中，对比 RPT-14B (经过RPT训练，推理模式评估) vs R1-Distill-Qwen-14B (Next-token reasoning，未经RPT训练，仅在推理时使用推理模式)。
对应创新点: RPT训练范式，学习如何进行“下一个词推理”。
结果与证明: 未经RPT训练的Base模型，在推理模式下的准确率惨不忍睹 (e.g., Hard: 1.41)，远低于其标准预测模式(20.43)，更远低于RPT-14B (23.75)。性能的巨大鸿沟，定量地、强有力地证明了：模型的提升并非来自“推理时生成思考过程”这个形式，而是来自通过RPT训练，模型真正学会了如何进行有效思考以预测下一个词。RPT训练过程是绝对必要和不可替代的。

关键模块/设计 2: 训练目标的类型 (RPT的RL目标 vs. 传统NTP目标)

验证实验: Table 2 中，对比RL微调的起点：RPT-14B vs R1-Distill-Qwen-14B + Continual NTP training。后者是在与RPT相同的数据上，但使用传统NTP目标继续训练Base模型。
对应创新点: RPT通过RL目标进行预训练，能提供更好的微调基础。
结果与证明: 使用NTP目标继续训练，模型的推理能力（Before RL列）急剧下降 (从51.2 骤降至 10.7)，后续再做RL微调恢复也很慢(13.0)。而RPT-14B提供了很高的起点(56.3)和终点(58.3)。这证明了性能提升并非来源于“见过这些训练数据”，而是来源于RPT采用的RL训练目标与后续RL微调目标的一致性。基于RL的RPT训练方式对于构建更好的微调基础是必要的。

(附录A) 奖励函数设计

论文在附录中提到，他们尝试了不同的奖励函数设计（如只匹配第一个token，稠密奖励等），发现性能与提出的前缀匹配奖励相当。这表明RPT框架对于奖励函数的具体细节选择具有一定的鲁棒性，其核心优势可能更多来源于“将NTP重构为RL任务”这个框架本身，只要奖励是基于正确性的即可。

深度/创新性实验剖析：洞察方法的内在特性

除了常规对比和消融性质的实验，作者设计了两个非常巧妙的实验来提供更深入的洞见：

巧妙实验 1: 推理模式分析 (Reasoning Pattern Analysis - Figure 6, Table 4, Appendix F)

实验类型: 可视化/定性分析 + 案例研究 (Case Study) + 统计分析。
实验目的: 想要证明什么？ RPT激发的“下一个词推理”的思考过程，与模型进行“结构化问题求解”(Problem Solving)的思考过程，在性质上是不同的。想直观展示模型到底在“想”什么，证明它不是简单的模式匹配。
实验设计:

定义6种推理模式类型（Transition, Reflection, Breakdown, Hypothesis, Divergent, Deduction）及其关键词。
对比两个模型：RPT-14B（执行下一个词推理任务）和 Base 14B 模型（执行标准数学问题求解任务）。
统计两模型生成的思考过程中，各类推理模式关键词出现的比例 (Figure 6)。
展示RPT-14B具体的思考过程文本样例 (Table 4 和 Case Studies)，进行定性分析。

实验结论与价值:

统计结果(Fig 6)清晰显示：问题求解更多依赖 Breakdown (分解问题)，而RPT的下一个词推理则显著更多地使用 Hypothesis (假设/猜想) 和 Deduction (演绎)。
案例(Table 4)直观展示了模型如何分析语义、提出多种可能性("Alternatively...")、自我反思("Wait...")、考虑文本结构线索等。
这个实验揭示了RPT方法的深层特性：它不仅仅是提升了准确率，更是改变了模型内在的“思考方式”，使其更具探索性、推理性，这与论文声称的“促进更深理解，而非表面记忆”的目标高度一致，提供了机理上的解释。

巧妙实验 2: 按难度划分的扩展性分析 (Scaling Properties Analysis by Difficulty - Figure 5)

实验类型: 参数敏感性分析（对计算量参数）+ 鲁棒性/压力测试（对数据难度）。
实验目的: 想要证明什么？ RPT不仅具有扩展性，而且这种扩展性在不同难度的数据上都是稳定、可靠的。想看计算量的增加是否能持续攻克难题。
实验设计:

不仅绘制了总体的Scaling Curve，而是基于熵值将数据划分为Easy/Medium/Hard三类。
分别对这三类数据绘制准确率随计算量（FLOPs）变化的曲线，并分别拟合幂律公式，计算拟合优度。

实验结论与价值:

结果显示，在所有难度级别上，性能都随计算量稳定提升，且都高度符合幂律 (均非常高)。
这揭示了RPT方法的鲁棒性和潜力：它不是一个只能解决简单问题的技巧，增加算力可以持续、可预测地提升模型在困难样本上的表现。这证明了RPT作为一个“扩展范式”(Scaling Paradigm)的根基是稳固的，为未来投入更多算力进行更大规模RPT训练提供了信心和理论依据。同时结合Table 1的结果（RPT在Hard数据上提升明显），说明RPT的价值在困难任务上更能体现。

通过这些精心设计的实验，作者构建了一个从性能指标到内在机理、从当前效果到未来潜力的完整论证链，使得RPT方法的有效性和先进性得到了充分的证明。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业