支持私有化部署
AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


颠覆!强化学习不再是微调专利,微软直接将其用于基模训练

发布日期:2025-06-12 12:20:52 浏览次数: 1551
作者:沈公子今天读什么

微信搜一搜,关注“沈公子今天读什么”

推荐语

微软突破性研究:强化学习直接融入预训练,让大模型从"死记硬背"升级为"真正思考"。

核心内容:
1. 传统预训练与强化学习的局限性分析
2. RPT方法如何将强化学习融入预训练阶段
3. 新方法带来的模型推理能力提升与潜在影响

杨芳贤
53A创始人/腾讯云(TVP)最具价值专家

一句话概括,强化学习不做微调这道“餐后甜点”了,RPT 直接把它变成预训练的“主食”,拿语料原文当答案,对了奖,错了罚,让模型从基础上就“长脑子”。

第一阶段:识别核心概念

想象一下,目前绝大多数LLM就像一个疯狂“刷题”的学生,它的学习方式(预训练)就是不断地做“填空题”——给定上文,预测下一个词(Next-Token Prediction)。这种方法很有效,能让模型记住海量知识和语言模式,但它可能更多是记住了表面关联,而非真正的理解和推理。另一方面,我们知道强化学习(Reinforcement Learning, RL)像一位教练,通过“奖励”和“惩罚”来训练模型完成特定任务或对齐人类偏好,能有效提升模型的推理能力,但这通常用在微调(Fine-tuning)阶段,并且需要昂贵的人工标注数据或特定领域的问答数据,规模很难做大。

这篇论文,就是想把这两者结合起来,提出了一种叫做 Reinforcement Pre-Training (RPT) 的新方法。

论文动机分析

论文的出发点,是想解决现有技术路线的两个核心痛点:

  • 传统预训练的局限性:标准的“预测下一个词” (Next-Token Prediction, NTP) 预训练方法,虽然可扩展性极强(有多少文本数据都能用),但它倾向于让模型学习词与词之间的表面共现关系,也就是死记硬背,而不是鼓励模型去深入理解和推理“为什么”下一个词应该是这个。
  • 现有强化学习应用的局限性:强化学习 (RL) 被证明能有效提升模型的推理能力和对齐能力(如RLHF)。但是,将RL应用于LLM面临可扩展性(Scalability)和通用性(Generality)的挑战。例如,RLHF依赖昂贵的人工反馈数据,且奖励模型可能被“钻空子”(Reward Hacking);而基于可验证奖励的RL (如解数学题,对了就给奖励),又依赖于特定领域的、带标注答案的数据集,数据量有限,难以用于通用的、大规模的预训练。
  • 核心动机桥接: 作者希望弥合“可扩展但可能肤浅”的自监督预训练 与 “强大但难扩展”的强化学习之间的鸿沟。目标是创造一种新的预训练范式,它既能像传统预训练一样利用海量无标注的网络文本数据,又能像强化学习一样,显式地激励模型发展出更强的推理能力,而不是简单记忆。 论文的图1那个“樱桃蛋糕”比喻很形象:传统方法里,预训练(NTP)是蛋糕主体,RL只是最后点缀的樱桃(微调);而RPT想让整个蛋糕(预训练)都融入RL和推理的风味。

论文主要贡献点分析

主要创新点

  • 提出了RPT (Reinforcement Pre-Training) 这一全新的预训练范式。
  • 将传统的“预测下一个词”任务,重新定义(reframe)为一个“推理下一个词”(Next-Token Reasoning) 的任务,并使用强化学习来训练。
  • 设计了一种方法,使得强化学习可以规模化地应用于海量的、通用的、无标注的预训练文本语料,而非局限于特定数据集。

关键技术或方法

  • **任务重定义 (Next-Token Reasoning)**:模型在预测下一个词之前,被要求先生成一段“思考过程”(类似思维链 Chain-of-Thought),然后再给出预测的词。
  • **内在可验证奖励 (Intrinsic Verifiable Reward)**:这是实现规模化的关键!奖励信号直接来源于语料库本身——模型预测的词如果与语料库中真实的下一个词(Ground-Truth)匹配,就给予奖励(比如+1),否则不给奖励(比如0)。这个奖励是客观的、规则明确的、自动的,不需要人工标注,也极大减少了奖励被“钻空子”的风险。
  • 强化学习框架:利用在线策略强化学习 (On-policy RL),模型针对一段上文,生成多个不同的“思考+预测”的轨迹 (Rollouts),根据每个轨迹获得的奖励(对或错),来更新模型参数,鼓励那些能导出正确预测的思考过程。

显著性结果

  • 语言模型能力提升:经过RPT训练的模型,在最基础的“预测下一个词”的准确率上,显著超过了传统方法训练的基座模型,尤其是在预测那些比较难的词(高熵词)时。一个14B的RPT模型甚至能达到或超越一个更大的32B传统模型的性能。这意味着RPT让模型学得更“深”了。
  • 更好的微调基础:RPT预训练出的模型,为后续的强化学习微调提供了一个更好的起点。相比于传统预训练模型,在它基础上进行特定任务RL微调,效果更好。这说明预训练和微调的目标更加一致了。
  • **良好的扩展性 (Scaling Property)**:论文展示了RPT具有良好的扩展法则(Scaling Law)特性,即随着训练计算量的增加,模型预测下一个词的准确率会持续、可预测地提升。这证明RPT有潜力成为未来模型规模化发展的一个可持续的技术路径。
  • 推理模式的改变:分析表明,RPT鼓励模型产生与单纯解题不同的推理模式,更多地使用假设、演绎等思维方式,进行更具探索性的思考。

理解难点识别

关键概念/方法

  • 标准下一个词预测 (NTP) 与强化学习目标函数的区别。
  • 如何将一个确定的、通常用监督学习(交叉熵损失)训练的NTP任务,转变成一个包含“探索”和“奖励”的RL任务。
  • 奖励信号的具体设计(特别是论文提到的前缀匹配 Prefix Matching Reward,考虑了字节和词的边界)。
  • RL中的 On-policy, Rollout, Trajectory, Policy Update 等概念如何应用在生成“思考过程+预测词”上。
  • “Next-Token Reasoning”本身:模型如何学习在预测一个词之前进行“思考”。

最具挑战性的部分

最难理解的可能是这个**“范式转换” (Paradigm Shift)**:如何把“预测下一个词”这个看似简单的模仿任务,硬核地套进强化学习的框架。读者需要理解: *   状态(State) = 当前的上文。 *   动作(Action) = 生成一整段的 (思考过程token序列 + 最终预测token)。 *   轨迹(Trajectory) = 从状态开始,执行完一个动作的全过程。 *   奖励(Reward) = 只在轨迹结束时,根据最终预测的token是否与真实token匹配来给予的一个稀疏奖励 (0或1)。 *   策略(Policy)= 模型本身,它决定了给定状态下,生成何种“思考+预测”轨迹的概率分布。 RL的目标是调整策略(模型参数),最大化累积奖励的期望值。这与NTP最大化每个位置上正确词的对数概率,是完全不同的优化目标和过程。

需要重点解释的核心概念

RPT的核心机制循环:即如何将“下一个词预测”重构为基于RL的“下一个词推理任务”,包括:模型如何生成带思考过程的多个轨迹 (Rollout),如何基于语料库的真实词定义简单可验证的奖励 (Reward),以及如何通过RL更新模型 (RL Update)。 (对应论文图3和公式3、4)。

概念依赖关系

概念关系梳理

  • 首先,必须理解 标准下一个词预测 (NTP) 是什么,以及它的局限性 (这是背景和出发点)。
  • 其次,需要了解 强化学习 (RL) 的基本思想 (奖励驱动学习) 以及 思维链 (CoT) / 推理(Reasoning) 的概念 (模型可以生成思考步骤)。
  • 然后,才能理解论文提出的 下一个词推理 (Next-Token Reasoning) 任务定义:将CoT和NTP结合。
  • 基于任务定义,理解如何巧妙地设计 可验证奖励 (Verifiable Reward) ,这是连接海量文本与RL的关键桥梁。
  • 最后,将上述所有概念整合进 RPT整体框架 (Context -> Rollout -> Reward -> Update)。

最佳切入点

从对比开始是最好的:先描绘读者熟悉的“标准下一个词预测(NTP)”是如何工作的,然后引出论文的创新点——如果让模型在预测前先“思考一下”,并根据预测结果的对错给予“奖励”,会怎么样? 即对比 “NTP” 与 “Next-Token Reasoning + RL reward”, 这就自然地引出了我们需要重点解释的核心机制。


第二阶段:深入解释核心概念

理解了RPT的“野心”之后,我们现在来啃最硬的骨头,也是这篇论文本质的创新所在:它到底是怎么把预测下一个词,变成一个强化学习游戏的?我们将聚焦于最核心的概念:RPT的核心机制:如何将“下一个词预测”重构为基于RL的“下一个词推理任务”(生成思考轨迹 -> 定义奖励 -> RL更新)。

生活化比喻:学徒写诗与师傅批改

让我们想象一个场景:一位书法学徒正在学习续写古诗。他的师傅手里有一本完整的《唐诗三百首》(预训练语料库)。

  • **传统方法 (NTP)**:师傅给出一句诗的上半句,比如“床前明月光,”,学徒不假思索,直接凭感觉写下他认为最可能的下一个字,比如“疑”。师傅告诉他,你猜“疑”这个字的概率可以更高一点。学徒反复练习,目标就是让自己猜对的概率越来越高。他可能只是记住了这个搭配。
  • 论文的RPT方法:师傅同样给出“床前明月光,”。这次,师傅要求学徒:
    • 草稿1的结论字“疑”,与标准答案一致!师傅给这张草稿一个“大红花” (奖励 = 1)。
    • 草稿2的结论字“霜”,与标准答案不一致。没有红花 (奖励 = 0)。
    • 草稿3的结论字“照”,与标准答案不一致。没有红花 (奖励 = 0)。
    • ...
    • 草稿1: "思考:床前,明月,光,意境清冷,可能是怀疑... 结论字:"
    • 草稿2: "思考:月光照在地上,像什么?可能是霜... 结论字:"
    • 草稿3: "思考:光后面接什么顺口?... 结论字:"
    • ... (共8份草稿)
  1. 不能直接写答案。
  2. 拿几张草稿纸(比如8张,即 个Rollouts)。
  3. 在每张草稿纸上,先写下自己的**思考过程 (Reasoning/Chain-of-Thought, ),最后再写下推导出的下一个字 (Prediction, )**。
  4. 师傅拿到这8份草稿,他只看每份草稿最后的那个“结论字”。
  5. 师傅打开《唐诗三百首》,标准答案的下一个字是“疑”(**Ground-Truth, **)。
  6. 师傅**批改 (Reward, )**:
  7. 学习反馈 (RL Update):学徒收到反馈后,他会自我调整: “哦!原来‘意境清冷,可能是怀疑’这个思考路径能得到红花!下次遇到类似场景,我要多往这个方向想。而‘像霜’和‘顺口溜’的思路得不到红花,要少用。” 学徒的目标不是猜测字本身,而是学习发展出一套能稳定获得“大红花”的思考方法

这个比喻展示了核心机制:面对同一个上文,产生多种“思考+结论”的尝试,根据结论是否匹配客观标准答案给予简单奖励,最终强化那些能导出正确结论的思考路径。

建立比喻与实际技术的对应关系

下面我们把比喻中的元素和技术概念一一对应起来:

比喻中的关键元素
对应的实际技术概念
对应关系合理的解释
学徒
大语言模型 (LLM), 策略 Policy 
模型就像学徒,根据当前状态(上文)生成动作(思考+预测),并通过奖励来学习和调整自身参数
师傅和《唐诗三百首》
预训练语料库 & 奖励计算机制
语料库提供了上下文和客观的标准答案(Ground Truth),奖励机制根据模型输出和标准答案自动计算奖励。
诗的上半句 "床前明月光,"
上下文 Context ()
这是模型进行预测的输入,即强化学习中的状态 State。
《唐诗三百首》中的下一个字 "疑"
真实的下一个词/序列 Ground-Truth ( 或 )
用于验证模型预测正确性的客观标准。
拿出多张 (G=8) 草稿纸尝试
生成多个轨迹 Rollout / Sampling G responses ${o_t^i}{i=1}^G \sim \pi\theta(\cdot
x_{\lt t})$
草稿上的思考过程 ("意境清冷...")
推理序列/思维链 Chain-of-thought reasoning sequence ()
模型在输出最终答案前生成的中间token,代表其“思考”。
草稿上最终写下的结论字 ("疑")
模型预测的下一个词/序列 Prediction ()
模型经过“思考”后,最终输出的用于和标准答案对比的结果。
一整张草稿 (思考过程+结论字)
一个完整的响应/轨迹 Response / Trajectory 
从状态输入到最终输出和奖励评估的完整单元。
师傅对照答案给“大红花” (1或0)
可验证奖励信号 Reward Signal () (公式 3)
基于预测  是否与真实  匹配,给出的简单、客观、二元的奖励。论文中使用前缀匹配奖励。
学徒调整思考方法,争取更多红花
强化学习更新 RL Update (公式 4), 调整参数 
模型根据收到的奖励,通过RL算法(如论文用的GRPO)更新参数 ,使得未来生成高奖励轨迹(即正确的思考+预测)的概率增加。
(师傅只让学徒续写难的诗句)
基于熵的数据过滤 (Entropy-based data filtering)
论文中会过滤掉那些太容易预测的词,让模型集中精力学习那些需要思考才能预测对的词。

深入技术细节

现在,我们从“学徒写诗”过渡到实际的技术原理和数学公式。核心在于奖励定义和优化目标。

我们先对比一下传统的NTP目标(论文公式1):

  • 原始数学形式:

  • 符号替换版本:传统预测目标(模型参数) = 对序列中所有位置求和 [ 模型在给定上文和参数下,预测出「真实下一个词」的对数概率 ]

  • 解释:这是最大似然估计。模型要做的就是,在每一个位置上,尽可能把概率质量都堆在那个正确的词  上。这对应于学徒直接猜词,师傅告诉他猜对的“信心”要更高。

现在看RPT的核心:

关键技术1:奖励信号的定义 (Reward)

模型生成了  个轨迹 。我们需要给每个轨迹一个奖励 。论文设计了“前缀匹配奖励”(prefix matching reward)。为什么要这么复杂,不直接比较  和  呢?因为模型预测的  可能包含多个token,或者涉及到词表外的词,直接按token比较不方便,所以转换到字节(byte)层面,并检查是否匹配真实序列的一个合法前缀。

  • 原始数学形式 (公式 3):

    (其中  是预测  的字节序列,  是其长度; 是真实后续序列  从头开始长度为  的字节序列; 是真实序列中所有合法token边界对应的字节长度集合)。

  • 符号替换版本:

  • 关键步骤解释:
  1. 将模型预测  和真实后续文本  都转成字节序列  和 
  2. 检查预测的字节序列  是否严格等于真实字节序列  的开头部分。
  3. 检查预测字节序列的长度 ,是否对应真实序列中某个完整 token 的结束位置 (比如不能只匹配了半个token)。
  4. 两个条件都满足,奖励为1,否则为0。这是一个非常清晰、客观、二元的信号。

关键技术2:RPT的优化目标 (Objective)

有了奖励,模型的目标就是通过RL最大化期望奖励。

  • 原始数学形式 (公式 4):

    (注意:严格来说,RL算法如PPO/GRPO会利用这些轨迹和奖励  计算策略梯度来更新,此公式表达了最大化期望奖励的核心意图)。

  • 符号替换版本:RPT训练目标(模型参数) = 在以下情况下的「期望值」 [ 每次尝试获得的奖励 ]: 数据从语料库中采样得到(上文,真实下文),并且 模型的多次尝试(思考+预测)是根据当前模型策略从给定上文生成的。

  • 关键步骤解释:
  1. 从数据集  采样一个上下文  和真实后续 
  2. 模型  基于  生成  条轨迹 
  3. 根据公式3计算每条轨迹的奖励 
  4. 使用RL算法(论文是GRPO,一种on-policy算法),利用这些 (状态 , 动作/轨迹 , 奖励 ) 来计算梯度,更新模型参数 。更新的方向是:让未来产生奖励为1的轨迹  的概率  增大,让产生奖励为0的轨迹的概率减小。模型学习的不仅仅是输出  ,而是学习生成整个  的过程。

将技术细节与比喻相互映射

  • 公式3 (奖励) 在比喻中:就是师傅批改的“规则”。他把学徒的结论字 () 和《唐诗三百首》里的字 () 对比。不仅要字形一样(字节前缀匹配),还要保证学徒写的是一个完整的字,不是半个字 (长度 )。完全符合规则,才给大红花 (1),否则就是零蛋 (0)。这个规则简单明确,学徒没法跟师傅讨价还价,耍小聪明(避免 Reward Hacking)。
  • 公式4 (目标) 在比喻中:就是学徒的“学习目标”。学徒的终极目标是最大化获得“大红花”的总数/期望值 ()。为了达到这个目标,他必须调整自己的思考方式(更新参数 )。如果“思考意境”这条路 (轨迹 ) 得到了红花 (),学徒就强化这个思路 (增加  的概率);如果“想顺口溜”这条路 (轨迹 ) 没得到红花 (),学徒就弱化这个思路 (减小  的概率)。
  • 与公式1 (NTP) 对比: 传统NTP的目标  相当于学徒不写思考过程,直接猜字,师傅不给红花,而是告诉他“你对‘疑’字的信心值还不够高”,学徒只调整对“疑”字的信心。而RPT  是奖励整个“思考+得出正确结论”的过程。
  • 比喻的局限性
    • 比喻简化了RL更新的具体数学过程(如优势函数、梯度计算等)。
    • “字”与“token/byte”的对应关系,以及token边界 () 的概念,在比喻中被简化了。
    • 学徒的“思考”是有意识的,而模型的token生成是基于概率分布的。

总结

核心联系在于:“学徒写诗”的比喻,生动地展示了RPT如何通过“探索”(多份草稿)、“客观评估”(对照答案给红花)和“反馈学习”(强化得红花的思路),来训练模型。

  • 这种对应关系帮助我们理解:RPT不是让模型简单地“记住”下一个词,而是通过RL奖励机制,迫使模型学习如何“推导”出正确的下一个词。
  • 用比喻总结最关键的数学原理:公式3定义了“大红花”的客观标准(预测必须精确匹配真实答案),公式4定义了学徒的终极目标——通过调整思考策略(模型参数),来最大化获得“大红花”的期望数量。 这套机制让模型从一个“背答案的填空者”,转向一个学习“如何思考才能得分的策略家”。

第三阶段:详细说明流程步骤

理解了RPT的核心机制和比喻后,现在我们来“按部就班”地拆解一下,如果我们要实现RPT,整个数据流和处理过程具体是什么样子的。

以下是 Reinforcement Pre-Training (RPT) 方案处理问题的完整流程:整个流程可以分为准备阶段和循环训练阶段。

准备阶段 (Pre-computation / Setup)

输入准备

  • 一个基础语言模型(论文中使用 DeepSeek-R1-Distill-Qwen-14B),这个模型已经具备一定的语言能力和基础推理能力,作为训练的起点(学徒入学)。记作模型 
  • 一个大规模预训练语料库(论文中使用 OmniMATH 数学语料库),包含大量文本序列。记作语料库 
  • 一个用于推断的、更小的代理模型 (Proxy Model,论文中使用 1.5B 模型)。

语料过滤处理 (可选,但论文采用)

  • 输入: 原始语料库 ,代理模型。
  • 过程:
    • 遍历原始语料库中的每一个文本序列。
    • 对于序列中的每一个位置 ,将它前面的文本作为上下文 ,输入给代理模型。
    • 代理模型计算预测下一个词的概率分布,并计算其熵(Entropy),比如计算Top-K个词的熵。熵越高,说明这个词越难预测,模型越不确定;熵越低,说明这个词很容易猜到(比如句子结尾的句号)。
    • 设定一个熵的阈值。只保留那些下一个词的预测熵高于该阈值的位置及其对应的上下文 。这样做的目的是过滤掉那些无需推理就能轻易预测的词,让模型把计算资源集中在学习那些“困难”的、需要推理的词上 (师傅只挑难题考学徒)。
  • 输出: 过滤后的、包含“困难”预测点的数据集 ,其中每个元素可以看作一对 (上下文 , 真实的后续文本 )。

超参数设定

设定强化学习算法(如GRPO/PPO)的学习率、批大小(Batch Size)、每个上下文生成轨迹的数量  (论文中 )、采样温度 Temperature (控制探索性,论文中 0.8)、最大长度等。

循环训练阶段 (Training Loop)

该阶段会迭代执行很多步 (Steps),每一步包含以下流程:

数据采样 (Batch Sampling)

  • 输入: 过滤后的数据集 ,批大小 B。
  • 过程: 从数据集  中随机采样 B 个样本,构成一个批次(Batch)。每个样本包含 (上下文 , 真实的后续文本 )。
  • 输出: 一个批次的样本 

轨迹生成 (Rollout Generation / On-Policy Sampling)

  • 输入: 当前模型 ,批次中的一个样本 ,轨迹数量 ,采样温度,预设的提示词模板(Prompt Template)。
  • 过程:
    • 将上下文  按照提示词模板构造成模型的输入(例如,提示词会告诉模型:“请思考并预测下一个词,将思考过程写下,最终答案放入\boxed{}中”)。
    • 将构造好的输入喂给当前模型 
    • 模型以设定的温度进行采样生成,重复  次,独立地生成  条不同的完整响应文本。
    • 从每条响应文本  中,解析出: *  思考过程的token序列  (例如,特殊标记 <think> 和 </think> 之间的内容)。 *  最终预测的token序列  (例如,最后一个 \boxed{} 中的内容)。
    • 将思考和预测组合成一条轨迹 
    • 对批次中所有的 B 个样本都执行此操作。
  • 输出: 对于批次中的每个样本 ,都得到一组  条轨迹 。以及它们对应的真实后续文本 

奖励计算 (Reward Calculation)

  • 输入: 针对一个样本 ,模型生成的  条轨迹的预测部分 ,以及真实的后续文本 
  • 过程:
    • 将其转换为字节序列 ,并记录其字节长度 
    • 应用奖励公式(公式3):判断  是否等于  的前  个字节, 并且  是否属于集合 
    • 如果两个条件都满足,赋值奖励 
    • 否则,赋值奖励 
    • 预先计算真实后续文本  对应的字节序列 ,以及其中所有合法token边界对应的字节长度集合 
    • 对于每一条轨迹的预测 :
    • 对批次中所有 B 个样本的所有  条轨迹都执行此操作。
  • 输出: 对于批次中每个样本的每条轨迹 ,都计算得到了一个对应的奖励值 。 整个批次的数据现在是 

模型参数更新 (Policy Update)

  • 输入: 整个批次的数据,包括所有的上下文 、生成的完整轨迹 (包含思考和预测的全部token)、以及对应的奖励 ,当前模型 
  • 过程:
    • 使用在线策略强化学习算法(论文使用GRPO,其核心思想与PPO类似)。
    • 算法会基于当前模型  重新计算生成这些轨迹  的概率(或对数概率 )。
    • 算法利用奖励信号  (可能还会计算基线值或优势函数 Advantage,以减小方差),结合轨迹的概率,计算策略梯度。
    • 根据计算出的梯度和学习率,使用优化器(如Adam)更新模型的参数 。更新的目标是最大化期望奖励(公式4),即增加那些获得奖励为1的轨迹  的生成概率,降低获得奖励为0的轨迹的生成概率。
  • 输出: 更新后的模型参数 ,得到新的模型 ,用于下一个训练步的第2步(轨迹生成)。

循环: 不断重复步骤 数据采样 -> 轨迹生成 -> 奖励计算 -> 模型参数更新 ,直到达到预设的训练步数或收敛。

评估阶段 (Evaluation)

训练结束后:

  • 输入: 训练好的RPT模型 ,测试集上下文。
  • 过程:
    • 用于语言模型任务: 给定上下文 ,可以让模型生成思考过程和预测 ,取  评估准确率;或者直接像传统模型一样,贪婪解码或采样概率最高的下一个词,评估准确率。
    • 用于下游任务: 可以直接零样本(Zero-shot)测试,或者将该模型作为基础,在特定任务数据集上继续进行强化学习微调(RL Fine-tuning)。
  • 输出: 模型在各项任务上的性能指标。

第四阶段:实验设计与验证分析

一个新方法的提出,必须经过实验的千锤百炼才能站稳脚跟。现在我们就化身审稿人,来审视一下 RPT 这篇论文的实验部分,看看作者是如何构建证据链条,来证明 RPT 是先进且有效的。

主实验设计解读:核心论点的验证

论文的核心主张

RPT作为一种新的预训练范式,能够: (1) 提升模型的基础语言建模能力(即下一个词预测的准确率); (2) 激发模型的推理能力; (3) 为后续的RL微调提供更好的基础; (4) 具备良好的计算扩展性(Scaling property)。

主实验设计与选择合理性分析

作者设计了几个关键实验来直接回应这些主张:

  • 语言模型性能测试 (Table 1, Figure 4): 直接验证主张(1)。
  • 扩展性法则测试 (Figure 5): 直接验证主张(4)。
  • 后续RL微调测试 (Table 2): 直接验证主张(3)。
  • 零样本下游任务测试 (Table 3): 直接验证主张(2)和(1)。

我们来看选择的合理性:

数据集 (Datasets)
  • 训练/验证OmniMATH (包含4000多数学竞赛题和解答)。
    • 合理性: 选择数学数据集是合理的,因为数学文本天然包含严密的逻辑和推理过程,非常适合验证RPT“激励推理”的目标。下一个词的预测往往依赖于对前面数学概念和步骤的理解,而非简单模式匹配。
    • 局限性: 论文结论部分也承认,目前主要在数学语料上训练,其在更广泛、通用领域的文本(如新闻、小说)上的效果仍需未来工作验证。
  • RL微调Skywork-OR1 (可验证答案的问题)。
  • Zero-Shot评估MMLU-Pro (多任务理解), SuperGPQA (研究生水平的、跨学科的推理问题)。
    • 合理性: 这些都是衡量模型通用能力和复杂推理能力的公认的、有挑战性的基准(Benchmark), 覆盖领域广,难度高,能有效检验RPT训练出的模型是否真的具备了更强的、可迁移的推理能力。
评价指标 (Metrics)
  • Next-Token Prediction Accuracy: 预测下一个词的准确率。
    • 合理性: 衡量模型解决具体任务和推理能力的标准指标。
    • Accuracy on downstream tasks (MMLU-Pro, SuperGPQA, Skywork-OR1): 任务准确率。
    • 合理性: 这是衡量语言模型基础能力最直接的指标,直接回应RPT是否提升了语言建模能力。特别地,作者根据基线模型的预测熵,将测试数据分为 EasyMediumHard 三个难度等级,分别报告准确率。这个设计非常关键且合理,它能揭示RPT是否尤其在“困难”词上(那些真正需要推理的词)带来提升。
  • $R^2$ (Coefficient of determination): 衡量Scaling Law曲线拟合优度。
    • 合理性: 量化说明实验数据点与预测的扩展法则趋势的吻合程度,证明性能提升是可预测和稳定的。
基线方法 (Baselines)
  • R1-Distill-Qwen-14B: 论文RPT-14B模型的直接基础模型 (Base Model)。这是最核心的比较对象。作者还让它以两种模式评估:(a) 标准下一个词预测模式;(b) 推理模式(即在测试时也让它生成思考过程再预测)。
  • Qwen2.5-14B: 基础模型的Base。
  • R1-Distill-Qwen-32B: 一个参数量大得多的模型。
    • 合理性: 选择非常合理且有代表性。
  1. 与同尺寸Base模型(14B)对比,证明RPT方法本身的增益。
  2. 特别加入Base模型在“推理模式”下的对比,是为了排除性能提升仅仅来源于“测试时进行思考”这个形式,而非RPT训练过程本身 (消融实验的思想)。
  3. 与更大的模型(32B)对比,是为了展示RPT的效率,看14B的RPT模型能否匹敌甚至超越未经RPT训练的更大模型,这具有很强的说服力。
  4. 在Table 2中,还加入了+ Continual NTP training基线,即在相同数据上继续用传统NTP方法训练Base模型,证明了效果提升不是因为简单地“在OmniMATH数据上多训练了一会”,而是因为RPT这种训练“方式”本身。

主实验结果如何支撑核心贡献

  • Table 1 & Figure 4: RPT-14B 在所有难度级别上的下一个词预测准确率均高于 Base 14B 模型。尤其值得注意的是,Base 14B 在推理模式下的准确率极低 (1.41-3.31%),证明了未经RPT训练,模型并不会“下一个词推理”;而RPT-14B的性能甚至匹敌或超过了32B模型,直接支撑了RPT显著提升语言建模能力的主张。
  • Table 2: 在进行后续RLVR微调后,以RPT-14B为起点的模型最终性能(58.3) 高于以Base 14B为起点的模型(52.7),更高于以Base 14B + NTP训练为起点的模型(13.0)。这直接支撑了RPT能为后续RL微调提供更好基础的主张。
  • Table 3: RPT-14B (推理模式) 在MMLU-Pro和SuperGPQA上的Zero-shot性能,不仅超越了Base 14B (两种模式),甚至显著超越了32B模型 (标准模式),这有力支撑了RPT能提升模型通用推理能力的主张。
  • Figure 5: 随着计算量增加,准确率稳定上升,且曲线拟合度极高(),支撑了RPT具备良好扩展性的主张。
  • 结论:主实验形成了一个闭环,从基础能力、推理能力、微调潜力和扩展性四个方面,通过与恰当且强大的基线在标准数据集和指标上对比,定量地支撑了论文的核心贡献。

消融实验分析:内部组件的贡献

严格意义上,论文没有一个典型的、逐个移除模块的 "Ablation Study" 表格。但是,作者通过巧妙的对比实验起到了消融实验的效果,验证了关键设计的必要性:

关键模块/设计 1: RPT训练过程本身 (vs. 仅在推理时思考)

  • 验证实验: Table 1 中,对比 RPT-14B (经过RPT训练,推理模式评估) vs R1-Distill-Qwen-14B (Next-token reasoning, 未经RPT训练,仅在推理时使用推理模式)。
  • 对应创新点: RPT训练范式,学习如何进行“下一个词推理”。
  • 结果与证明: 未经RPT训练的Base模型,在推理模式下的准确率惨不忍睹 (e.g., Hard: 1.41),远低于其标准预测模式(20.43),更远低于RPT-14B (23.75)。性能的巨大鸿沟,定量地、强有力地证明了:模型的提升并非来自“推理时生成思考过程”这个形式,而是来自通过RPT训练,模型真正学会了如何进行有效思考以预测下一个词。RPT训练过程是绝对必要和不可替代的。

关键模块/设计 2: 训练目标的类型 (RPT的RL目标 vs. 传统NTP目标)

  • 验证实验: Table 2 中,对比RL微调的起点:RPT-14B vs R1-Distill-Qwen-14B + Continual NTP training。后者是在与RPT相同的数据上,但使用传统NTP目标继续训练Base模型。
  • 对应创新点: RPT通过RL目标进行预训练,能提供更好的微调基础。
  • 结果与证明: 使用NTP目标继续训练,模型的推理能力(Before RL列)急剧下降 (从51.2 骤降至 10.7),后续再做RL微调恢复也很慢(13.0)。而RPT-14B提供了很高的起点(56.3)和终点(58.3)。这证明了性能提升并非来源于“见过这些训练数据”,而是来源于RPT采用的RL训练目标与后续RL微调目标的一致性。基于RL的RPT训练方式对于构建更好的微调基础是必要的。

(附录A) 奖励函数设计

论文在附录中提到,他们尝试了不同的奖励函数设计(如只匹配第一个token,稠密奖励等),发现性能与提出的前缀匹配奖励相当。这表明RPT框架对于奖励函数的具体细节选择具有一定的鲁棒性,其核心优势可能更多来源于“将NTP重构为RL任务”这个框架本身,只要奖励是基于正确性的即可。

深度/创新性实验剖析:洞察方法的内在特性

除了常规对比和消融性质的实验,作者设计了两个非常巧妙的实验来提供更深入的洞见:

巧妙实验 1: 推理模式分析 (Reasoning Pattern Analysis - Figure 6, Table 4, Appendix F)

  • 实验类型: 可视化/定性分析 + 案例研究 (Case Study) + 统计分析。
  • 实验目的: 想要证明什么? RPT激发的“下一个词推理”的思考过程,与模型进行“结构化问题求解”(Problem Solving)的思考过程,在性质上是不同的。想直观展示模型到底在“想”什么,证明它不是简单的模式匹配。
  • 实验设计:
  1. 定义6种推理模式类型(Transition, Reflection, Breakdown, Hypothesis, Divergent, Deduction)及其关键词。
  2. 对比两个模型:RPT-14B(执行下一个词推理任务)和 Base 14B 模型(执行标准数学问题求解任务)。
  3. 统计两模型生成的思考过程中,各类推理模式关键词出现的比例 (Figure 6)。
  4. 展示RPT-14B具体的思考过程文本样例 (Table 4 和 Case Studies),进行定性分析。
  • 实验结论与价值:
    • 统计结果(Fig 6)清晰显示:问题求解更多依赖 Breakdown (分解问题),而RPT的下一个词推理则显著更多地使用 Hypothesis (假设/猜想) 和 Deduction (演绎)。
    • 案例(Table 4)直观展示了模型如何分析语义、提出多种可能性("Alternatively...")、自我反思("Wait...")、考虑文本结构线索等。
    • 这个实验揭示了RPT方法的深层特性:它不仅仅是提升了准确率,更是改变了模型内在的“思考方式”,使其更具探索性、推理性,这与论文声称的“促进更深理解,而非表面记忆”的目标高度一致,提供了机理上的解释。

    巧妙实验 2: 按难度划分的扩展性分析 (Scaling Properties Analysis by Difficulty - Figure 5)

    • 实验类型: 参数敏感性分析(对计算量参数)+ 鲁棒性/压力测试(对数据难度)。

    • 实验目的: 想要证明什么? RPT不仅具有扩展性,而且这种扩展性在不同难度的数据上都是稳定、可靠的。想看计算量的增加是否能持续攻克难题。

    • 实验设计:

    1. 不仅绘制了总体的Scaling Curve,而是基于熵值将数据划分为Easy/Medium/Hard三类。
    2. 分别对这三类数据绘制准确率随计算量(FLOPs)变化的曲线,并分别拟合幂律公式,计算拟合优度 
  • 实验结论与价值:

    • 结果显示,在所有难度级别上,性能都随计算量稳定提升,且都高度符合幂律 (均非常高)。
    • 这揭示了RPT方法的鲁棒性和潜力:它不是一个只能解决简单问题的技巧,增加算力可以持续、可预测地提升模型在困难样本上的表现。这证明了RPT作为一个“扩展范式”(Scaling Paradigm)的根基是稳固的,为未来投入更多算力进行更大规模RPT训练提供了信心和理论依据。同时结合Table 1的结果(RPT在Hard数据上提升明显),说明RPT的价值在困难任务上更能体现。

    通过这些精心设计的实验,作者构建了一个从性能指标到内在机理、从当前效果到未来潜力的完整论证链,使得RPT方法的有效性和先进性得到了充分的证明。

53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询