我要投稿

当异常奖励遇上 AI 推理：一场意料之外的智力提升（万字）

发布日期：2025-05-29 09:04:05 浏览次数： 2202

作者：觉察流

微信搜一搜，关注“觉察流”

“ 当随意的奖励信号仍可以大幅提升模型性能，就得重新思考：到底RL是在学习，还是在放大某种“先验”行为。”

大家好，我是肆〇柒。今天，我们来聊 AI 领域里一个特别有意思的现象。在强化学习（RL）时，尤其是具有可验证奖励的强化学习（RLVR）这一分支，通常我们认为模型的奖励信号必须和正确答案紧密相关，这样才能有效地提升模型的推理能力。然而，最近由华盛顿大学、艾伦人工智能研究所（Allen Institute for Artificial Intelligence）和加州大学伯克利分校联合发布的论文《Spurious Rewards: Rethinking Training Signals in RLVR》却揭示了一个令人意外的事实：某些模型，比如 Qwen2.5-Math，在面对和正确答案相关性极低甚至呈负相关的异常奖励信号时，其数学推理能力却能实现显著提升。这一发现，不仅挑战了我们对 RLVR 的传统认知，还为模型训练策略的创新开辟了全新的路径，引发了我们对 RLVR 机制的重新思考。

RLVR 在提升 LLM 数学推理能力方面已展现出显著成效（RLVR扩展阅读?《可验证奖励强化学习（RLVR）通过 GRPO 提升模型推理能力（万字）》）。众多研究表明，通过 RLVR，模型能够基于正确答案的反馈不断优化自身推理过程，从而在诸如 MATH-500 等基准测试中取得优异成绩。然而，异常奖励现象的出现为我们提供了一个全新的视角，促使我们重新审视 RLVR 的内部运作机制。深入探究这一现象，不仅有助于我们更精准地把握模型训练过程，还可能催生出更高效、更经济的模型训练方法。下面我们一起来看看。

异常奖励的定义与分类

在 RLVR 的语境下，异常奖励特指那些与正确答案相关性极低或呈负相关的奖励信号。这些奖励信号无法直接反映模型输出的正确性，却在某些特定条件下对模型性能的提升产生了意想不到的影响。

分类及特点

• 随机奖励 ：此类奖励完全独立于模型输出，以随机的方式赋予模型 rollout。例如，设定一个固定概率 γ，模型的每个 rollout 随机获得奖励 1（概率 γ）或 0（概率 1-γ）。这种奖励机制完全忽视模型输出的质量与内容，仅仅依靠概率来决定奖励的赋予。
• 错误标签奖励 ：基于错误答案的奖励信号。可能是由于数据标注错误，或者故意设计的错误标签，模型在训练过程中被错误地引导，却在这种 “误导” 下意外地提升了推理能力。
• 格式奖励 ：仅关注模型输出的格式是否符合要求，而不考虑输出内容的正确性。例如，只要模型输出中包含至少一个非空的 \boxed{} 表达式，无论其中的答案是否正确，模型都将获得奖励。这种奖励机制旨在激励模型遵循特定的输出格式规范。

不同类型异常奖励对模型性能的影响

• 短期与长期影响 ：部分异常奖励在训练初期能迅速激发模型性能的显著提升，但随着训练的推进，其效果可能逐渐趋于平稳；而另一些异常奖励则可能在长期训练过程中持续发挥作用，逐步引导模型性能的稳步提升。例如，随机奖励在训练初期可能通过引入多样性来拓宽模型的探索空间，从而快速提升性能；而在后期，模型可能会逐渐适应这种随机性，并在此基础上进一步优化自身的推理策略。
• 不同问题类型的差异 ：不同类型数学问题对模型推理能力的要求各异，异常奖励对模型在不同类型问题上的性能影响也呈现出明显差异。以代数问题为例，模型可能更依赖于对数学公式和规则的灵活运用，随机奖励在这种情况下可能有助于模型发现新的解题思路和方法；而在几何问题中，模型可能更注重图形的理解与空间关系的分析，格式奖励则可能通过引导模型规范输出几何图形的描述方式，从而提升其在几何问题上的表现。

关键发现与实验结果

Qwen2.5-Math 模型在异常奖励下的卓越表现

Qwen2.5-Math-7B 模型在多种异常奖励下的表现堪称惊艳。在 MATH-500 基准测试中，随机奖励使其性能提升了 21.4%，错误标签奖励带来了 24.6% 的提升，格式奖励也贡献了 16.4% 的增益，与基于真实正确答案的奖励信号效果几乎持平。这一结果表明，Qwen2.5-Math 模型在面对异常奖励时，能够积极探索并利用自身的预训练知识和推理能力，从而实现性能的显著提升。

从训练过程来看，Qwen2.5-Math 模型在不同阶段对异常奖励的响应也各不相同。在训练初期，模型可能对异常奖励的适应性较强，能够迅速调整自身的推理策略以获取更高的奖励；随着训练的深入，模型逐渐趋于稳定，异常奖励的影响力相对减弱，但模型在此过程中所形成的优化后的推理策略得以保留并进一步巩固。

其他模型在异常奖励下的表现差异

与 Qwen 模型家族相比，其他模型在相同异常奖励下的表现则相形见绌。例如，OLMo2-7B 在随机奖励下的性能几乎持平，而 Llama3.1-8B-Instruct 在错误标签奖励下性能甚至出现了下降。这主要是由于这些模型在预训练阶段所接触的数据分布和形成的推理策略与 Qwen2.5-Math 模型存在显著差异。

以 Llama3 模型为例，其预训练数据可能更侧重于自然语言生成和对话任务，较少涉及数学推理相关的训练内容。这使得 Llama3 模型在面对异常奖励时，难以像 Qwen2.5-Math 模型那样有效地利用奖励信号来引导自身推理策略的优化。其在预训练阶段形成的推理策略，如基于模式匹配和模板生成的文本生产能力，在异常奖励的作用下，无法得到有效的强化和调整，从而导致在数学推理任务上的性能提升受限甚至出现下降。

深入分析：模型预训练差异与推理模式

Qwen2.5-Math 模型的独特推理模式 —— 代码推理

Qwen2.5-Math 模型具备一种独特的推理能力 —— 代码推理。在解决数学问题的过程中，该模型频繁地生成 Python 代码来辅助思考，即便在没有实际代码执行环境的情况下，也能通过这种方式来模拟数学运算和逻辑推理过程。这一特性使其在数学推理任务中展现出强大的优势。

代码推理与模型性能之间存在着紧密的关联。实验数据显示，Qwen2.5-Math 模型的代码推理频率从 66.7% 显著提升至 90% 以上，且在代码推理模式下，模型答案的准确率远高于仅使用自然语言推理的准确率。这表明，代码推理作为一种更精确、更具逻辑性的推理方式，能够有效地提升模型在数学问题求解中的表现。

为了更直观地展示这种关系，我们可以通过下图来观察模型在不同奖励信号下的推理策略转换和细粒度性能变化。这张图详细展示了 Qwen2.5-Math-7B 模型在 MATH-500 测试集上，在不同训练信号下的推理策略转换情况。从图中可以看到，无论是使用哪种奖励信号，模型在训练后都倾向于更多地使用代码推理策略。特别是那些原本仅使用自然语言推理的问题，在训练后大部分转换为使用代码推理，且这些转换后的子集在性能上有了显著提升。这进一步证明了代码推理频率的增加对模型性能提升的重要作用。

通过具体的代码示例，我们可以更直观地理解模型的代码推理过程。例如，在解决一个坐标转换问题时，Qwen2.5-Math 模型首先对问题进行分析，明确转换的目标和方法，然后逐步编写 Python 代码来实现坐标转换的计算过程。最终，模型依据代码的输出结果得出最终答案，并以清晰的格式呈现出来。这种代码推理过程不仅体现了模型对数学知识的深入理解和运用能力，还展示了其在逻辑推理和问题解决方面的强大潜力。

预训练数据与模型推理行为的关系

模型在预训练阶段所接触的数据分布对其推理模式和对奖励信号的响应具有决定性的影响。Qwen2.5-Math 模型可能在预训练过程中接触了大量的带有代码辅助的数学推理示例，如数学公式推导、代码化的数学问题解决方案等。这些数据使得模型在预训练阶段就逐渐形成了对代码推理的偏好和能力。

Qwen2.5-Math 模型的预训练数据可能涵盖了丰富的数学问题类型和相应的代码解决方案，这些数据不仅包括了数学问题的描述和正确答案，还详细展示了如何通过编写代码来逐步解决这些问题的过程。在预训练过程中，模型通过学习这些数据，逐渐掌握了代码推理的模式和技巧，形成了将数学问题转化为代码逻辑并进行求解的能力。因此，在 RLVR 训练中，即便面对异常奖励信号，模型也能够凭借其在预训练阶段所形成的代码推理能力，有效地利用奖励信号来优化自身的推理策略，从而在数学推理任务中取得优异的性能表现。

RLVR 机制的重新审视

异常奖励信号激发模型潜在能力的假设与分析

基于实验观察，我们提出假设：在 RLVR 训练过程中，当缺乏有效的奖励信号时，模型可能会通过某种机制激发并利用其在预训练阶段习得的潜在推理表示。对于 Qwen2.5-Math 模型而言，异常奖励信号可能促使模型更加频繁地探索和利用其预训练阶段形成的高概率行为模式，例如代码推理，从而间接提升其性能。

从模型训练动态的角度来看，奖励信号在很大程度上影响着模型对不同推理策略的选择和强化。在正常情况下，基于正确答案的奖励信号会引导模型朝着更接近正确解的方向优化自身的推理策略。然而，在异常奖励的情况下，模型无法依赖于准确的奖励反馈来判断自身输出的正确性。此时，模型可能会更多地依赖于其预训练阶段所形成的内部知识和推理模式，通过不断尝试不同的推理策略来探索能够获取更高奖励的路径。对于 Qwen2.5-Math 模型来说，其在预训练阶段形成的代码推理能力在这种情况下成为了其探索的优势所在，模型会倾向于更频繁地使用代码推理来解决问题，即使这些代码推理的答案并非完全正确，但在某些情况下却能够意外地获得较高的奖励，从而促使模型进一步强化这种推理策略。

优化算法在异常奖励中的作用 —— 以 GRPO 为例

GRPO 算法作为 RLVR 中的关键优化方法，在模型训练过程中发挥着至关重要的作用。其核心思想是通过对策略模型的更新，最大化模型在长期收益上的表现。在 GRPO 算法中，裁剪机制是一项关键的技术手段，它通过限制策略更新的范围，防止模型参数过度偏离初始分布，从而保证了训练过程的稳定性和模型性能的逐步提升。

在随机奖励等异常情况下，GRPO 算法的裁剪机制依然能够为模型提供有意义的训练信号。具体来说，当模型的 rollout 获得奖励时，无论是基于正确答案还是随机赋予的奖励，GRPO 算法都会根据当前策略模型的参数和 rollout 的优势函数来计算梯度更新。裁剪机制在此过程中起到了限制梯度更新幅度的作用，确保模型参数在每次更新时不会发生剧烈变化。这种稳定的更新方式使得模型能够在随机奖励的环境下，依然沿着一定的方向逐步调整自身参数，从而在一定程度上利用其预训练阶段形成的潜在能力。

为了更直观地展示裁剪机制的作用，我们可以通过下图来观察在 RLVR 训练中，使用复合奖励（即原始奖励与禁止 Python 代码的奖励相结合）时，模型在 MATH 和 AMC 基准测试中的表现。这张图详细展示了当原始奖励与禁止 Python 代码的奖励相结合时，模型在不同基准测试中的性能变化。从图中可以看到，裁剪机制在复合奖励的情况下对模型性能有显著影响。当裁剪机制被禁用时，模型的性能提升不明显，甚至在某些情况下会出现下降；而当裁剪机制被启用时，模型的性能显著提升，尤其是在 MATH 基准测试中。这进一步证明了裁剪机制在异常奖励中的重要作用。

GRPO 算法的梯度更新公式及其在随机奖励下的表现

GRPO 算法的梯度更新公式如下：

其中，表示策略模型在当前参数下生成第个 token 的重要度比率，它反映了模型在当前状态下生成该 token 的概率与行为策略生成该 token 概率的比值；是归一化后的优势函数，用于衡量模型在给定提示下生成的相对优势；是裁剪范围参数，用于控制梯剪的幅度。

在随机奖励的情况下，尽管奖励信号本身不包含关于模型输出正确性的有效信息，但通过裁剪机制的作用，模型的参数更新仍然能够受到一定的引导。当超过裁剪范围时，梯度更新将受限于裁剪边界，即模型的参数更新将朝着使接近裁剪范围的方向进行。这意味着模型会倾向于保持其在预训练阶段形成的高概率行为模式，例如 Qwen2.5-Math 模型的代码推理行为，从而在一定程度上利用这些行为模式来应对随机奖励的不确定性。

简化的 GRPO 算法伪代码示例

以下是简化的 GRPO 算法伪代码片段，用于帮助读者更直观地理解其在随机奖励情况下的训练过程：

# 简化的 GRPO 算法伪代码片段
for epoch in range(num_epochs):
    for prompt in prompts:
        # 生成模型输出
        outputs = model.generate(prompt)
        # 计算随机奖励
        rewards = np.random.choice([0, 1], size=len(outputs))
        # 计算优势函数
        advantages = compute_advantages(rewards)
        # 更新模型参数
        model.update_with_grpo(outputs, advantages, clip_range=epsilon_clip)

在这个伪代码中，模型首先根据给定的提示生成输出，然后为每个输出赋予随机奖励。接着，计算每个输出的优势函数值，该值反映了输出在当前策略下的相对优势。最后，模型根据这些奖励和优势函数值，结合裁剪机制来更新自身的参数。尽管奖励是随机的，但裁剪机制确保了模型参数的更新不会过于剧烈，从而使模型能够在一定程度上利用其预训练阶段形成的能力。

实验验证与进一步探讨

针对代码推理的干预实验

提示工程的具体操作与效果

为了验证代码推理频率提升对 Qwen2.5-Math 模型性能的提升作用，研究人员设计了提示工程实验。在实验中，通过在问题提示中添加 “让我们用 Python 来解决这个问题” 等引导性语句，激发模型的代码推理能力。

具体来说，实验人员精心设计了一系列包含引导性语句的提示模板。例如，在一个数学问题提示前加上 “为了准确求解这个问题，我们可以借助 Python 代码来逐步计算，首先我们需要……”，以此引导模型在思考过程中主动运用 Python 代码进行推理。这些提示模板被应用于模型输入，使模型在处理问题时更容易进入代码推理模式。

实验结果显示，这一提示工程对 Qwen2.5-Math 模型的性能提升效果显著。以 Qwen2.5-Math-7B 为例，其性能从 52.6% 提升至 64.4%，提升了 11.8%。这一结果有力地证明了代码推理频率的增加与模型性能提升之间存在着密切的因果关系。

基于 RL 的干预方法

研究人员还采用了基于 RL 的干预方法来刻意增加 Qwen2.5-Math 模型的代码推理频率。在这一方法中，设计了一个专门奖励代码生成行为的奖励函数，即当模型输出中包含 Python 代码时，无论代码的正确性如何，都将给予一定的奖励。

基于 PPO 算法，研究人员对模型进行了强化学习训练。在训练过程中，模型的参数更新策略和奖励反馈机制都经过了精心设计。具体来说，模型在每次生成输出后，会根据是否包含 Python 代码来获得相应的奖励。通过这种方式，模型逐渐学会了在更多的输出中生成代码推理，以获取更高的奖励。

实验结果表明，经过 20 步的训练，Qwen2.5-Math 模型生成代码推理解决方案的比例超过了 99%，并且模型性能也随之得到了显著提升。这进一步验证了代码推理对模型性能的积极影响。

对其他有益推理模式的探索

无重复推理模式的发现与验证

除了代码推理，研究人员还发现 RLVR 可能能够激发其他与正确答案相关性高的推理模式，例如无重复推理模式。这种模式旨在避免模型生成重复冗余的内容，从而提高回答的质量和可读性。

为了验证这一假设，研究人员设计了无重复奖励函数，专门奖励模型避免重复生成内容的行为。在实验中，模型的输出会经过检测，若未出现明显的重复字符串，则给予奖励；反之则不给予奖励。通过这种方式，引导模型在推理过程中注重内容的独特性和创新性。

实验结果表明，这种无重复奖励对 Qwen2.5-Math 模型的性能有一定的提升作用。这表明，RLVR 具有激发多种有益推理模式的潜力，而不仅仅局限于代码推理。

其他推理模式的潜在价值与应用前景

无重复推理模式的提升机制主要体现在避免信息冗余、提高回答质量和可读性等方面。通过引导模型生成更加精炼、独特的回答，无重复推理模式能够使模型在文本生成任务中更好地满足用户对高质量内容的需求。

此外，研究人员还探讨了其他可能的有益推理模式，如分步推理、假设验证等。分步推理模式要求模型在解决复杂问题时按照清晰的步骤逐步展开思考，这样可以使推理过程更加透明和易于理解；假设验证模式则鼓励模型在生成答案之前先提出假设，并通过验证假设的正确性来逐步逼近最终答案。这些模式在不同的任务和应用场景中具有广阔的潜在价值和应用前景。

对现有 RLVR 研究的启示与建议

模型选择对 RLVR 研究结论的影响

目前，许多 RLVR 研究仅基于单一模型（如 Qwen2.5-Math）进行实验验证，这可能导致研究结论的局限性和片面性。例如，近期的一些 RLVR 研究方法在 Qwen 模型上表现出色，但在其他模型上的有效性却未能得到充分验证。

以测试时训练（TTRL）和单次 RL 方法为例，这些方法在 Qwen 模型上的实验结果显示出了良好的性能提升。然而，当将这些方法应用于其他模型（如 Llama3、OLMo2 等）时，实验结果却显示性能提升微弱甚至出现下降。这说明，不同模型对 RLVR 训练策略的响应存在显著差异，仅基于单一模型得出的结论难以适用于更广泛的模型群体。

因此，在 RLVR 研究中，应当更加注重使用多种不同预训练背景的模型进行实验验证。这样可以更全面地评估训练策略的有效性和普适性，确保研究结论的可靠性和可信度。例如，在开展新的 RLVR 研究时，可以选取包括 Qwen、Llama、OLMo 等多个模型家族的代表性模型进行实验对比，分析不同模型在相同训练策略下的性能表现和变化趋势，从而得出更具普适性的研究结论。

未来 RLVR 研究的方向与改进

注重模型预训练阶段推理策略的分析

未来的研究应更加深入地分析模型预训练阶段所形成的推理策略。通过研究模型预训练数据的特点、架构设计以及训练过程中的行为模式，我们可以更好地理解模型在 RLVR 训练中的表现，并据此设计更有效的奖励信号和训练方法。

例如，可以对 Qwen2.5-Math 模型的预训练数据进行深入挖掘，分析其中数学问题的类型分布、代码示例的多样性以及数学推理过程的呈现方式等。同时，对比其他模型的预训练数据特点，找出导致模型在面对异常奖励时不同表现的关键因素。此外，还可以研究模型架构中的特定组件（如注意力机制、前馈神经网络等）在数学推理任务中的作用，以及这些组件在 RLVR 训练中的变化情况，为优化模型架构和训练策略提供依据。

开发新的评估指标和方法

为了更准确地衡量和比较不同模型在 RLVR 训练过程中推理模式的变化及其对性能的影响，我们需要开发新的评估指标和方法。例如，可以设计用于量化推理策略多样性和质量的指标，通过分析模型输出的推理步骤、逻辑连贯性、创新性等方面来评估其推理能力的发展。

同时，开发动态监测模型推理能力发展的工具也具有重要意义。这些工具可以实时跟踪模型在训练过程中的性能变化、推理策略的演变以及对不同奖励信号的响应情况，为研究人员提供更全面、细致的实验数据，从而更深入地理解 RLVR 训练机制，并及时调整训练策略以优化模型性能。

结论

综上所述，RLVR 中的异常奖励现象为我们展示了模型预训练差异在其中所起的关键作用，以及异常奖励信号如何通过激发模型潜在推理能力或利用优化算法特性来影响模型性能。这一现象不仅拓宽了我们对 RLVR 机制的理解，也为提升 LLM 推理能力提供了新的思路和方法。

然而，我们也应清醒地认识到，当前的研究还存在诸多局限性。例如，异常奖励现象在不同语言模型架构和任务领域中的适用性仍有待进一步探索；对于模型在 RLVR 训练过程中推理模式变化的微观机制，我们还需要更深入的研究来揭示其本质。另外，当随意的奖励信号仍可以大幅提升模型性能，就得重新思考：到底RL是在学习，还是在放大某种“先验”行为？

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业