我要投稿

AI模型的“深思熟虑”与“快问快答”：不止于更长，更在于智慧

发布日期：2025-08-19 11:46:57 浏览次数： 1771

作者：唐国梁Tommy

微信搜一搜，关注“唐国梁Tommy”

在大语言模型（LLM）的领域里，我们常常陷入一种直觉性的迷思：模型思考得越“久”，生成的答案越长，似乎就代表着更深度的推理和更高的准确性。这种现象被称为 “长度启发式”（length heuristic） ，即模型倾向于生成更长的、看似详尽的回复，以期获得更高的奖励和准确率。

然而，这篇名为 《Sample More to Think Less: Group Filtered Policy Optimization for Concise Reasoning》 的论文向我们揭示了这一现象的另一面：更长的回答并不总是等同于更优的答案，反而常常伴随着 “推理通胀”（reasoning inflation） ——即模型在推理过程中产生了大量冗余、无效的“废话”，不仅没有提升准确率，反而极大地浪费了计算资源。

想象一下，如果一个AI助教在解答学生问题时，总是滔滔不绝，给出的答案虽然最终正确，但过程却冗长复杂，充斥着无效信息，这无疑会降低学习效率。

因此，如何在保证甚至提升模型推理准确性的同时，有效压缩推理长度，实现简洁而高效的思考，成为了一个亟待解决的重要课题。这篇论文正是针对这一痛点，提出了一种名为组过滤策略优化（Group Filtered Policy Optimization, GFPO） 的创新方法，旨在教会模型如何“少说废话”，进行更有效率的思考。

核心内容：GFPO的“筛选式”智慧

论文的核心贡献在于提出了一种简单而高效的训练方法——GFPO。这个方法的核心思想，可以用一个很形象的比喻来解释：“集思广益，然后优中选优”。

传统的强化学习方法，比如GRPO（Group Response Policy Optimization），通常是让模型针对一个问题，生成一组（比如G个）候选答案，然后对这些答案进行评估，并根据评估结果统一调整模型的策略。这种方法虽然也能提升模型性能，但它并没有明确区分“好”答案和“坏”答案中的具体特质。特别是，它无法有效解决前面提到的“推理通胀”问题，因为模型在训练过程中，仍然会受到那些冗长答案的“污染”。

GFPO则更进了一步。它同样是让模型先生成一个包含G个候选答案的“大池子”，但接下来，它引入了一个关键的 “过滤” 步骤。它会根据一个预先设定的 “度量标准” (metric)，从这G个答案中，只挑选出最符合我们期望的k个（k < G）“精英”答案。然后，仅仅使用这k个精英答案来计算策略梯度，更新模型参数。

这个 “度量标准” 可以非常灵活，论文中重点探讨了两个核心指标：

• 响应长度 (Response Length)：最简单直接的标准，即优先选择那些更简短的答案。
• 令牌效率 (Token Efficiency)：一个更“聪明”的标准，计算的是“奖励/长度”的比值。也就是说，它不仅要求答案简短，更要求答案的“含金量”高，即在尽可能短的篇幅内获得尽可能高的奖励（通常代表着准确性）。

通过这种 “先筛选，再学习” 的机制，GFPO相当于为模型提供了一个非常明确的“指挥棒”：“请学习这些既准确又简洁的榜样，而不是那些又臭又长的答案。” 这种显式的过滤操作，就像一个严格的编辑，帮助模型在训练的早期阶段就剔除掉那些冗余、低效的推理路径，从而引导模型朝着更简洁、更高效的推理方式进化。

此外，论文还提出了GFPO的两个重要变体：

• 最短k/G (Shortest k/G)：根据响应长度进行筛选，简单粗暴但有效。
• 自适应难度GFPO (Adaptive Difficulty GFPO)：这是一个更具动态智慧的版本。它会实时评估问题的难度，然后动态地调整保留的精英答案数量k。对于简单问题，模型可能只需要保留少数几个（比如k=4）高质量的简短答案就足够了；而对于难题，则可以适当放宽标准，保留更多（比如k=8）的答案，让模型有更充分的学习素材。这种动态调整机制，使得计算资源的分配更加智能，也更符合人类学习的直觉——在难题上多花点功夫。

GFPO的核心创新在于，它通过一个简单而灵活的“过滤”机制， 将我们对“好答案”（例如，简洁、高效）的期望，直接、显式地注入到强化学习的训练过程中，从而有效地抑制了推理通胀，实现了在不牺牲准确率的前提下，大幅缩短模型的推理长度。

方法解析：GFPO如何“精挑细选”

要理解GFPO的技术细节，我们首先需要简单回顾一下它的前身——GRPO。 GRPO的目标函数可以表示为：

这里的关键在于，它对从策略采样的G个响应是“一视同仁”的，每个响应都被用来计算优势，并最终影响策略的更新。

而GFPO的核心改动，就在于这个“一视同仁”上。 GFPO的目标函数变为：

最大的区别在于优势函数的计算。在GFPO中，我们先走一步“过滤”棋：

1. 采/样 (Sampling)：和GRPO一样，对于一个问题q，我们首先从当前策略中采样出一个包含G个候选答案的集合。

2. 评分 (Scoring)：接下来，我们根据一个预设的度量函数metric(·)（比如答案长度或者令牌效率），为G中的每一个答案打分。

3. 排序与过滤 (Sorting & Filtering)：根据分数，我们对这G个答案进行排序，并只选出排名前k的答案，形成一个“精英子集”。

4. 计算“精英优势” (Calculating Advantage within the Elite Set)：最关键的一步来了。 GFPO只在这个精英子集内部计算平均奖励和奖励的标准差。然后，用这个“精英圈”的统计数据来标准化每个精英答案的奖励，从而得到优势。对于那些没有被选入精英子集的答案，它们的优势直接被置为0，相当于在这次策略更新中被“无视”了。

通过这种方式，GFPO的梯度更新完全由这k个“精英答案”主导。模型学习的目标不再是模糊地提升所有G个答案的平均表现，而是非常明确地去模仿这k个被精心挑选出来的、符合我们特定偏好（例如，简短、高效）的“榜样”。

自适应难度GFPO的实现：这个变体增加了一个动态调整k值的环节。它通过一个轻量级的数据结构（t-digest）实时追踪模型在所有问题上的平均奖励，从而估计出当前问题的难度分位数。然后，根据难度分位数将问题划分为“简单”、“中等”、“困难”、“非常困难”四个等级，并为每个等级分配不同的k值。例如，对于简单问题，使用较小的k（如k=4），进行更严格的筛选；对于非常困难的问题，则使用较大的k（如k=8），保留更多的探索可能性。

实验结果与分析：数据证明“少即是多”

论文通过在多个数学推理和代码生成基准测试（如AIME 25, AIME 24, GPQA, Omni-MATH, LiveCodeBench）上的详尽实验，充分证明了GFPO方法的有效性。

实验设置：

• 基础模型：实验使用了Phi-4-Reasoning作为基础模型，这是一个在推理任务上经过充分微调的强大模型。
• 对比方法：实验的核心对比对象是SFT（监督微调基线模型）、GRPO（未经过滤的策略优化方法）以及不同版本的GFPO（包括Shortest k/G, Token Efficiency, Adaptive Difficulty）。
• 评价指标：主要关注两个指标：Pass@1准确率（模型一次生成答案的正确率）和平均响应长度。同时，论文还定义了一个关键的派生指标——超额长度减少率 (Excess Length Reduction, ELR)，用于衡量GFPO相比于GRPO，在多大程度上削减了由强化学习引入的“长度通胀”。 其计算公式为：
这个指标的值越高，说明GFPO在“减肥”方面的效果越好。

关键实验结果解读：

1. GFPO在不降低准确率的情况下，显著缩短了响应长度：
从论文的Table 1和Table 2中可以清晰地看到，在所有的测试基准上，几乎所有GFPO变体的准确率都与GRPO持平（统计上无显著差异），但是平均响应长度却大幅降低。 例如，在AIME 24数据集上，“令牌效率”GFPO (Token Efficiency GFPO) 将响应长度从GRPO的13.3k个令牌，惊人地压缩到了10.6k个令牌，实现了高达84.6% 的超额长度减少，而准确率几乎没有损失。这充分证明了GFPO能够有效实现“简洁推理”。

2. “令牌效率”是最高效的筛选标准：
实验结果一致表明，基于“奖励/长度”比值进行筛选的“令牌效率”GFPO，在削减长度方面表现最为出色。它在几乎所有任务上都取得了最高的ELR值。这说明，仅仅追求“最短”可能并非最优策略，而是一种兼顾了“质量”与“效率”的度量标准， 更能引导模型学到真正简洁且高质量的推理方式。

3. 自适应难度GFPO实现了计算效率与性能的平衡：
与固定k值的GFPO相比，自适应难度GFPO在相同的计算成本下，表现出了更强的竞争力。 它能够根据问题难度智能地分配“学习资源”，在难题上保留更多样本以保证准确率，在简单题上则大胆削减，从而在整体上达到了比固定策略更好的效果。例如，在多个基准上，自适应难度GFPO的表现都优于计算成本相当的Shortest k/G变体。

4. 采样更多（增大G），过滤更狠（降低k/G比率），效果更好：
论文通过对比不同G（总采样数）和k（保留数）的组合，发现了一个重要的规律：扩大初始的候选池子（增大G），然后以一个较低的比例进行筛选（例如保留25%-33%），是控制推理长度最有效的手段。这再次印证了 “集思广益，优中选优” 的直觉——你见过的“好学生”越多，你才越明白什么是真正的“好”。当G从8增加到16，甚至24时，GFPO在长度控制上的能力也随之增强。

5. GFPO在难题上表现尤为突出：
通过对不同难度问题的分析（Figure 6），论文发现GFPO在削减难题的响应长度方面效果尤其显著。 对于“非常困难”的问题，GFPO能够将GRPO的冗长推理链大幅缩短，同时保持甚至略微提升准确率。这表明GFPO能够帮助模型在面对复杂挑战时，更快地找到核心解决路径，而不是陷入无效的“暴力尝试”。

总而言之，《Sample More to Think Less》这篇论文以其简洁而深刻的洞察，为我们打开了一扇新的大门。它提醒我们，在追求模型能力极限的道路上，有时需要的不是更强的“蛮力”，而是更精巧的“智慧”。 教会AI如何进行简洁而高效的思考，将是其从“强大的工具”迈向“真正的智能伙伴”的关键一步。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业