微信扫码
添加专属顾问
我要投稿
AI模型如何"少说废话"?这篇论文教你识别真正高效的思考方式。 核心内容: 1. 揭示大语言模型中"推理通胀"现象及其资源浪费问题 2. 提出创新方法GFPO,通过"优中选优"机制提升思考效率 3. 两种关键筛选标准:响应长度与令牌效率的平衡应用
在大语言模型(LLM)的领域里,我们常常陷入一种直觉性的迷思:模型思考得越“久”,生成的答案越长,似乎就代表着更深度的推理和更高的准确性。这种现象被称为 “长度启发式”(length heuristic) ,即模型倾向于生成更长的、看似详尽的回复,以期获得更高的奖励和准确率。
然而,这篇名为 《Sample More to Think Less: Group Filtered Policy Optimization for Concise Reasoning》 的论文向我们揭示了这一现象的另一面:更长的回答并不总是等同于更优的答案,反而常常伴随着 “推理通胀”(reasoning inflation) ——即模型在推理过程中产生了大量冗余、无效的“废话”,不仅没有提升准确率,反而极大地浪费了计算资源。
想象一下,如果一个AI助教在解答学生问题时,总是滔滔不绝,给出的答案虽然最终正确,但过程却冗长复杂,充斥着无效信息,这无疑会降低学习效率。
因此,如何在保证甚至提升模型推理准确性的同时,有效压缩推理长度,实现简洁而高效的思考,成为了一个亟待解决的重要课题。这篇论文正是针对这一痛点,提出了一种名为组过滤策略优化(Group Filtered Policy Optimization, GFPO) 的创新方法,旨在教会模型如何“少说废话”,进行更有效率的思考。
论文的核心贡献在于提出了一种简单而高效的训练方法——GFPO。这个方法的核心思想,可以用一个很形象的比喻来解释:“集思广益,然后优中选优”。
传统的强化学习方法,比如GRPO(Group Response Policy Optimization),通常是让模型针对一个问题,生成一组(比如G个)候选答案,然后对这些答案进行评估,并根据评估结果统一调整模型的策略。这种方法虽然也能提升模型性能,但它并没有明确区分“好”答案和“坏”答案中的具体特质。特别是,它无法有效解决前面提到的“推理通胀”问题,因为模型在训练过程中,仍然会受到那些冗长答案的“污染”。
GFPO则更进了一步。它同样是让模型先生成一个包含G个候选答案的“大池子”,但接下来,它引入了一个关键的 “过滤” 步骤。它会根据一个预先设定的 “度量标准” (metric),从这G个答案中,只挑选出最符合我们期望的k个(k < G)“精英”答案。然后,仅仅使用这k个精英答案来计算策略梯度,更新模型参数。
这个 “度量标准” 可以非常灵活,论文中重点探讨了两个核心指标:
通过这种 “先筛选,再学习” 的机制,GFPO相当于为模型提供了一个非常明确的“指挥棒”:“请学习这些既准确又简洁的榜样,而不是那些又臭又长的答案。” 这种显式的过滤操作,就像一个严格的编辑,帮助模型在训练的早期阶段就剔除掉那些冗余、低效的推理路径,从而引导模型朝着更简洁、更高效的推理方式进化。
此外,论文还提出了GFPO的两个重要变体:
GFPO的核心创新在于,它通过一个简单而灵活的“过滤”机制, 将我们对“好答案”(例如,简洁、高效)的期望,直接、显式地注入到强化学习的训练过程中,从而有效地抑制了推理通胀,实现了在不牺牲准确率的前提下,大幅缩短模型的推理长度。
要理解GFPO的技术细节,我们首先需要简单回顾一下它的前身——GRPO。 GRPO的目标函数可以表示为:
这里的关键在于,它对从策略采样的G个响应是“一视同仁”的,每个响应都被用来计算优势,并最终影响策略的更新。
而GFPO的核心改动,就在于这个“一视同仁”上。 GFPO的目标函数变为:
最大的区别在于优势函数的计算。在GFPO中,我们先走一步“过滤”棋:
1. 采/样 (Sampling):和GRPO一样,对于一个问题q,我们首先从当前策略中采样出一个包含G个候选答案的集合。
2. 评分 (Scoring):接下来,我们根据一个预设的度量函数metric(·)
(比如答案长度或者令牌效率),为G中的每一个答案打分。
3. 排序与过滤 (Sorting & Filtering):根据分数,我们对这G个答案进行排序,并只选出排名前k的答案,形成一个“精英子集”。
4. 计算“精英优势” (Calculating Advantage within the Elite Set):最关键的一步来了。 GFPO只在这个精英子集内部计算平均奖励和奖励的标准差。然后,用这个“精英圈”的统计数据来标准化每个精英答案的奖励,从而得到优势。对于那些没有被选入精英子集的答案,它们的优势直接被置为0,相当于在这次策略更新中被“无视”了。
通过这种方式,GFPO的梯度更新完全由这k个“精英答案”主导。模型学习的目标不再是模糊地提升所有G个答案的平均表现,而是非常明确地去模仿这k个被精心挑选出来的、符合我们特定偏好(例如,简短、高效)的“榜样”。
自适应难度GFPO的实现:这个变体增加了一个动态调整k值的环节。它通过一个轻量级的数据结构(t-digest)实时追踪模型在所有问题上的平均奖励,从而估计出当前问题的难度分位数。然后,根据难度分位数将问题划分为“简单”、“中等”、“困难”、“非常困难”四个等级,并为每个等级分配不同的k值。例如,对于简单问题,使用较小的k(如k=4),进行更严格的筛选;对于非常困难的问题,则使用较大的k(如k=8),保留更多的探索可能性。
论文通过在多个数学推理和代码生成基准测试(如AIME 25, AIME 24, GPQA, Omni-MATH, LiveCodeBench)上的详尽实验,充分证明了GFPO方法的有效性。
实验设置:
关键实验结果解读:
1. GFPO在不降低准确率的情况下,显著缩短了响应长度:
从论文的Table 1和Table 2中可以清晰地看到,在所有的测试基准上,几乎所有GFPO变体的准确率都与GRPO持平(统计上无显著差异),但是平均响应长度却大幅降低。 例如,在AIME 24数据集上,“令牌效率”GFPO (Token Efficiency GFPO) 将响应长度从GRPO的13.3k个令牌,惊人地压缩到了10.6k个令牌,实现了高达84.6% 的超额长度减少,而准确率几乎没有损失。这充分证明了GFPO能够有效实现“简洁推理”。
2. “令牌效率”是最高效的筛选标准:
实验结果一致表明,基于“奖励/长度”比值进行筛选的“令牌效率”GFPO,在削减长度方面表现最为出色。它在几乎所有任务上都取得了最高的ELR值。这说明,仅仅追求“最短”可能并非最优策略,而是一种兼顾了“质量”与“效率”的度量标准, 更能引导模型学到真正简洁且高质量的推理方式。
3. 自适应难度GFPO实现了计算效率与性能的平衡:
与固定k值的GFPO相比,自适应难度GFPO在相同的计算成本下,表现出了更强的竞争力。 它能够根据问题难度智能地分配“学习资源”,在难题上保留更多样本以保证准确率,在简单题上则大胆削减,从而在整体上达到了比固定策略更好的效果。例如,在多个基准上,自适应难度GFPO的表现都优于计算成本相当的Shortest k/G变体。
4. 采样更多(增大G),过滤更狠(降低k/G比率),效果更好:
论文通过对比不同G(总采样数)和k(保留数)的组合,发现了一个重要的规律:扩大初始的候选池子(增大G),然后以一个较低的比例进行筛选(例如保留25%-33%),是控制推理长度最有效的手段。这再次印证了 “集思广益,优中选优” 的直觉——你见过的“好学生”越多,你才越明白什么是真正的“好”。当G从8增加到16,甚至24时,GFPO在长度控制上的能力也随之增强。
5. GFPO在难题上表现尤为突出:
通过对不同难度问题的分析(Figure 6),论文发现GFPO在削减难题的响应长度方面效果尤其显著。 对于“非常困难”的问题,GFPO能够将GRPO的冗长推理链大幅缩短,同时保持甚至略微提升准确率。这表明GFPO能够帮助模型在面对复杂挑战时,更快地找到核心解决路径,而不是陷入无效的“暴力尝试”。
总而言之,《Sample More to Think Less》这篇论文以其简洁而深刻的洞察,为我们打开了一扇新的大门。它提醒我们,在追求模型能力极限的道路上,有时需要的不是更强的“蛮力”,而是更精巧的“智慧”。 教会AI如何进行简洁而高效的思考,将是其从“强大的工具”迈向“真正的智能伙伴”的关键一步。
论文名称:Sample More to Think Less: Group Filtered Policy Optimization for Concise Reasoning
第一作者:微软
论文链接:https://www.arxiv.org/abs/2508.09726
最新日期:2025年8月13日
github:无
你是不是也有这样的困惑:感觉每天都在追热点,却始终难以将AI知识串联成线?想深入多模态领域,却不知从何处系统性的开始?
如果你不满足于只做AI时代的“旁观者”,渴望成为“玩家”和“创造者”,那么我诚挚地向你推荐我精心打磨的这门《多模态大模型 前沿算法与实战应用 第一季》精品课程。课程从主流多模态架构、数据构建与训练流程到评估与部署,结合 LLaVA、LLaVA-NeXT、Qwen-VL、IXC 四个完整项目,提供算法 原理→功能实现→服务部署→模型评测的清晰路径。
学习的本质,是用最低的时间成本掌握他人已经验证过的宝贵经验。这门课,就是你开启多模态AI系统性学习和实践的最佳入口
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2025-08-19
如何将普通的HTTP API接口快速变成MCP Server
2025-08-19
7年了,OpenAI官方给出五代GPT对比,网友却怀念起「狂野」初代
2025-08-19
阿里千问最新模型,已成为 AI 修图中的王者
2025-08-19
为什么 LLMs 无法真正构建软件
2025-08-19
DeepSeekMine个人知识库,支持一键安装大模型了,最新Windows、Mac安装包发布!
2025-08-19
AI Agent将开启一个由“需求”定义软件的全新时代
2025-08-19
文库 GenFlow2.0,这个特性让我大吃一惊
2025-08-19
性能瓶颈?Dify 应用高可用性治理的实践
2025-05-29
2025-05-23
2025-06-01
2025-06-21
2025-06-07
2025-06-12
2025-06-19
2025-06-13
2025-05-28
2025-07-29
2025-08-18
2025-08-18
2025-08-18
2025-08-15
2025-08-14
2025-08-14
2025-08-13
2025-08-13