支持私有化部署
AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


更多thinking≠更好结果,精准thinking可砍掉一半长度

发布日期:2025-06-25 19:57:59 浏览次数: 1519
作者:深度学习自然语言处理

微信搜一搜,关注“深度学习自然语言处理”

推荐语

大模型推理也能"断舍离"?LC-R1方法砍掉一半废话,精度仅降2%!

核心内容:
1. 大模型存在"无效思考"痛点:45%计算资源浪费在冗余验证
2. 双奖励训练机制:同时优化推理长度和关键步骤保留
3. 实测效果:推理长度缩短50%,精度损失不足2%

杨芳贤
53AI创始人/腾讯云(TVP)最具价值专家

大模型推理为什么又长又啰嗦?

想象一下让学霸解题:明明第一步就得出答案,却非要反复验算十遍,还写满整张草稿纸——这就是当前大模型(如GPT-4、DeepSeek)的痛点!

论文:Optimizing Length Compression in Large Reasoning Models
链接:https://arxiv.org/pdf/2506.14755

论文发现:模型在简单题目上过度推理,生成大量无关步骤。比如解方程时,答案早出现了,后面全是"让我再检查一下..."的废话。

如图对比:普通模型像写小作文,LC-R1训练后像发微博

关键发现:模型在"无效思考"上浪费45%时间!

作者提出 "无效思考"(Invalid Thinking)概念:

定义:模型得出正确答案后继续的冗余验证步骤
量化指标 VT率:有效推理长度 ÷ 总推理长度

惊人数据:当前顶尖模型的平均VT率仅58-65%,意味着35-45%的计算资源在空转

好比打车去3公里外吃饭,司机绕路开了6公里

解决原则:"简短"和"够用"的平衡术

传统方法粗暴砍长度可能误伤关键步骤。本文提出两大原则:

  • Brevity(简短):只保留必要推理,答案一出立刻停笔
  • Sufficiency(够用):确保关键逻辑步骤不丢失

类比烹饪:

  • 普通厨师:煮面10分钟,再煮5分钟"确保熟透" → 冗余
  • 智能厨师:煮面10分钟,筷子一夹就关火 → Brevity+Sufficiency

LC-R1方法:双奖励机制的训练魔法

核心方法:用强化学习给模型"植入条件反射"

  • 长度奖励:整体输出越短,奖励越大(防啰嗦)
  • 压缩奖励:精准识别"无效思考"并删除(防过度检查)

关键操作
当模型首次输出正确答案时,立刻给</think>标记发"红包"(奖励),训练它养成答完即停的习惯!

公式示意:
压缩奖励 = 1 - (有效长度 / 原始长度)
提前终止时罚分 -1(避免偷工减料)

效果验证:砍掉一半长度,精度只掉2%

在7大测试集(数学/编程/逻辑题)中,LC-R1碾压其他压缩方法:

  • 平均缩短50%长度:从1万token→5千token
  • 精度仅下降1.8-2.1% (其他方法降幅4-12%)
  • VT率飙升至97% (原模型仅58%)

如图:LC-R1稳居帕累托前沿最优位置

案例对比:同一道数学题

  • 原始模型:写1600字小作文(43%是废话)
  • LC-R1:500字搞定,逻辑完整

彩蛋:压缩后模型反而更"专注"?

  • 不影响探索能力:多次尝试解题的成功率不变
  • 通杀难易题目:从小学数学到奥赛题,压缩率稳定

"删掉的真是纯废话,留着的全是干货!"

结语

LC-R1的价值不仅是技术突破,更揭示了模型推理的本质规律
更多步骤≠更好结果,精准思考才是王道



备注:昵称-学校/公司-方向/会议(eg.ACL),进入技术/投稿群


id:DLNLPer,记得备注呦

53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询