我要投稿

更多thinking≠更好结果，精准thinking可砍掉一半长度

发布日期：2025-06-25 19:57:59 浏览次数： 1951

作者：深度学习自然语言处理

微信搜一搜，关注“深度学习自然语言处理”

大模型推理为什么又长又啰嗦？

想象一下让学霸解题：明明第一步就得出答案，却非要反复验算十遍，还写满整张草稿纸——这就是当前大模型（如GPT-4、DeepSeek）的痛点！

论文：Optimizing Length Compression in Large Reasoning Models
链接：https://arxiv.org/pdf/2506.14755

论文发现：模型在简单题目上过度推理，生成大量无关步骤。比如解方程时，答案早出现了，后面全是"让我再检查一下..."的废话。

如图对比：普通模型像写小作文，LC-R1训练后像发微博

关键发现：模型在"无效思考"上浪费45%时间！

作者提出 "无效思考"（Invalid Thinking）概念：

定义：模型得出正确答案后继续的冗余验证步骤
量化指标 VT率：有效推理长度 ÷ 总推理长度

惊人数据：当前顶尖模型的平均VT率仅58-65%，意味着35-45%的计算资源在空转！

好比打车去3公里外吃饭，司机绕路开了6公里

解决原则："简短"和"够用"的平衡术

传统方法粗暴砍长度可能误伤关键步骤。本文提出两大原则：

Brevity（简短）：只保留必要推理，答案一出立刻停笔
Sufficiency（够用）：确保关键逻辑步骤不丢失

类比烹饪：
普通厨师：煮面10分钟，再煮5分钟"确保熟透" → 冗余
智能厨师：煮面10分钟，筷子一夹就关火 → Brevity+Sufficiency

LC-R1方法：双奖励机制的训练魔法

核心方法：用强化学习给模型"植入条件反射"

长度奖励：整体输出越短，奖励越大（防啰嗦）
压缩奖励：精准识别"无效思考"并删除（防过度检查）

关键操作：
当模型首次输出正确答案时，立刻给</think>标记发"红包"（奖励），训练它养成答完即停的习惯！

公式示意：
压缩奖励 = 1 - (有效长度 / 原始长度)
提前终止时罚分 -1（避免偷工减料）

效果验证：砍掉一半长度，精度只掉2%

在7大测试集（数学/编程/逻辑题）中，LC-R1碾压其他压缩方法：

平均缩短50%长度：从1万token→5千token
精度仅下降1.8-2.1% （其他方法降幅4-12%）
VT率飙升至97% （原模型仅58%）

如图：LC-R1稳居帕累托前沿最优位置

案例对比：同一道数学题

原始模型：写1600字小作文（43%是废话）
LC-R1：500字搞定，逻辑完整

彩蛋：压缩后模型反而更"专注"？

不影响探索能力：多次尝试解题的成功率不变
通杀难易题目：从小学数学到奥赛题，压缩率稳定

"删掉的真是纯废话，留着的全是干货！"

结语

LC-R1的价值不仅是技术突破，更揭示了模型推理的本质规律：
更多步骤≠更好结果，精准思考才是王道。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2025-12-25

skill如何实现近乎无限上下文？：《Equipping agents…… with Agent Skills》 ②

2025-12-25

背靠通义大模型，这家阿里系公司正在重写体育场馆新的「定价公式」

2025-12-25

上下文缩减新视角-可逆vs不可逆：Manus联合创始人 Peak Ji最新分享①

2025-12-24

Open WebUI：可能是目前最好用的本地大模型 Web 界面

2025-12-24

Claude Agent Skills 深度解析：原理、工作流与最佳实践

2025-12-24

Seed Prover 1.5：全新 Agentic 架构，更强数学推理表现

2025-12-24

MiniMax M2.1 终于上线，咱憋了一肚子话终于能说了。。。。。

2025-12-24

GLM-4.7发布后，n8n就不用学了！搭个AI Skills一键生成工作流

了解更多

了解更多

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

马斯克 Grok imagine 完整使用指南：工具、案例、提示词，看这一篇就够了！

2025-10-26

实测 Sora 2 ：AI视频的“ChatGPT时刻”来了？八大场景教你解锁各种玩法（附邀请码）

2025-10-02

RagFLow v0.20.X全面解析！双向MCP、Agentic智能体...这次真的起飞了！（附长图）

2025-09-29

一文速览OpenAI Dev Day 2025，下半年开始大洗牌

2025-10-07

Claude Sonnet4.5发布，号称世界最强模型，超越gpt-5-codex

2025-09-30

我挖到Gemini 3.0 Pro十大隐藏玩法，做网页已经落后N个版本了

2025-11-19

万字长文深度解析最新Deep Research技术：前沿架构、核心技术与未来展望

2025-10-20

深度体验TRAE SOLO 正式版，总结一点技巧(附完整可重现提示词和源码)

2025-11-13

从spec-kit到OpenSpec：规格驱动开发如何解决项目迭代痛点？

2025-10-18

Sora 2带来3个颠覆性创新，这个行业或将被彻底重构

2025-10-02

大家都在问

深度解读DeepMind最新研究：为什么需要像管股市一样去管AI？

2025-12-22

Prompt是与LLM对话的唯一方式：如何给大模型装上能指挥“手脚”的脑子？

2025-12-16

200k Tokens 的上下文真的够用吗？

2025-12-15

巨头翻身！谷歌全新AI浏览器Disco问世，PC版灵光？

2025-12-14

2025年，企业级AI的主战场在哪里？

2025-12-12

GPT 5.2的长上下文厉害了，但是写文真的强吗？

2025-12-12

涌现观点｜AI 开发的"App Store 时刻"：为什么你应该停止构建 Agent？

2025-12-11

Human In the Loop竟然可以是个MCP?

2025-12-09

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS 提示词框架提示词技巧 AI+电商 AI面试数字员工 ChatBI AI知识库开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB Palantir Glean

应聘简历请发送至： ceo@53ai.com

联系我们

售前咨询

预约演示

微信扫码

添加专属顾问

回到顶部