我要投稿

美团悄悄上线推理大模型，我们离生活Agent又近了一步

发布日期：2025-09-23 14:46:11 浏览次数： 2240

作者：卡尔的AI沃茨

微信搜一搜，关注“卡尔的AI沃茨”

思考 or 不思考，

This is no longer a question.

-- 早就是大模型标配了。

比如我们熟悉的GPT5、Gemini-2.5、Grok4可以看作是提供思考档位和成本控制；Qwen3是提供思考开关；DeepSeek-V3.1和Claude Sonnet 4则是同一模型支持思考与非思考的自由切换，

而经历21天后，美团也迎来了自己的思考时刻，

LongCat-Flash-Thinking，

距离 LongCat-Flash 发布三周不到，生活 Agent 小美内测两周不到，美团你有这样的执行力和那么多年囤下来的本地生活数据，你做什么都会成功的。

长话短说，

LongCat-Flash-Thinking保留了龙猫系列速度快的同时，在逻辑、数学、代码、智能体等多个领域的推理任务中，达到了开源模型SOTA，部分任务表现接近GPT5-Thinking。

上线即开源，

🔗 huggingface.co/meituan-longcat/LongCat-Flash-Thinking

🔗 github.com/meituan-longcat/LongCat-Flash-Thinking

我来解说一下重点（OpenAI o3现在已经成计量单位了）

在ARC-AGI基准上（通用推理能力），比 OpenAI o3提升6.34%；
在HMMT-25和AIME-24基准上（数学能力），分别比 OpenAI o3提升1.86%和16.4%；
在LiveCodeBench基准上（代码能力），比OpenAI o3提升4.20%；
在τ2-Bench-Airline基准上（智能体能力），比OpenAI o3提升9.47%

在 longcat.ai 上也多了一个深度思考的按钮，

来看看LongCat-Flash-Thinking跟DeepSeek-V3.1-Terminus，这两个同一天更新的模型的速度对比，

同一个经典天气组件提示语，同样关闭联网搜索，

Create a single HTML file containing CSS and JavaScript to generate an animated weather card. The card should visually represent the following weather conditions with distinct animations: Wind: (e.g., moving clouds, swaying trees, or wind lines) Rain: (e.g., falling raindrops, puddles forming) Sun: (e.g., shining rays, bright background) Snow: (e.g., falling snowflakes, snow accumulating) Show all the weather card side by side The card should have a dark background. Provide all the HTML, CSS, and JavaScript code within this single file. The JavaScript should include a way to switch between the different weather conditions (e.g., a function or a set of buttons) to demonstrate the animations for each.

都是一刀没剪，为了方便观看做了1.8倍速。

DeepSeek-V3.1-Terminus：

为什么不是2倍速，因为再快LongCat-Flash-Thinking就要快到看不清了。。。

LongCat-Flash-Thinking：

那光看速度也不行啊，我们看看效果，

DeepSeek-V3.1-Terminus：

LongCat-Flash-Thinking：

双方选手的完成度都很高，可以看到DeepSeek-V3.1-Terminus输出的天气组件，动效会更强，而LongCat-Flash-Thinking生成的UI排版更好。

还有一个重点要画一下，这次还增强了智能体自主调用工具的能力，并扩展了形式化定理证明能力（MiniF2F-test基准），成为国内首个同时具备“深度思考+工具调用”与“非形式化+形式化”推理能力相结合的大语言模型。

🍰

冷知识：形式化定理证明指的是，在一个用形式化语言（具有精确、无歧义语法和语义的语言，如各种逻辑系统的语言）定义的公理和规则系统中，一步步地、严格地推导出某个命题（定理）的过程。这意味着证明过程中的每一个步骤都必须完全遵循系统预先定义的推理规则，不能依赖任何直觉和常识。与之相对的是 “非形式化证明” ，也就是我们数学课本和论文中常见的证明。它们用自然语言书写，为了人类的可读性，会省略许多“显而易见”的步骤，依赖读者的背景知识来填补空白。

不拿来做一下数学证明可惜了，

我这里有一个真实出现过的、高难度的AIME（美国数学邀请赛）的路径规划问题：

翻译成中文长这样，

🦄

每天早上，小美会进行一次9公里长的散步，之后在咖啡馆休息。当她以每小时s公里的恒定速度行走时，整个行程（包括在咖啡馆的t分钟）需要4小时。当她以每小时s+2公里的速度行走时，整个行程（包括在咖啡馆的t分钟）需要2小时24分钟。假设亚衣以每小时s+1/2公里的速度行走，求整个行程需要多少分钟（包括在咖啡馆的t分钟）。