免费POC, 零成本试错
AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


美团悄悄上线推理大模型,我们离生活Agent又近了一步

发布日期:2025-09-23 14:46:11 浏览次数: 1596
作者:卡尔的AI沃茨

微信搜一搜,关注“卡尔的AI沃茨”

推荐语

美团推出推理大模型LongCat-Flash-Thinking,在多项基准测试中超越OpenAI o3,为生活Agent发展注入新动力。

核心内容:
1. LongCat-Flash-Thinking在逻辑、数学、代码等领域的SOTA表现
2. 与主流模型的性能对比及技术突破
3. 美团本地生活数据与AI结合的独特优势

杨芳贤
53AI创始人/腾讯云(TVP)最具价值专家

思考 or 不思考,

This is no longer a question. 

-- 早就是大模型标配了。

比如我们熟悉的GPT5、Gemini-2.5、Grok4可以看作是提供思考档位和成本控制;Qwen3提供思考开关;DeepSeek-V3.1和Claude Sonnet 4则是同一模型支持思考与非思考自由切换,

而经历21天后,美团也迎来了自己的思考时刻,

LongCat-Flash-Thinking,

距离 LongCat-Flash 发布三周不到,生活 Agent 小美内测两周不到,美团你有这样的执行力和那么多年囤下来的本地生活数据,你做什么都会成功的。

长话短说,

LongCat-Flash-Thinking保留了龙猫系列速度快的同时,在逻辑、数学、代码、智能体等多个领域的推理任务中,达到了开源模型SOTA,部分任务表现接近GPT5-Thinking。


Image

上线即开源,

🔗 huggingface.co/meituan-longcat/LongCat-Flash-Thinking

🔗 github.com/meituan-longcat/LongCat-Flash-Thinking

我来解说一下重点OpenAI o3现在已经成计量单位了

  • 在ARC-AGI基准上(通用推理能力),比 OpenAI o3提升6.34%;
  • 在HMMT-25和AIME-24基准上(数学能力),分别比 OpenAI o3提升1.86%和16.4%;
  • 在LiveCodeBench基准上(代码能力),比OpenAI o3提升4.20%;
  • 在τ2-Bench-Airline基准上(智能体能力),比OpenAI o3提升9.47%

 longcat.ai 上也多了一个深度思考的按钮,


Image

来看看LongCat-Flash-Thinking跟DeepSeek-V3.1-Terminus,这两个同一天更新的模型的速度对比,

同一个经典天气组件提示语,同样关闭联网搜索,

Create a single HTML file containing CSS and JavaScript to generate an animated weather card. The card should visually represent the following weather conditions with distinct animations: Wind: (e.g., moving clouds, swaying trees, or wind lines) Rain: (e.g., falling raindrops, puddles forming) Sun: (e.g., shining rays, bright background) Snow: (e.g., falling snowflakes, snow accumulating) Show all the weather card side by side The card should have a dark background. Provide all the HTML, CSS, and JavaScript code within this single file. The JavaScript should include a way to switch between the different weather conditions (e.g., a function or a set of buttons) to demonstrate the animations for each.

都是一刀没剪,为了方便观看做了1.8倍速。

DeepSeek-V3.1-Terminus:

为什么不是2倍速,因为再快LongCat-Flash-Thinking就要快到看不清了。。。

LongCat-Flash-Thinking:

那光看速度也不行啊,我们看看效果,

DeepSeek-V3.1-Terminus:

LongCat-Flash-Thinking:

双方选手的完成度都很高,可以看到DeepSeek-V3.1-Terminus输出的天气组件,动效会更强,而LongCat-Flash-Thinking生成的UI排版更好。

还有一个重点要画一下,这次还增强了智能体自主调用工具的能力,并扩展了形式化定理证明能力(MiniF2F-test基准),成为国内首个同时具备“深度思考+工具调用”与“非形式化+形式化”推理能力相结合的大语言模型。

🍰

冷知识:形式化定理证明指的是,在一个用形式化语言(具有精确、无歧义语法和语义的语言,如各种逻辑系统的语言)定义的公理和规则系统中,一步步地、严格地推导出某个命题(定理)的过程。这意味着证明过程中的每一个步骤都必须完全遵循系统预先定义的推理规则,不能依赖任何直觉和常识。与之相对的是 “非形式化证明” ,也就是我们数学课本和论文中常见的证明。它们用自然语言书写,为了人类的可读性,会省略许多“显而易见”的步骤,依赖读者的背景知识来填补空白。


Image

不拿来做一下数学证明可惜了,

我这里有一个真实出现过的、高难度的AIME(美国数学邀请赛)的路径规划问题:


Image

翻译成中文长这样,

🦄

每天早上,小美会进行一次9公里长的散步,之后在咖啡馆休息。当她以每小时s公里的恒定速度行走时,整个行程(包括在咖啡馆的t分钟)需要4小时。当她以每小时s+2公里的速度行走时,整个行程(包括在咖啡馆的t分钟)需要2小时24分钟。假设亚衣以每小时s+1/2公里的速度行走,求整个行程需要多少分钟(包括在咖啡馆的t分钟)。

好消息是两个都解出来了,答案是204,


Image

整体来看,LongCat-Flash-Thinking的解题步骤更加紧凑,还用上了python写代码来验证演算过程。

冷知识,LongCat-Flash-Thinking在解题过程中更喜欢用小数,而DeepSeek-V3.1-Terminus更喜欢用分数。


Image

最后用大白话解释一下这次LongCat-Flash-Thinking更新了哪些技术方案,能在推理模型上保持又快又省(在AIME25上使用工具的Token消耗比其他模型省64.5%)。

美团将模型训练的任务,像是STEM知识、代码能力、智能体交互等拆成不同的小组独立训练,各自专注不互相干扰。训练结束后再融合成果,使得整体能力更均衡,达到了理想的“帕累托最优”状态(资源配置的“理想状态”)。


Image

在智能体推理环节,美团设计出了一种“双路径推理框架”,

按他们的话来说,这套框架能够自主筛选最优查询样本,并通过自动化流程将智能体推理与工具使用相结合,使模型能够智能识别并调用外部工具(如代码执行器、API等),从而高效解决复杂任务。

念起来有点拗口,

这跟GPT5在运行过程可以自己选择要不要开启联网搜索、Canva画布等有啥不同呢?


区别在于,

GPT-5(单路径)工具的启用(比如联网搜索、Canva画布等)通常是由我来主动选择的。路径是“用户选择→模型使用”

而LongCat-Flash-Thinking 模型拥有自主决策权,在推理过程中可以自动判断当前任务是否需要调用外部工具,无需用户提前指定。路径是“模型判断→自动选择是否调用工具”

说那么多,那为啥美团要做一个自己的模型?

而不是跟别家一样,接入DeepSeek?

我觉得迷底已经放在了谜面上了,美团现在在很多细节的地方里都开始有AI了。首页里那个越来越懂你的AI搜索,


Image

准到不行,前三个我全去拍过

那个能替社恐人士打电话的AI订座,


Image

或者是那个帮你处理琐碎的AI开发票。


Image

LongCat-Flash和LongCat-Flash-Thinking并非凭空诞生。它们早已在这些我们习以为常的功能里,进行了无数次的实习,生根发芽。

我在这些生活场景中,最关注的也就是那么几个问题。

一个是我能不能在我最需要的时候第一时间获得模型的响应,至少要比我自己亲自动手来的方便吧,就拿点外卖来说,对话操作要是要等五六分钟的话,换我自己来点,骑手已经到店了。

另一个就是它是不是真的懂我,能帮我挑到合适的店铺。

美团这么多年沉淀下来的用户数据就是个金矿,做基础的大模型还能搜索到开源的网页数据、数学数据、代码和智能体数据等,

但是本地生活数据你到哪里搜去?

这天然就是技术护城河,含金量拉满的那种,

没有一家大模型能有那么多真实数据,也没有一家能清楚我们一年去过哪家店铺次数最多,吃过哪家外卖次数最多,什么时间最喜欢点什么类型的外卖,喜欢看什么类型的电影和演出等等等等,

那我又有什么理由不相信LongCat这个系列会打破目前趋向稳定的模型格局,

以各种各样的UI、形态、交互方式取代曾经的交互方式,

融入到我们生活工作的每一处,

就跟现在的美团一样。

@ 作者 / 卡尔


最后,感谢你看到这里👏如果喜欢这篇文章,不妨顺手给我们点赞👍|在看👀|转发📪|评论📣

如果想要第一时间收到推送,不妨给我个星标🌟

更多的内容正在不断填坑中……

53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询