我要投稿

突发，美团推出 560B 开源模型，名为长猫

发布日期：2025-09-01 09:07:04 浏览次数： 1863

作者：AGI Hunt

微信搜一搜，关注“AGI Hunt”

美团入局大模型战场了！

这次推出的LongCat-Flash有5600亿参数，采用MoE架构，但真正有意思的是它的动态计算机制——

根据上下文需求激活186亿到313亿参数，平均约270亿。

这意味着，模型会根据任务复杂度自动调节计算资源，不再是「一刀切」的参数激活。

动态计算

LongCat-Flash最大的亮点是动态计算机制。

不是所有token都需要同等计算资源，重要的token会获得更多参数激活。

具体来说：

总参数：5600亿
激活参数：186亿～313亿（动态调整）
平均激活：约270亿

为了保持计算负载稳定，团队使用了PID控制器调整专家偏置，确保平均激活参数稳定在270亿左右。

ScMoE架构解决通信瓶颈

MoE模型扩展时，通信开销是个大问题。

LongCat-Flash采用了Shortcut-connected MoE (ScMoE)设计，扩大了计算-通信重叠窗口。

结合定制化基础设施优化，这个设计让模型能在数万个加速器上训练，推理速度超过每秒100个token。

从小到大的训练策略

美团团队开发了一套完整的稳定性和扩展框架：

超参数迁移策略：从小型代理模型预测最优配置，有理论保证。

模型增长机制：基于半规模检查点初始化，性能优于传统方法。

多管齐下的稳定性套件：包括路由器梯度平衡、隐藏z-loss抑制大规模激活、优化器配置微调。

确定性计算：保证实验的精确可重现性，能在训练过程中检测SDC（静默数据损坏）。

这些措施确保LongCat-Flash训练稳定，没有不可恢复的损失尖峰。

全面对标顶级模型

在官方公布的各项基准测试中，LongCat-Flash表现出色：

基准测试	GPT-4.1	Claude4 Sonnet	Gemini2.5 Flash	LongCat-Flash
通用领域
MMLU	89.64	91.75	86.33	89.71
ArenaHard-V2	61.50	62.10	77.00	86.50
CEval	79.53	86.63	78.78	90.44
指令遵循
IFEval	85.58	88.35	83.92	89.65
COLLIE	50.00	51.22	48.60	57.10
Meeseeks-zh	41.54	35.07	34.84	43.03
数学推理
MATH500	90.60	93.80	98.40	96.40
AIME25	32.00	37.00	67.33	61.25
代码能力
LiveCodeBench	39.21	45.59	39.65	48.02
SWE-Bench-Verified	48.60	68.00	40.60	60.40
TerminalBench	28.40	40.74	12.35	39.51

特别值得注意的是，LongCat-Flash在TerminalBench和TauBench等智能体任务上达到了SOTA水平。

部署支持SGLang和vLLM

美团已经在SGLang和vLLM中实现了基础适配，支持LongCat-Flash的部署，MIT 协议，已在HuggingFace 开源。

模型访问

# API访问
model_string = 'claude-opus-4-1-20250805'

# HuggingFace模型
from transformers import AutoModelForCausalLM
model = AutoModelForCausalLM.from_pretrained("meituan-longcat/LongCat-Flash-Chat")

Chat模板示例

# 单轮对话
"[Round 0] USER:{query} ASSISTANT:"

# 多轮对话
"SYSTEM:{system_prompt} [Round 0] USER:{query} ASSISTANT:{response}</longcat_s>... [Round N] USER:{query} ASSISTANT:"

# 工具调用
"<longcat_tool_call>
{'name': <function-name>, 'arguments': <args-dict>}
</longcat_tool_call>"