微信扫码
添加专属顾问
我要投稿
美团重磅推出5600亿参数开源模型LongCat-Flash,其创新的动态计算机制可根据任务复杂度自动调节资源,性能直逼顶级模型。 核心内容: 1. 动态计算机制:根据上下文需求激活186-313亿参数,实现智能资源分配 2. ScMoE架构突破:解决通信瓶颈,支持数万加速器训练,推理速度超100token/秒 3. 全面性能对标:在MMLU、CEval等多项基准测试中表现优异,部分指标超越GPT-4.1
美团入局大模型战场了!
这次推出的LongCat-Flash有5600亿参数,采用MoE架构,但真正有意思的是它的动态计算机制——
根据上下文需求激活186亿到313亿参数,平均约270亿。
这意味着,模型会根据任务复杂度自动调节计算资源,不再是「一刀切」的参数激活。
LongCat-Flash最大的亮点是动态计算机制。
不是所有token都需要同等计算资源,重要的token会获得更多参数激活。
具体来说:
总参数:5600亿
激活参数:186亿~313亿(动态调整)
平均激活:约270亿
为了保持计算负载稳定,团队使用了PID控制器调整专家偏置,确保平均激活参数稳定在270亿左右。
MoE模型扩展时,通信开销是个大问题。
LongCat-Flash采用了Shortcut-connected MoE (ScMoE)设计,扩大了计算-通信重叠窗口。
结合定制化基础设施优化,这个设计让模型能在数万个加速器上训练,推理速度超过每秒100个token。
美团团队开发了一套完整的稳定性和扩展框架:
超参数迁移策略:从小型代理模型预测最优配置,有理论保证。
模型增长机制:基于半规模检查点初始化,性能优于传统方法。
多管齐下的稳定性套件:包括路由器梯度平衡、隐藏z-loss抑制大规模激活、优化器配置微调。
确定性计算:保证实验的精确可重现性,能在训练过程中检测SDC(静默数据损坏)。
这些措施确保LongCat-Flash训练稳定,没有不可恢复的损失尖峰。
在官方公布的各项基准测试中,LongCat-Flash表现出色:
基准测试 | GPT-4.1 | Claude4 Sonnet | Gemini2.5 Flash | LongCat-Flash |
---|---|---|---|---|
通用领域 | ||||
89.71 | ||||
86.50 | ||||
90.44 | ||||
指令遵循 | ||||
89.65 | ||||
57.10 | ||||
43.03 | ||||
数学推理 | ||||
96.40 | ||||
61.25 | ||||
代码能力 | ||||
48.02 | ||||
60.40 | ||||
39.51 |
特别值得注意的是,LongCat-Flash在TerminalBench和TauBench等智能体任务上达到了SOTA水平。
美团已经在SGLang和vLLM中实现了基础适配,支持LongCat-Flash的部署,MIT 协议,已在HuggingFace 开源。
# API访问
model_string = 'claude-opus-4-1-20250805'
# HuggingFace模型
from transformers import AutoModelForCausalLM
model = AutoModelForCausalLM.from_pretrained("meituan-longcat/LongCat-Flash-Chat")
# 单轮对话
"[Round 0] USER:{query} ASSISTANT:"
# 多轮对话
"SYSTEM:{system_prompt} [Round 0] USER:{query} ASSISTANT:{response}</longcat_s>... [Round N] USER:{query} ASSISTANT:"
# 工具调用
"<longcat_tool_call>
{'name': <function-name>, 'arguments': <args-dict>}
</longcat_tool_call>"
域名是:https://longcat.ai,不过点击后会跳转到:https://longcat.chat/,需要用美团APP 扫码登录:
还是那道模型靠谱度的标准考题:
我有70块钱,我借给小明五十块钱,他又用这五十块在我这里买了五十块钱的水果。第二天我借给小明30块钱,小明用这30块钱买了30块钱的牛奶,小明还欠我多少钱?请先推理,最后给出结论
token 倒是吐得很快,但可惜——
没答对。
不过“深度思考”还没放开,也许能答对。
美团这次推出LongCat-Flash,标志着中国科技公司在大模型领域的又多了一名重磅玩家。
虽然简单测下来,效果不算惊艳,但美团入局,实力绝对不容小觑。
不过,得吐槽一句:
你是真会挑时间!
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2025-09-02
Coze教程 | 第2章:Coze开发环境搭建与配置
2025-09-01
谁才是企业级开源平台的优选?OpenCSG与Dify、Coze、Langflow、Ollama 的差异化之路
2025-09-01
苹果深夜开源FastVLM:速度飙升85倍,0.5B小模型要逼疯谁?
2025-09-01
美团正式发布并开源 LongCat-Flash-Chat,动态计算开启高效 AI 时代
2025-08-29
如何评测 AI 智能体:试试字节开源的扣子罗盘
2025-08-29
HiMarket 正式开源,为企业落地开箱即用的 AI 开放平台
2025-08-28
美团 M17 团队开源 Meeseeks 评测集:揭秘大模型的 “听话”能力
2025-08-28
我摊牌了,PDF的终结者出现了!这个开源神器,让你的RAG项目吞吐能力暴增10倍!
2025-07-23
2025-06-17
2025-08-20
2025-06-17
2025-07-23
2025-08-05
2025-07-14
2025-08-20
2025-07-29
2025-07-12
2025-09-01
2025-08-16
2025-08-13
2025-08-11
2025-08-11
2025-08-06
2025-08-06
2025-08-06