微信扫码
添加专属顾问
我要投稿
美团与SGLang团队强强联手,揭秘如何高效部署5600亿参数的LongCat-Flash混合专家模型。核心内容: 1. LongCat-Flash模型的创新架构与性能优势 2. 模型-系统协同设计的关键技术与优化方案 3. 使用SGLang框架部署模型的具体方法与实测效果
近日,美团正式发布并开源 LongCat-Flash-Chat,该模型采用了创新性混合专家模型(Mixture-of-Experts, MoE)架构,实现了计算效率与性能的双重优化。
SGLang 团队是业界专注于大模型推理系统优化的技术团队,提供并维护大模型推理的开源框架 SGLang。近期,美团 M17 团队与 SGLang 团队一起合作,共同实现了 LongCat-Flash 模型在 SGLang 上的优化,希望通过本文能让更多同学从 LongCat-Flash 的系统优化中获益。
本文目录
LongCat-Flash 是美团 LongCat 团队开源的创新性混合专家模型(Mixture-of-Experts, MoE)现已在 Hugging Face 平台开源,核心特性包括:
512 个前馈网络专家 + 256 个零计算专家
基于多项基准测试,作为非思考型基础模型,LongCat-Flash 仅通过少量参数激活即可达到与主流领先模型相当的性能表现,在智能体任务方面尤为突出。此外,得益于以推理效率为导向的设计理念和架构创新,LongCat-Flash 展现出显著更快的推理速度,使其更适用于复杂且耗时的智能体应用场景。
| 更多内容可以参考技术报告:《LongCat-Flash Technical Report》(点击阅读原文获取)
LongCat-Flash 在面向吞吐和延时的模型-系统的协同设计(Model-System Co-design)方面做了大量工作。这主要是因为我们更多希望 LongCat-Flash 能成为 Agent 场景下可以大规模使用的一个模型。正如我们在技术报告里面所讲,基于 ReACT 模式的智能体系统由于其多轮对话特性,对预填充(Prefill)和解码(Decode)速度都提出了极高的要求,更快的响应速度,给用户端到端的体验会更加明显。为了解决 Prefill 和 Decode 的问题,我们分别设计了零专家机制和 Shortcut-connected MoE 结构来减少计算量和实现结构上的计算-通信重叠。
模型-系统的协同设计使得我们可以突破吞吐和延时这一对冲突目标的限制,同时在两个维度上取得显著收益。
为实现预填充(Prefilling)与解码(Decoding)阶段的独立优化,我们采用了 PD 分离(PD-Disaggregated)架构。基于 SGLang 的 PD 分离方案,我们开发了自己的创新解决方案,其核心特性是分层传输(Layer-wise Transmission),该设计在高 QPS 负载场景下显著降低了首包时间(TTFT)。
SBO(Single Batch Overlap)是一种采用模块级重叠(Module-Level)的四阶段流水线执行架构,旨在充分释放 LongCat-Flash 的性能潜力。与 TBO 不同的是,SBO 通过将通信开销隐藏于单个批次内实现优化:
这种设计有效缓解了通信瓶颈:① 所有重叠操作在单批次内完成,实现吞吐量提升与延迟降低的双重收益;② 通过计算/通信流水化,确保 LongCat-Flash 的高效推理。其核心价值在于突破传统方案中吞吐量与延迟不可兼得的困境,特别适合实时性要求高的智能体应用场景。
图 2 LongCat-Flash 的 SBO 调度示意图
为什么要做大规模专家并行部署?一是因为前文所述,需要释放更多显存来给 KV cache 存储;二是因为增大 EP 并发数,可以降低 MoE 环节的计算耗时。
降低 KV Cache:LongCat-Flash 采用了 MLA 结构来压缩 KV Cache,单 Token 的 KV Cache 大小是:(512+64)*2*28*2 = 64.5KB。假设输入的长度是 5K,则平均每条请求的 KV Cache 大小是:64.5KB * 5000 = 323MB,MoE 部分的参数大小是:541GB(FP8 存储)。如果 H800-80GB 做 EP16 部署,则单卡的 MoE 参数是:33.8GB,参数占了单卡存储的 42.2%,考虑到 CudaGraph 的显存开销、通信的 buffer 开销、Dense 分支的参数开销,留给 KV Cache 的空间就不大,batch 就没法打高。如果做 EP128 部署,则单卡的 MoE 参数是:541/128 = 4.2GB,只占单卡显存的 5.3%,更多的空间可以释放给 KV cache。也可以看出来,在 EP128 基础上,进一步增加 EP 数,显存方面的收益已经不显著了。
降低 MoE 环节的计算耗时:如技术报告和图 2 所指出,在 SBO 中,单个 layer 的计算耗时由四个环节组成:attention 计算 + all-to-all dispatch 通信 + MoE 计算 + all-to-all combine 通信。其中 attention 计算和 all-to-all dispatch/combine 通信都无法通过增加分布式节点来降低,只有 MoE 计算可以。所以,在达到 MoE 计算的算力瓶颈之前,扩大 EP 规模会减少 MoE 计算时间。
大规模专家并行部署,结合 SBO 调度,LongCat-Flash 在 EP128 的时候可以达到~10ms 的 TPOT,同时单卡~800 tokens/s 的吞吐。此外,与 SGLang 的实现类似,我们采用 DeepEP 实现大规模专家的分布式通信,也在 DeepEP 基础上实现了零专家无需通信的本地计算机制,显著降低了通信开销。
多步重叠调度器:为提升 GPU 利用率,SGLang 采用单步重叠式调度器,将 CPU 的调度开销隐藏在模型 Decode 的 GPU kernel 耗时中。然而,LongCat-Flash 前向传播的耗时比较低,导致 GPU kernel 的耗时无法掩盖 CPU 的调度开销,为此我们实现多步重叠调度器,在单次调度迭代中启动多个前向传播 kernel,通过将 CPU 调度与同步操作隐藏于 GPU 计算过程,确保 GPU 一直处于 busy 状态。
投机推理:在投机推理的优化上,借鉴 MagicDec [1] ,我们首先对投机推理的收益进行的理论分析,其理论收益:。 表示在投机推理情况下的平均 decode 耗时, 表示 Target model 的耗时。其他各项含义参考下文的说明。针对这个公式,我们拆解成三部分分别优化:
基于以上优化,LongCat-Flash 可以取得比同尺寸模型、甚至更小尺寸模型都显著优异的性能表现,以公版 H800 每小时 14 元人民币(2 美元)计算,在输出速度达到 100 tokens/s(TPOT = 10ms)的 SLO 下,输出成本价仅为每百万 Token 5 元。
备注:不同的 SLO 有不同的成本。比如 68.9 tok/s 的生成速度,对应的吞吐是 2205 token/g/s;100.5 tok/s 的生成速度,对应的吞吐是 804 token/g/s。
我们推荐使用 SGLang 部署 LongCat-Flash。通过与 SGLang 社区的深度协作,该模型在 SGLang 框架上实现首发即兼容。由于其 5600 亿参数(560B)的规模,LongCat-Flash 在 FP8 格式下需要至少单节点 8xH20-141G GPU 来加载模型权重,BF16 权重则需要至少双节点 16xH800-80G GPU。具体启动配置如下所示。
安装 SGLang
pip install --upgrade pip
pip install uv
uv pip install
"sglang[all]>=0.5.1.post3"
单机部署(8xH20-141G)
该模型可通过张量并行(Tensor Parallelism)与专家并行(Expert Parallelism)的组合方案在单节点上部署。
python3 -m sglang.launch_server \
--model meituan-longcat/LongCat-Flash-Chat-FP8 \
--trust-remote-code \
--attention-backend flashinfer \
--enable-ep-moe \
--tp 8
多机部署(16xH800-80G)
在多节点部署方案中,当前采用张量并行(Tensor Parallelism)与专家并行(Expert Parallelism)的组合架构,未来将扩展其他并行策略。请将$NODE_RANK和$MASTER_IP替换为实际集群环境对应的配置值。
python3 -m sglang.launch_server \
--model meituan-longcat/LongCat-Flash-Chat \
--trust-remote-code \
--attention-backend flashinfer \
--enable-ep-moe \
--tp 16 \
--nnodes 2 \
--node-rank $NODE_RANK \
--dist-init-addr $MASTER_IP:5000
使用 MTP 的方法
要启用 SGLang 的多令牌预测(MTP)功能,需在启动命令中添加以下参数
--speculative-draft-model-path meituan-longcat/LongCat-Flash-Chat \
--speculative-algorithm NEXTN \
--speculative-num-draft-tokens 2 \
--speculative-num-steps 1 \
--speculative-eagle-topk 1
通过结合 SGLang、PD 分离架构、大规模专家并行(EP)和 SBO 等关键技术,我们实现了 LongCat-Flash 的超低成本与极速生成能力。该模型的高效推理还得益于 SGLang 团队、MoonCake 团队、NVIDIA trt-llm 及其他开源社区的技术贡献。未来我们将与 SGLang 团队深度合作,逐步将基于 SGLang 的优化方案回馈至开源社区,共同推动生态发展。
// 注释 //
[1] MagicDec:Sadhukhan, Ranajoy, et al. "Magicdec: Breaking the latency-throughput tradeoff for long context generation with speculative decoding." arXiv preprint arXiv: 2408.11049 (2024).
[2] C2T:Huo, Feiye, et al. "C2T: A Classifier-Based Tree Construction Method in Speculative Decoding." arXiv preprint arXiv: 2502.13652 (2025).
---------- END ----------
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2025-09-14
我的个人管理系统只有一个Markdown:实战篇,我把Prompt开源了,照着SOP做
2025-09-12
3000字长文:基于Dify的公司制度检索问答Agent实践
2025-09-12
Google发布最新开放文本嵌入模型:EmbeddingGemma
2025-09-12
Qwen3-Next:迈向更极致的训练推理性价比
2025-09-11
智能体变现难题破解:三步打造专属AI智能体网站,开源方案让你收入倍增!
2025-09-10
从抵触AI到AI破局,我把Coze、n8n、Dify等5个主流智能体平台扒了个底朝天
2025-09-09
为 ONLYOFFICE AI 智能体开发自定义函数:实践指南&夺奖攻略!
2025-09-09
开源智能体开发框架全面对比分析
2025-07-23
2025-08-20
2025-09-07
2025-07-23
2025-08-05
2025-07-14
2025-08-20
2025-07-29
2025-07-12
2025-07-31
2025-09-09
2025-09-08
2025-09-07
2025-09-01
2025-08-16
2025-08-13
2025-08-11
2025-08-11