微信扫码
添加专属顾问
我要投稿
导读 赵军平老师团队主要专注于大模型的推理优化,同时也涉及异构算力的优化。本次分享的重点是我们团队从去年(特别是今年)在大模型推理方面的主要工作,具体集中在显存优化这一领域。本次分享题目为大模型推理-显存优化探索蚂蚁集团。
1. 大模型推理显存挑战
2. 蚂蚁显存优化探索
3. 结语
4. Q&A
分享嘉宾|赵军平 蚂蚁集团 技术总监
编辑整理|向隆
内容校对|李瑶
出品社区|DataFun
大模型推理显存挑战
蚂蚁显存优化探索
1. 新请求到达时的显存检查优化:
2. 显存分配优化:
为了平衡首次延迟和后续 token 生成的效率,我们设计了调度策略,动态调整显存分配和 Offloading 的优先级。
通过配置不同的策略,系统可以在首字生成和后续生成阶段之间进行动态 trade-off。
4. 与现有 vLLM 实现的对比:
当前 vLLM 的实现是请求级别的显存管理,即在 prefill 阶段,需要一次性为整个请求的上下文长度预留显存。
如果显存不足,vLLM 支持 Offloading 或重新计算(recompute)。
首字生成阶段仍然需要确保显存足够,这可能导致排队等待。
1. ShareGPT 负载测试:
2. 7B 模型测试:
1. 给定模型和硬件条件下:
2. 测试场景:
3. 极限情况:
结语
1. Virtual Tensor:
2. LayerKV:
Q&A
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2026-05-06
谁说 Mac 只能写代码?Google 官宣:M 芯片本地微调 Gemma 4 时代开启!
2026-04-20
用 Unsloth 微调 Embedding 模型,让你的 RAG 检索不再答非所问
2026-04-15
ComfyUI v0.19.0 更新:大量新节点、新模型、新修复与性能优化全面落地,工作流与训练能力再升级
2026-04-13
Agent 持续学习落地路径:先做 Traces,再做 Context,最后才微调模型 | Jinqiu Select
2026-03-23
养死四只龙虾的小白有感
2026-03-22
Mistral Forge 的真正意义:企业AI从“租用”走向“拥有”
2026-03-21
马斯克再次站台Kimi,扒掉了Cursor 500亿估值的底裤
2026-03-19
MiniMax M2.7 炸场!自己训自己,8 项基准硬刚 GPT-5 和 Opus 4.6
2026-03-19
2026-04-15
2026-03-21
2026-03-03
2026-02-13
2026-03-17
2026-03-22
2026-03-23
2026-04-13
2026-04-20
2026-01-02
2025-11-19
2025-09-25
2025-06-20
2025-06-17
2025-05-21
2025-05-17
2025-05-14