微信扫码
添加专属顾问
我要投稿
小米大模型Mimo-V2-Flash本地部署指南,手把手教你如何快速上手这款性能强劲的开源模型。 核心内容: 1. Mimo-V2-Flash模型参数与性能对比 2. 部署前的硬件与环境准备 3. 详细Docker部署步骤与命令
话不多说直接开始,模型下载地址:
https://modelscope.cn/models/XiaomiMiMo/MiMo-V2-Flash
https://huggingface.co/XiaomiMiMo/MiMo-V2-Flash
下载完成后,可以看到整个模型文件大小为292G
在众多知名的开源模型中,Mimo-V2-Flash与通义千问3-235B-FP8模型大小比较接近
简单做个对比如下
Mimo-V2-Flash是在FP8上原生训练的,然而Qwen3不是,所以这里仅对比同在FP8下的模型大小
为了环境更纯净,通常来说用docker可能更简单点
我们可以找到sglang最近的dev版本
docker pull lmsysorg/sglang:dev
截止到写稿时,sglang还没有发布正式支持Mimo-V2-Flash的新发布版本
小米牌面不行啊
,DeepSeek每次都是秒发
1.使用下面的启动命令,将容器挂起
docker run -d --gpus all \
--shm-size=32g \
--ipc=host \
--network=host \
--name mimo-v2 \
-v /path/to/huggingface:/root/.cache/huggingface \
lmsysorg/sglang:dev \
bash -c "while true; do sleep 3600; done"2.进入容器
docker exec -it mimo-v2 bash
3.卸载容器内已经安装好的sglang,并安装包含了mimo-v2-flash的sglang
pip uninstall sglang -y
pip install sglang==0.5.6.post2.dev8005+pr.15207.g39d5bd57a \
--index-url https://sgl-project.github.io/whl/pr/ \
--extra-index-url https://pypi.org/simple4.执行下面的命令来启动模型
export SGLANG_ENABLE_SPEC_V2=1
nohup python3 -m sglang.launch_server \
--model-path /root/.cache/huggingface/hub/XiaomiMiMo/MiMo-V2-Flash \
--served-model-name mimo-v2-flash \
--pp-size 1 \
--dp-size 2 \
--enable-dp-attention \
--tp-size 8 \
--moe-a2a-backend deepep \
--page-size 1 \
--trust-remote-code \
--tool-call-parser mimo \
--chunked-prefill-size 16384 \
--reasoning-parser qwen3 \
--context-length 262144 \
--attention-backend fa3 \
--speculative-algorithm EAGLE \
--speculative-num-steps 3 \
--speculative-eagle-topk 1 \
--speculative-num-draft-tokens 4 \
--host 0.0.0.0 \
--port 8000 > app.log 2>&1 &需要注意的是,官网放出的--enable-mtp参数,在H100上无法正常启动,待后续引擎修复
最后我们如果看到下面的日志,就表明启动成功啦!找一个AI客户端来看使用成果
可以看到Decode的速度是非常快的
最快可以达到170tokens/s
平均也达到了110tokens/s,比较惊喜,超过了在默认启动参数下Qwen3-235B
Mimo-V2-Flash是一个支持切换思考和非思考的模型
通过模型卡片描述的接口调用参数明细中得知
curl -i http://localhost:9001/v1/chat/completions \
-H 'Content-Type:application/json' \
-d '{
"messages" : [{
"role": "user",
"content": "Nice to meet you MiMo"
}],
"model": "mimo-v2-flash",
"max_tokens": 4096,
"temperature": 0.8,
"top_p": 0.95,
"stream": true,
"chat_template_kwargs": {
"enable_thinking": true
}
}'Mimo-V2-Flash可以通过下面的参数来控制思考开关
"chat_template_kwargs": {
"enable_thinking": true
}值得注意的是,与其他模型不同,在现阶段本地部署的Mimo-V2-Flash,enable_thinking是必须要传的
否则会导致模型回复的内容直接解析到了思考内容中,如下图所示
这可能是由于目前处在早期版本,sglang使用的通义千问的reasoning-parser导致的问题,待后续修复
在不开启深度思考模式时,目前工具调用可以正常使用
所以在使用时尽量按照官方文档中推荐的采样参数进行设置
IMPORTANT
推荐的采样参数:
top_p=0.95
temperature=0.8 适用于数学、写作、Web 开发
temperature=0.3 适用于自主任务(例如,氛围编码、工具使用)
好啦,这就是Mimo-V2-Flash在Day0的一些本地部署测试
目前还存在一些小bug,应该会在后续版本中修复,随着持续优化也会有更强的性能
接下来一段时间我这边也会持续使用一段时间这个模型
看一下在写作、编程等实际使用场景的效果如何
感谢你看到这里啦!
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2026-03-27
阿里巴巴团队开源,OCR 又来一个高手,第一!
2026-03-27
ollama v0.18.3 发布:VS Code 原生集成 + Agent 模式,本地 AI 开发体验全面革新
2026-03-23
128K Star 的开源 AI 编程 Agent,把 Anthropic 逼到发律师函了
2026-03-23
字节跳动开源 DeerFlow 2.0:下一代超级 Agent 引擎,一键搞定复杂工作流!
2026-03-23
企业中职能部门打工人如何选小龙虾
2026-03-23
MiniMax开源技能包:让AI写代码从大学生变资深工程师
2026-03-22
OxyGent:构建高效能多智能体系统的协作框架
2026-03-22
Ollama绝赞适配World Monitor:无需API密钥的全球情报看板,金融地缘一手掌握!`
2026-01-30
2026-01-27
2026-01-12
2026-01-29
2026-01-27
2026-01-21
2026-01-28
2026-01-06
2026-01-26
2026-01-23
2026-03-17
2026-03-13
2026-03-02
2026-02-05
2026-01-28
2026-01-26
2026-01-21
2026-01-21