微信扫码
添加专属顾问
我要投稿
MiniMax M2.5以10B参数实现旗舰级Agent性能,本地推理成本低至1美元/小时,让AI助手永不停机。核心内容: 1. M2.5在编程基准测试SWE-Bench的突破性表现 2. 超小激活参数带来的成本优势与本地化部署案例 3. 真实工作流中多平台Agent并行任务实战演示
2026年春节前这周,可以称为中国 AI 全年成果大展。
一个接一个,根本停不下来。
昨天 MiniMax 也发布了 M2.5,激活参数和 M2.1 一样只有 10B。
M2.1 是小龙虾作者 Peter 最推荐的开源模型。
M2.5 相比 M2.1 是一次快速的进化,在编程领域最具代表性的 SWE-Bench Verified 上,M2 系列的进步速度是所有模型系列里最快的,超过了 Claude、GPT 和 Gemini。
Peter 把 Opus 作为主力模型,MiniMax 作为 fallback,当 Opus 的 token 用完了,自动切换到 MiniMax 继续跑。
而且他不只是云端调用。他在自己的 2 台 Mac Studio 上用 MiniMax 跑本地推理,不依赖模型厂的套餐,完全本地化,龙虾永远不掉线。
能在本地跑起来,靠的是 M2.5 在一系列旗舰模型里,拥有最小的激活参数。
M2.5 的激活参数只有 10B。作为对比,GLM-5 激活 40B,Kimi K2.5 大约 50B,DeepSeek V3.2 大约 30B。
模型的激活参数虽小,但 Agent 能力却不俗,Peter 以及很多🦞用户实测下来,MiniMax 是小龙虾里效果最好的开源模型。
参数小带来的好处是连锁反应:推理速度达到 100 TPS,几乎是主流旗舰模型的两倍。以这个速度连续工作一小时,成本只要 1 美金。如果降到 50 TPS,只要 0.3 美金。
这意味着让一个复杂 Agent 无限运行下去,在经济上变得完全可行了。
M2.5 的工具调用能力非常强悍,在多项工具调用的指标均为头部水平。搜索是 Agent 最常用的工具,MiniMax 为此还自建了一个评测集 RISE(Realistic Interactive Search Evaluation),专门测真实专业任务上的搜索能力。
相比 M2.1 的提升也非常明显。在 BrowseComp、Wide Search、RISE 多项任务上,M2.5 用更少的搜索轮次拿到了更好的结果,轮次消耗少了大约 20%。模型学会了用更短的路径逼近答案。
海外开发者 Tom Osman 用 Clawdbot × MiniMax 重构日常工作流。他在 Telegram、Slack、WhatsApp、iMessage 上都部署了龙虾,通过语音或文字随时下指令。一个典型的工作日里,他会让龙虾分析网站、调研信息、撰写博客、更新元数据、起草社交帖子、发送邮件,所有任务并行跑,他只需要在不同的 Agent 之间切换对话。
他对 MiniMax 的评价是:在工具调用方面表现非常出色,而且相当准确。用的是每月 10 美金的 Coding Plan,用量远没到上限。
10B 的尺寸天然适合这类场景。Agent 要 7×24 小时不停地跑,模型越小,持续运行的成本越低,可行性越高。龙虾作者 Peter 选 MiniMax 做 Opus 的 fallback,本质上就是看中了这一点:
当你需要一个 Agent 一直跑下去的时候,10B 的模型能让你真的跑得起。
在我的实际测试中,我让 Minimax M2.5 来跑一个测试任务。
去监控一下每天有哪些热度最高的小龙虾的 skill,它完成得非常好。
编程方面,M2.5 相比 M2.1 的进步巨大,SWE-bench Verified 80.2%,Multi-SWE-Bench 51.3% 拿了全行业第一。
在提升能力的同时,还同时提升了推理速度。端到端完成 SWE-bench 任务从 M2.1 的 31.3 分钟降到 22.8 分钟,快了 37%,跟 Opus 4.6 的 22.9 分钟几乎一样。每个任务的 token 消耗从 3.72M 降到 3.52M。变快了,还变省了。
还有个很有趣的点是 M2.5 在不同编程客户端里的泛用性很强。在 Droid 上跑 SWE-Bench,M2.5 是 79.7(Opus 4.6 是 78.9);在 OpenCode 上是 76.1(Opus 4.6 是 75.9),这样也就不太依赖 Claude Code 这而已的闭源脚手架了。
能提升对 OpenCode 的支持真的是很好的一件事。
OpenCode 是 Claude Code 的开源平替,安装简单,上手容易。
而且里面的 MiniMax M2.5 是限时免费的,都不需要配置。
我让它写了一个 2026 年的春运实时监控,每小时自动监控并更新网页,得到的网页是这样的:
MiniMax 给 M2.5 的定位是真实世界的好同事。
这是因为 Agent 是未来软件的使用者,是每个团队里都会有的新同事。
这个转变一旦发生,对模型的要求就彻底变了。
自主 Agent 时代,Agent 要 7×24 小时不停地跑,一天几百次推理调用,你在乎的是:能力够不够用、速度快不快、成本扛不扛得住。
那雇佣 Agent 一年大概需要多少钱呢?
M2.5 有两个版本,快速版本在以每秒输出 100 个 token 的情况下,连续工作一小时只需要 1 美金,而慢速版在每秒输出 50 个 token 的情况下,只需要 0.3 美金。
算下来,雇佣 Agent 让它们 7x24 地工作,每个 Agent 的月薪才 200 美金,你只需要花一万美金,就能获得四个永不休息的同事。
未来几年算力供给是线性增长,需求是指数增长,Token 只会越来越稀缺。
在这个大背景下,自主 Agent 时代能 7x24 持续运转极为重要。
因为只有这样,Agent 才能走向真实世界,成为你真正的同事。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2026-02-14
如果你还在犹豫要不要尝试 OpenClaw,试试这个 App 一键部署方案
2026-02-14
2.1K Star!这个 Claude Skills 技能库,给 AI 编程助手装上了 66 颗专家大脑!
2026-02-14
全网都在猜DeepSeek V4的发布时间,但国产模型激战还有一条暗线
2026-02-13
开源:参考OpenClaw,我们给 Claude Code 加上了轻量化的永久透明记忆
2026-02-13
爆火的 OpenClaw,正在重新定价所有 AI 创业赛道
2026-02-13
OpenClaw走红背后:当AI助手拥有你的邮箱和硬盘访问权
2026-02-13
OpenClaw 接入 GLM5/MiniMax M2.5 简易教程,来了
2026-02-12
超强开源 OCR 模型彻底颠覆了商业 OCR:轻量 0.9B 参数、多项能力达到了 SOTA 水平
2025-11-19
2026-01-27
2026-01-29
2026-01-12
2026-01-30
2025-12-22
2026-02-06
2025-11-17
2025-12-10
2026-01-28
2026-02-11
2026-02-05
2026-01-28
2026-01-26
2026-01-21
2026-01-21
2026-01-20
2026-01-16