微信扫码
添加专属顾问
我要投稿
给Claude Code装上MiniMax M2.5,体验堪比法拉利的工作机性能,国内AI模型正迎来爆发式突破。核心内容:1. MiniMax M2.5在编程和智能体上的卓越表现2. 专为Agent-verse设计的"中枢神经"特性3. 作为下一代数字化办公主力引擎的实战能力
自从我的 Claude 账号被封之后,Claude Code 这个工具就在我这儿沉寂了一段时间。后来在大师和二爷的提示下,我给 CC 加装了 MiniMax 模型。我本来就是 MiniMax 的 Coding Plan 用户,只要在 .claude 目录下配置 setting.json,把 MiniMax 的 API Key 写进去,CC 就可以直接用 MiniMax 的模型了。
之前我一直用 MiniMax M2.1,最近各大厂商 AI 新品频发,MiniMax 也没闲着,他们春节档推出了新一代旗舰 Agentic 模型 M2.5 ,早早给我开了白名单,所以我提前一周就开始用这款新模型了。
之前我在文章里写过中美 AI 技术对比,国内模型厂商正在奋力追赶。今天模型正式发布了,这次 MiniMax M2.5 又向前跨出了一大步。
1
M2.5 要解决什么问题呢?
首先是 Coding & Agentic。就我自己的体感,M2.5 在编程和智能体上的表现,已经可以直接和 Claude Opus 4.6 掰手腕了,后续可以关注下榜单。目前看,用 M2.5 做 Vibe coding,基本可以一口气覆盖 PC、App、跨端应用,前后端加数据库,一整套全栈链路实测下来,是能够落地的开发体验。
第二是 Designed for Agent‑verse:这是一个从一开始就按“智能体原生”去设计的模型。它更像是给 Agent 做的“中枢神经”,天然擅长任务拆解、长链路执行,脚手架泛化能力强,无论是各类现成 agent 框架,还是个人折腾的脚手架和编程工具,都能很快上手。我试了脚手架功能,包括制作自己想要的 Claude Skill,都非常丝滑。
最后是 Workhorse Model,也就是下一代数字化办公的主力生产力引擎。在 Excel 高阶处理、深度搜索调研、长文档摘要(xlsx / pptx / docx 等)这些场景里,已经能和 Opus 同场竞技。更重要的是,它把这种能力下放给了更大范围的用户,让全球更多普通人可以更快享受到顶级模型带来的机会红利,加速知识阶层和社会流动结构的一次重排。
它的工程能力也很强,第三方企业可以直接私有化部署 MiniMax M2.5,激活参数量仅 10B,在显存占用和推理能效比上优势明显。这次的推理效率也增强了,支持 100 TPS 超高吞吐量,推理速度达到了 Opus 的 3 倍。
整体看,我给 Claude Code 加装了 MiniMax M2.5 之后,这套配置不仅像“法拉利”,同时成了我的一台工作机,一点不逊色 Opus。
2
参数不重要,我只看“真实案例”,能力怎么样,还要用起来才知道。
作为一个长期的 CC 和 MiniMax 的用户,我决定认真测一测 M2.5 的能力。
测试环境:macOS + Claude Code + MiniMax M2.5
测试条件:通过 API 调用基于 MiniMax 官方通道,测试项包括编程能力、上下文记忆、响应速度、Agent 能力等功能。所有测试均使用同一 API Key 和接口,排除网络波动干扰。
Case 1:编程能力:生成代码能打几分?
先来一道开胃菜:生成一个 Node.js Express 的任务管理 REST API。
我直接用中文提具体需求,支持任务项的管理、字段验证、分类筛选、优先级排序。结果 M2.5 不到 30 秒就给出了完整代码,包括:
完整的 Express 服务器骨架
express-validator 验证规则
Map 内存存储 + 自增 ID
按优先级排序的 GET 接口
统一的响应格式封装
代码质量在线,结构清晰,注释完整。对于日常的 API 脚手架,M2.5 可以直接交付。
第二步做一个前端任务管理的界面,接入后端的任务管理 REST API。
使用 React 组件实现:包括任务列表,优先级标签、完成复选框的样式。
这次更加惊喜。M2.5 只用了几分钟的时间,就实现了:
优先级颜色映射(高红、中橙、低绿)
删除线 + 透明度变化的完成态
响应式 flex 布局
完整的数据存储能力
直接可在浏览器里跑起来:
颜色选择也挺老道,没有刺眼的大红大绿,实际项目里就能直接使用。
既然这个项目已经挺完善了,那就顺手做个 iOS App 吧。我对 M2.5 说:好的,现在这个项目没问题了,我想基于该项目做一个 iOS App,我们建一个新项目启动吧。
新一轮对话随即开始,没有任何迟疑,几番沟通之后,项目就做好了:
我打开 XCode,打开 M2.5 刚刚生成好的 TaskManagerIOS.xcodeproj,运行,这个完整的程序就出现在了模拟器上:
是不是很神奇?除了正确率和效率之外,你不得不承认,看 Web 和 iOS 端的 UI 设计,M2.5 品味在线。
第三步我选择做一个数据处理相关的项目,用 pandas 处理销售数据,CSV 表格,计算分类汇总 TOP5 和月度趋势。M2.5 的表现有点超出预期:
几个对话下来,M2.5 实现了完整的 SalesAnalyzer 类封装、数据加载、清洗、预处理的流水线设计、groupby + sort_values 的标准操作、百分比占比的衍生计算、可选的 matplotlib 可视化等等。
这下我的兴趣来了,准备直接用 M2.5 “不写一行代码”实现一个 Skills,帮我汇总指定墨问用户发布的公开笔记和统计数据。项目就从下面这个对话开始了:
通过持续的交流和互动,包括 M2.5 帮助我梳理需求,最终完成了这个 Skill,并安装到了 Claude Code 里,其中所有的文档、代码和注释,都是由 M2.5 完成的:
然后我打开在 Claude 这样提问,就可以看到最近墨问创作者的一份数据汇总:
这个创建 Skill 并接入墨问 API 的项目,我用一个小时就搞定了,期间没动过一行代码。项目干净优雅,一次部署成功。
综合使用下来,就 M2.5 的编程能力,我的打分如下:
Case 2:上下文记忆能力——多轮对话不“失忆”,对工程能力非常关键
以前使用大模型,多轮对话,越聊效果越差,其实就是上下文能力不够,多轮对话容易失忆。这次我设计了 4 轮对话:先说“开发任务管理应用”,再要数据库结构,拿到结构后再要建表 SQL。
它在第二轮能理解“任务管理”的常见对象关系;第三轮给出 task + tags 双表;第四轮能直接基于前文生成 SQL,把外键、索引、时间戳这类细节全都搞定了。
没有出现“amnesia”——即模型在长对话中忘记之前讨论的需求细节。这点对实际使用很重要,毕竟没人想每轮都重复背景。
随后我才开始做墨问的 Skill,结果一气呵成,这种上下文记忆能力对真正的 agent 工具链意义很大:如果过几轮都要重复背景,那就不是干活光聊天了;只有多轮上下文能稳定承接,才能变成工作流程。
Case 3:中文处理:母语待遇
国内的模型在中文处理上一直比国外模型更好,说是母语待遇一点也不假。我用 MiniMax 从来只用中文会话,理解上一点问题没有。这次我丢给 M2.5 一个英文 pdf:“A Language For Agents.pdf”,让它总结一下,毫无压力:
然后让它基于这篇文章写一篇短文,大家看看,它写得好,还是我写的好?
3
这几天用下来,我的感觉是,即便我 Claude 账号还在,我也不准备回去了。Claude Code + MiniMax2.5 + 相关 Skill,就可以满足我大部分日常 AI 应用需求。我现在是 MiniMax Coding Plan 的订阅用户,这个套餐比 20 美金的 Claude Pro 可省钱多了,而我几乎无感迁移,那我用 MiniMax M2.5,它不香吗?
这一轮 M2.5 的升级,野心其实不小。MiniMax 想吃下更多编码和多 agent 场景,也想在办公场景和私有化部署场景里,占领用户的心智。
它未必是一个“全面超越”的故事,但中国的模型厂商已经把重心从“能不能做出好看的 demo”、“废老鼻子劲做了个能用的东西”,放到了更现实的一侧:保质保量快速完成用户下达的任务。
当 AI 从舞台走到工位,真正决定体验的,变成了一些极其具体、甚至有点朴素的东西——写代码一次成功,帮你把注释写清楚,多轮记忆不丢,接上现有工具链,给你做个 Skill,最后,踏踏实实把一件事干完。
当这类“踏实感”可以被 Opus 和 M2.5 这种级别的模型在全球范围内反复验证、批量交付时,它带来的除了工具升级,更重要的是,让普通人也有机会真正上手新一代生产工具,从这个起点出发,加快以技术为底色的社会流动和阶层重塑,提升所有人的生产力。
尤其 M2.5,真的是快如闪电 :)
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2026-02-12
AgentRun 实践指南:Agent 的宝藏工具——All-In-One Sandbox
2026-02-12
Higress 已支持全新 Gateway API 及其 AI 推理扩展
2026-02-12
GLM-5 发布:从“写代码”到“写工程”的范式跃迁
2026-02-12
模型能力、提示词、Skill、工作流、Vibe Coding——到底都是什么?
2026-02-12
谷歌Chrome深夜爆更,Agent不用「装」人了!前端最后防线崩了?
2026-02-12
WebMCP:谷歌刚给 Chrome 动了个手术,AI Agent 的玩法全废了
2026-02-12
2026 做 Agent 的正确姿势:单 Agent 起步,Skills 沉淀方法论,MCP 负责连接
2026-02-11
别再存轨迹了:SkillRL 让 Agent 把经验炼成技能,还会自我进化
2026-01-24
2026-01-10
2025-11-19
2026-01-26
2026-01-01
2025-12-09
2025-12-21
2026-01-09
2025-11-15
2026-02-03
2026-02-12
2026-02-12
2026-02-11
2026-02-11
2026-02-11
2026-02-11
2026-02-07
2026-02-04