我要投稿

我给 Claude Code 加装了 MiniMax M2.5：它像“法拉利”，但更像一台工作机

发布日期：2026-02-12 19:05:38 浏览次数： 1557

作者：MacTalk

微信搜一搜，关注“MacTalk”

自从我的 Claude 账号被封之后，Claude Code 这个工具就在我这儿沉寂了一段时间。后来在大师和二爷的提示下，我给 CC 加装了 MiniMax 模型。我本来就是 MiniMax 的 Coding Plan 用户，只要在 .claude 目录下配置 setting.json，把 MiniMax 的 API Key 写进去，CC 就可以直接用 MiniMax 的模型了。

之前我一直用 MiniMax M2.1，最近各大厂商 AI 新品频发，MiniMax 也没闲着，他们春节档推出了新一代旗舰 Agentic 模型 M2.5 ，早早给我开了白名单，所以我提前一周就开始用这款新模型了。

之前我在文章里写过中美 AI 技术对比，国内模型厂商正在奋力追赶。今天模型正式发布了，这次 MiniMax M2.5 又向前跨出了一大步。

M2.5 要解决什么问题呢？

首先是 Coding & Agentic。就我自己的体感，M2.5 在编程和智能体上的表现，已经可以直接和 Claude Opus 4.6 掰手腕了，后续可以关注下榜单。目前看，用 M2.5 做 Vibe coding，基本可以一口气覆盖 PC、App、跨端应用，前后端加数据库，一整套全栈链路实测下来，是能够落地的开发体验。

第二是 Designed for Agent‑verse：这是一个从一开始就按“智能体原生”去设计的模型。它更像是给 Agent 做的“中枢神经”，天然擅长任务拆解、长链路执行，脚手架泛化能力强，无论是各类现成 agent 框架，还是个人折腾的脚手架和编程工具，都能很快上手。我试了脚手架功能，包括制作自己想要的 Claude Skill，都非常丝滑。

最后是 Workhorse Model，也就是下一代数字化办公的主力生产力引擎。在 Excel 高阶处理、深度搜索调研、长文档摘要（xlsx / pptx / docx 等）这些场景里，已经能和 Opus 同场竞技。更重要的是，它把这种能力下放给了更大范围的用户，让全球更多普通人可以更快享受到顶级模型带来的机会红利，加速知识阶层和社会流动结构的一次重排。

它的工程能力也很强，第三方企业可以直接私有化部署 MiniMax M2.5，激活参数量仅 10B，在显存占用和推理能效比上优势明显。这次的推理效率也增强了，支持 100 TPS 超高吞吐量，推理速度达到了 Opus 的 3 倍。

整体看，我给 Claude Code 加装了 MiniMax M2.5 之后，这套配置不仅像“法拉利”，同时成了我的一台工作机，一点不逊色 Opus。

参数不重要，我只看“真实案例”，能力怎么样，还要用起来才知道。

作为一个长期的 CC 和 MiniMax 的用户，我决定认真测一测 M2.5 的能力。

测试环境：macOS + Claude Code + MiniMax M2.5

测试条件：通过 API 调用基于 MiniMax 官方通道，测试项包括编程能力、上下文记忆、响应速度、Agent 能力等功能。所有测试均使用同一 API Key 和接口，排除网络波动干扰。

Case 1：编程能力：生成代码能打几分？

先来一道开胃菜：生成一个 Node.js Express 的任务管理 REST API。

我直接用中文提具体需求，支持任务项的管理、字段验证、分类筛选、优先级排序。结果 M2.5 不到 30 秒就给出了完整代码，包括：

完整的 Express 服务器骨架
express-validator 验证规则
Map 内存存储 + 自增 ID
按优先级排序的 GET 接口
统一的响应格式封装

代码质量在线，结构清晰，注释完整。对于日常的 API 脚手架，M2.5 可以直接交付。

第二步做一个前端任务管理的界面，接入后端的任务管理 REST API。

使用 React 组件实现：包括任务列表，优先级标签、完成复选框的样式。

这次更加惊喜。M2.5 只用了几分钟的时间，就实现了：

优先级颜色映射（高红、中橙、低绿）
删除线 + 透明度变化的完成态
响应式 flex 布局
完整的数据存储能力

直接可在浏览器里跑起来：

颜色选择也挺老道，没有刺眼的大红大绿，实际项目里就能直接使用。

既然这个项目已经挺完善了，那就顺手做个 iOS App 吧。我对 M2.5 说：好的，现在这个项目没问题了，我想基于该项目做一个 iOS App，我们建一个新项目启动吧。

新一轮对话随即开始，没有任何迟疑，几番沟通之后，项目就做好了：

我打开 XCode，打开 M2.5 刚刚生成好的 TaskManagerIOS.xcodeproj，运行，这个完整的程序就出现在了模拟器上：

是不是很神奇？除了正确率和效率之外，你不得不承认，看 Web 和 iOS 端的 UI 设计，M2.5 品味在线。

第三步我选择做一个数据处理相关的项目，用 pandas 处理销售数据，CSV 表格，计算分类汇总 TOP5 和月度趋势。M2.5 的表现有点超出预期：

几个对话下来，M2.5 实现了完整的 SalesAnalyzer 类封装、数据加载、清洗、预处理的流水线设计、groupby + sort_values 的标准操作、百分比占比的衍生计算、可选的 matplotlib 可视化等等。

这下我的兴趣来了，准备直接用 M2.5 “不写一行代码”实现一个 Skills，帮我汇总指定墨问用户发布的公开笔记和统计数据。项目就从下面这个对话开始了：

通过持续的交流和互动，包括 M2.5 帮助我梳理需求，最终完成了这个 Skill，并安装到了 Claude Code 里，其中所有的文档、代码和注释，都是由 M2.5 完成的：

然后我打开在 Claude 这样提问，就可以看到最近墨问创作者的一份数据汇总：

这个创建 Skill 并接入墨问 API 的项目，我用一个小时就搞定了，期间没动过一行代码。项目干净优雅，一次部署成功。

综合使用下来，就 M2.5 的编程能力，我的打分如下：

Case 2：上下文记忆能力——多轮对话不“失忆”，对工程能力非常关键

以前使用大模型，多轮对话，越聊效果越差，其实就是上下文能力不够，多轮对话容易失忆。这次我设计了 4 轮对话：先说“开发任务管理应用”，再要数据库结构，拿到结构后再要建表 SQL。

它在第二轮能理解“任务管理”的常见对象关系；第三轮给出 task + tags 双表；第四轮能直接基于前文生成 SQL，把外键、索引、时间戳这类细节全都搞定了。

没有出现“amnesia”——即模型在长对话中忘记之前讨论的需求细节。这点对实际使用很重要，毕竟没人想每轮都重复背景。

随后我才开始做墨问的 Skill，结果一气呵成，这种上下文记忆能力对真正的 agent 工具链意义很大：如果过几轮都要重复背景，那就不是干活光聊天了；只有多轮上下文能稳定承接，才能变成工作流程。

Case 3：中文处理：母语待遇

国内的模型在中文处理上一直比国外模型更好，说是母语待遇一点也不假。我用 MiniMax 从来只用中文会话，理解上一点问题没有。这次我丢给 M2.5 一个英文 pdf：“A Language For Agents.pdf”，让它总结一下，毫无压力：

然后让它基于这篇文章写一篇短文，大家看看，它写得好，还是我写的好？

这几天用下来，我的感觉是，即便我 Claude 账号还在，我也不准备回去了。Claude Code + MiniMax2.5 + 相关 Skill，就可以满足我大部分日常 AI 应用需求。我现在是 MiniMax Coding Plan 的订阅用户，这个套餐比 20 美金的 Claude Pro 可省钱多了，而我几乎无感迁移，那我用 MiniMax M2.5，它不香吗？