免费POC, 零成本试错
AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


我要投稿

我给 Claude Code 加装了 MiniMax M2.5:它像“法拉利”,但更像一台工作机

发布日期:2026-02-12 19:05:38 浏览次数: 1557
作者:MacTalk

微信搜一搜,关注“MacTalk”

推荐语

给Claude Code装上MiniMax M2.5,体验堪比法拉利的工作机性能,国内AI模型正迎来爆发式突破。

核心内容:
1. MiniMax M2.5在编程和智能体上的卓越表现
2. 专为Agent-verse设计的"中枢神经"特性
3. 作为下一代数字化办公主力引擎的实战能力

杨芳贤
53AI创始人/腾讯云(TVP)最具价值专家

自从我的 Claude 账号被封之后,Claude Code 这个工具就在我这儿沉寂了一段时间。后来在大师和二爷的提示下,我给 CC 加装了 MiniMax 模型。我本来就是 MiniMax 的 Coding Plan 用户,只要在 .claude 目录下配置 setting.json,把 MiniMax 的 API Key 写进去,CC 就可以直接用 MiniMax 的模型了。

之前我一直用 MiniMax M2.1,最近各大厂商 AI 新品频发,MiniMax 也没闲着,他们春节档推出了新一代旗舰 Agentic 模型 M2.5 ,早早给我开了白名单,所以我提前一周就开始用这款新模型了。

之前我在文章里写过中美 AI 技术对比,国内模型厂商正在奋力追赶。今天模型正式发布了,这次 MiniMax M2.5 又向前跨出了一大步。

1

M2.5 要解决什么问题呢?

首先是 Coding & Agentic。就我自己的体感,M2.5 在编程和智能体上的表现,已经可以直接和 Claude Opus 4.6 掰手腕了,后续可以关注下榜单。目前看,用 M2.5 做 Vibe coding,基本可以一口气覆盖 PC、App、跨端应用,前后端加数据库,一整套全栈链路实测下来,是能够落地的开发体验。

第二是 Designed for Agent‑verse:这是一个从一开始就按“智能体原生”去设计的模型。它更像是给 Agent 做的“中枢神经”,天然擅长任务拆解、长链路执行,脚手架泛化能力强,无论是各类现成 agent 框架,还是个人折腾的脚手架和编程工具,都能很快上手。我试了脚手架功能,包括制作自己想要的 Claude Skill,都非常丝滑。

最后是 Workhorse Model,也就是下一代数字化办公的主力生产力引擎。在 Excel 高阶处理、深度搜索调研、长文档摘要(xlsx / pptx / docx 等)这些场景里,已经能和 Opus 同场竞技。更重要的是,它把这种能力下放给了更大范围的用户,让全球更多普通人可以更快享受到顶级模型带来的机会红利,加速知识阶层和社会流动结构的一次重排。

它的工程能力也很强,第三方企业可以直接私有化部署 MiniMax M2.5,激活参数量仅 10B,在显存占用和推理能效比上优势明显。这次的推理效率也增强了,支持 100 TPS 超高吞吐量,推理速度达到了 Opus 的 3 倍。

整体看,我给 Claude Code 加装了 MiniMax M2.5 之后,这套配置不仅像“法拉利”,同时成了我的一台工作机,一点不逊色 Opus。

2

参数不重要,我只看“真实案例”,能力怎么样,还要用起来才知道。

作为一个长期的 CC 和 MiniMax 的用户,我决定认真测一测 M2.5 的能力。

测试环境:macOS + Claude Code + MiniMax M2.5

测试条件:通过 API 调用基于 MiniMax 官方通道,测试项包括编程能力、上下文记忆、响应速度、Agent 能力等功能。所有测试均使用同一 API Key 和接口,排除网络波动干扰。

Case 1:编程能力:生成代码能打几分?

先来一道开胃菜:生成一个 Node.js Express 的任务管理 REST API。

我直接用中文提具体需求,支持任务项的管理、字段验证、分类筛选、优先级排序。结果 M2.5 不到 30 秒就给出了完整代码,包括:

  • 完整的 Express 服务器骨架

  • express-validator 验证规则

  • Map 内存存储 + 自增 ID

  • 按优先级排序的 GET 接口

  • 统一的响应格式封装

代码质量在线,结构清晰,注释完整。对于日常的 API 脚手架,M2.5 可以直接交付。

第二步做一个前端任务管理的界面,接入后端的任务管理 REST API。

使用 React 组件实现:包括任务列表,优先级标签、完成复选框的样式。

这次更加惊喜。M2.5 只用了几分钟的时间,就实现了:

  • 优先级颜色映射(高红、中橙、低绿)

  • 删除线 + 透明度变化的完成态

  • 响应式 flex 布局

  • 完整的数据存储能力

直接可在浏览器里跑起来:

颜色选择也挺老道,没有刺眼的大红大绿,实际项目里就能直接使用。

既然这个项目已经挺完善了,那就顺手做个 iOS App 吧。我对 M2.5 说:好的,现在这个项目没问题了,我想基于该项目做一个 iOS App,我们建一个新项目启动吧。

新一轮对话随即开始,没有任何迟疑,几番沟通之后,项目就做好了:

我打开 XCode,打开 M2.5 刚刚生成好的 TaskManagerIOS.xcodeproj,运行,这个完整的程序就出现在了模拟器上:

是不是很神奇?除了正确率和效率之外,你不得不承认,看 Web 和 iOS 端的 UI 设计,M2.5 品味在线。

第三步我选择做一个数据处理相关的项目,用 pandas 处理销售数据,CSV 表格,计算分类汇总 TOP5 和月度趋势。M2.5 的表现有点超出预期:

几个对话下来,M2.5 实现了完整的 SalesAnalyzer 类封装、数据加载、清洗、预处理的流水线设计、groupby + sort_values 的标准操作、百分比占比的衍生计算、可选的 matplotlib 可视化等等。

这下我的兴趣来了,准备直接用 M2.5 “不写一行代码”实现一个 Skills,帮我汇总指定墨问用户发布的公开笔记和统计数据。项目就从下面这个对话开始了:

通过持续的交流和互动,包括 M2.5 帮助我梳理需求,最终完成了这个 Skill,并安装到了 Claude Code 里,其中所有的文档、代码和注释,都是由 M2.5 完成的:

然后我打开在 Claude 这样提问,就可以看到最近墨问创作者的一份数据汇总:

这个创建 Skill 并接入墨问 API 的项目,我用一个小时就搞定了,期间没动过一行代码。项目干净优雅,一次部署成功。

综合使用下来,就 M2.5 的编程能力,我的打分如下:

Case 2:上下文记忆能力——多轮对话不“失忆”,对工程能力非常关键

以前使用大模型,多轮对话,越聊效果越差,其实就是上下文能力不够,多轮对话容易失忆。这次我设计了 4 轮对话:先说“开发任务管理应用”,再要数据库结构,拿到结构后再要建表 SQL。

它在第二轮能理解“任务管理”的常见对象关系;第三轮给出 task + tags 双表;第四轮能直接基于前文生成 SQL,把外键、索引、时间戳这类细节全都搞定了。

没有出现“amnesia”——即模型在长对话中忘记之前讨论的需求细节。这点对实际使用很重要,毕竟没人想每轮都重复背景。

随后我才开始做墨问的 Skill,结果一气呵成,这种上下文记忆能力对真正的 agent 工具链意义很大:如果过几轮都要重复背景,那就不是干活光聊天了;只有多轮上下文能稳定承接,才能变成工作流程。

Case 3:中文处理:母语待遇

国内的模型在中文处理上一直比国外模型更好,说是母语待遇一点也不假。我用 MiniMax 从来只用中文会话,理解上一点问题没有。这次我丢给 M2.5 一个英文 pdf:“A Language For Agents.pdf”,让它总结一下,毫无压力:

然后让它基于这篇文章写一篇短文,大家看看,它写得好,还是我写的好?

3

这几天用下来,我的感觉是,即便我 Claude 账号还在,我也不准备回去了。Claude Code + MiniMax2.5 + 相关 Skill,就可以满足我大部分日常 AI 应用需求。我现在是 MiniMax Coding Plan 的订阅用户,这个套餐比 20 美金的 Claude Pro 可省钱多了,而我几乎无感迁移,那我用 MiniMax M2.5,它不香吗?

这一轮 M2.5 的升级,野心其实不小。MiniMax 想吃下更多编码和多 agent 场景,也想在办公场景和私有化部署场景里,占领用户的心智。

它未必是一个“全面超越”的故事,但中国的模型厂商已经把重心从“能不能做出好看的 demo”、“废老鼻子劲做了个能用的东西”,放到了更现实的一侧:保质保量快速完成用户下达的任务。

当 AI 从舞台走到工位,真正决定体验的,变成了一些极其具体、甚至有点朴素的东西——写代码一次成功,帮你把注释写清楚,多轮记忆不丢,接上现有工具链,给你做个 Skill,最后,踏踏实实把一件事干完。

当这类“踏实感”可以被 Opus 和 M2.5 这种级别的模型在全球范围内反复验证、批量交付时,它带来的除了工具升级,更重要的是,让普通人也有机会真正上手新一代生产工具,从这个起点出发,加快以技术为底色的社会流动和阶层重塑,提升所有人的生产力。

尤其 M2.5,真的是快如闪电 :)

53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询