我要投稿

MiniMax悄悄发布M2，8%价格打出Claude级性能

发布日期：2025-10-27 18:33:05 浏览次数： 3653

作者：夕小瑶科技说

微信搜一搜，关注“夕小瑶科技说”

周末，我刷到 MiniMax Agent 海外版悄悄上新了 M2 模型。当时正在看别的东西，没在意。

直到打开 Artificial Analysis 一看——

智能指数排名第五。

前面四个是 GPT-5、Grok 4、Claude 4.5，都是顶流。M2 拿了 61 分，前五里面唯一的国产模型。

然后我看到价格排名，我愣了——

M2 是 Claude 4.5 价格的 1/12，是 GPT-5 的 1/7。关键是速度还挺快。

Artificial Analysis 是业内权威的评测平台，三个维度：智能水平、速度、价格，基本能反映一个模型的综合实力。M2 三项在第一梯队里表现不俗。这已经够炸了。

结果今天中午，MiniMax 又扔下一颗更大的炸弹：MiniMax-M2，正式开源了。

我只想说。。。MiniMax，你还让别人活吗？

要知道，大模型圈也有个「不可能三角」：智能水平、运行速度、使用价格，通常只能选两个。但这一次，M2 凭一己之力，把不可能三角给撕碎了。

开源、顶配、平价、快，开源限时免费！怎么能不激动？

榜单数据

别急着质疑，我们看看具体的榜单表现。

我们先看 M2 最核心的一项能力：编程。

SWE-bench Verified 是业内公认的最能反映真实软件工程能力的测试，M2 拿下了 69.4 分，直接压过 DeepSeek、Kimi、GLM，仅次于 GPT-5 和 Claude，算是国产模型第一次在真实编程任务上稳定进入第一梯队。

Terminal-Bench 是最能体现实战价值的测试，考验模型能否在终端环境下完成任务。M2 得分 46.3 分，仅次于 Claude 4.5，实用性很强。

综合来看，M2 的编程可能比某些更贵的模型还要稳定。

那另一个主打能力——agentic 能力。

τ²-Bench 测试的是模型在复杂工具调用场景下的表现。M2 拿下 77.2 分，国产模型中排名第一，虽然和 Claude Sonnet 4.5、GPT-5 还有点差距。

GAIA (text only) 则是一个强调真实世界问题解决能力的基准测试，M2 拿了 75.7 分，同样是国产模型第一，和 GPT-5 (76.4)差距非常小。

M2 还有一个比较突出的能力——深度搜索。

BrowseComp 是测试模型能否通过浏览器搜索、导航、提取信息来完成任务。xbench-DeepSearch 从名字就能看出来，专门测试深度搜索能力——不是简单的一次搜索，而是多轮迭代、逐步深入的信息挖掘。

两个榜单的表现 M2 同样也是稳定的 top 发挥。FinSearchComp-global 是字节推出的金融搜索基准，考验专业领域的检索和分析能力。M2 更是爆力登顶，65.5 分分，全球第一。

要知道，金融搜索是最难的场景之一。因为它涉及大量模糊指令、日期判断、信息整合与非结构化决策。没有真正的推理能力和上下文稳定性，是扛不住的。M2 还是很稳的。

当然，在大模型行业，性能早已不是唯一维度。真正掏腰包的开发者和企业看重的，是一个更冷酷的指标：性价比。

先看 MiniMax-M2 的价格：输入：＄0.3/M，输出：＄1.2/M

远远低于同类竞品。但光看价格没意义，得结合能力一起看。

第一张图：智能水平 vs. 价格

横轴是价格（越往右越便宜），纵轴是智能指数（越往上越聪明）。绿色区域是最优象限——又聪明又便宜。

图中那个红点，就是 MiniMax-M2。它明确落在绿色区域的右上角——在目前这张图里，没有哪一款模型能在"智能水平"和"价格"两个维度上同时压过 M2。

第二张图：输出速度 vs. 价格

横轴还是价格，纵轴是输出速度（每秒生成多少 token）。

M2 的红点同样在绿色区域的右上角——约 100 tokens/s 的速度，配上全场最低的价格。Claude 4.5 Haiku 速度更快（120 TPS），但价格贵了 4 倍多。DeepSeek 价格接近，但速度只有 M2 的 1/4。

这两张图说明了什么？就是我开头说的“智能水平、速度、价格的不可能三角被 M2 打破了”。尤其是性价比具有压倒性优势。

实测

说了这么多榜单，其实我心里也没底。所以周末两天，我就一直在测 M2。

先说一下，M2 现在已经可以接入主流的开发工具了——Claude Code、Cursor、Cline、Kilo Code、Roo Code、Grok CLI、Codex CLI、Gemini CLI、Droid 都支持。

我主要用的是 Claude Code 和 Cursor，因为这俩我比较熟。

这次就以 Claude Code 为例，手把手带着大家把 MiniMax-M2 接进来。

首先你需要安装好 Claude Code，没有的同学可以按官方文档一步步来，不复杂。

https://docs.claude.com/en/docs/claude-code/setup

接下来，关键一步是配置 MiniMax 的 API 接口。

MiniMax API 从这里获取：https://platform.minimaxi.com/user-center/basic-information/interface-key

然后打开你的 ~/.claude/settings.json 文件，把下面这段复制进去，然后把 <MINIMAX_API_KEY> 替换成你在 MiniMax 平台拿到的 Key。

{  
  "env": {  
    "ANTHROPIC_BASE_URL": "https://api.minimaxi.com/anthropic",  
    "ANTHROPIC_AUTH_TOKEN": "<MINIMAX_API_KEY>",  
    "API_TIMEOUT_MS": "3000000",  
    "CLAUDE_CODE_DISABLE_NONESSENTIAL_TRAFFIC": 1,  
    "ANTHROPIC_MODEL": "MiniMax-M2",  
    "ANTHROPIC_SMALL_FAST_MODEL": "MiniMax-M2"  
  }  
}

配置完之后，在终端里跑一句命令：

claude

选择「Yes, I trust this folder」，MiniMax-M2 就准备就绪了。

不放心的话，你也可以再测试一下。在终端输入 who are you, your version，只要看到这句：

就能开始在 Claude Code 里愉快使用 MiniMax-M2 写代码了。

我整整测了一天，Claude Code + MiniMax-M2 的组合体验非常顺畅，几乎和 Claude 自家的模型没差。

我们来几组 Claude code 上跑出来的 case。

比如说，让 M2 开发一款日程管理的 iOS APP。

不是，完成度这么高？这真不是哪个成熟的软件？？感觉我可以把 minical 卸载了。。

然后我还想做一个更「AI 原生」的 App。

灵感来自最近我朋友在做心理咨询配对，我就想做一个：

做一个网页，输入生日、星座、MBTI 类型和三条感情经历，它就自动给出配对建议（包括不要碰的雷区类型）、互动建议（第一句开场白、约会不要提的话题）和 AI 模拟情侣聊天对话。

我试了下，没有遗漏需求，功能完备，交互也非常丝滑。

当然，如果你是编程纯小白，连 IDE 都没碰过、代码也看不懂，那也别担心。

MiniMax Agent 已经全面接入 M2 模型，完全不需要写一行代码，就能完成复杂任务。

M2 agent 的传送门：

海外版：
https://agent.minimax.io/
国内版：
https://matrix-pre.xaminim.com/

更好的消息是，目前 MiniMax-M2 模型 API + Minimax Agent 全面限免，全球免费试用 14 天！

MiniMax 太豪了（感动）。妈妈再也不用担心，我的 agent 积分一不小心就清零了。

来几组我用 agent 跑出来的 case。

先来设计一个“末日决策”类互动网页游戏：玩家扮演一名 AI 指挥官，需要在 5 分钟内决定是否摧毁地球，每一个选择都会导致剧情分支（至少 4 条主线，12 个结局）。

不到两分钟，他就会直接给你一个网页。

首页界面做得有模有样，12 种结局、倒计时系统、音效控制、威胁等级全都配齐。

再点进游戏内部，甚至还有分支剧情控制台，每个选项都嵌套了后果逻辑、行动时长与风险评级。

大家想自己解锁一下结局的可以点这个链接：https://gk8qr2fo9f8n.space.minimax.io/（需要魔法）

当然，我还可以让 Agent 再做一个 web dev 的活：做一个可以“匿名许愿”的网页。

我只输入一句话，它立刻调起 Supabase 项目，自动完成数据库连接、前端页面开发、后端部署，全流程一把梭，不需要我写一行代码：

非常轻松，一个完整上线的「匿名许愿墙」就生成好了，支持实时添加心愿、多人协同、数据库储存。每条愿望都用不同颜色的便签展示，搭配手写字体，鼠标滑过还有轻微抖动的交互动画。

欢迎大家一起来许愿：https://w6b3erphpbtw.space.minimax.io/（需要魔法）

体验完网页搭建，我们来看看 MiniMax-M2 在 Agent 领域的另一个杀手锏——全球第一的金融 deep research 能力。

我先抛了一个极模糊的需求过去试试，prompt 很模糊：

prompt：我想写一篇关于黄金价格波动的文献综述，现在还没有定好题目

M2 直接启动了搜索代理，重点看参考文献。

检索了100多篇权威资料，芝加哥联储的工作论文（2021）、Journal of Economic Behavior & Organization（2025）、Energy Economics（2021）、摩根大通的市场报告（2025）、OECD 的政策分析（2022）……

从学术期刊到央行报告，从经济学顶刊到投行研究，来源都是真实可查的高质量文献。

而且每一段落都明确标注了引用来源，终于不是假论文了。（拿 AI 写论文的应该都懂这句话的含金量。

我再换一个现实场景，测测它在“生活 agent”方向的能力。

我又扔过去一个非常具体的任务：

prompt：我在北京，这是一张 90 平两居室户型图。帮我做一个 15 万元以内的装修预算方案，风格为简约现代。要求：1.输出详细预算表（含区域、面积、材料、单价、备注）2. 生成 PDF 和一张 3D 布局草图（俯视简约风）。

MiniMax-M2 立刻解析了整张户型图，结合北京地区均价，列出包含客厅、卧室、厨房、卫生间等区域的预算明细表，涵盖材料选择、面积计算、单价估算。

甚至每个区域装修建议都有备注说明。非常接近真实家装公司的交付标准。

接下来它又调用了 image_gen 工具。

按照“俯视角 + 简约现代风”这类设计师级指令，自动生成了一张拟真度很高的 3D 布局草图。

整个过程中无需我干预任何细节。多轮对话 + 工具组合 + 搜索整合，一气呵成。

MiniMax-M2 在这类复杂、结构化的生活任务中，表现出的理解力、调度力和交付力，已经非常接近顶级闭源模型，甚至在某些链条任务上略胜一筹。

众所周知，MiniMax 一直以多模态能力强悍著称。

那我们也必须拿它的看家本领——多模态 Agent，来做最后一次压轴测试。

我们做了一个由 AI 讲述的「敦煌石窟之旅」。

https://25x5jf5vvauh.space.minimax.io/（需要魔法）

MiniMax-M2 接到指令后，自动完成了整场“导览”：

它先检索并筛选出 10 幅最具代表性的敦煌壁画图像，随后为每一幅生成讲解文案，语气贴近博物馆导览，内容准确自然。接着调用自家的语音模型，将文字转化为带呼吸感、语调流畅的解说音频；音频之间还会自动衔接，形成连续的讲解路径，仿佛你正一步步走过真实的石窟。

一句话，MiniMax 自动完成从图像、文案到语音的整合输出，网页开箱即用。多模态整合能力，还得是 MiniMax。

这才是我心中未来的多模态 Agent 应有的样子。

看完这些 case，大家是不是已经跃跃欲试了？

从 Claude Code 到通用 Agent，MiniMax-M2 给我的感受只有一个：门槛，真的低了。

以前大家总说“AI 很强”，但多数人用不上。因为强的门槛高，好用的又太弱。

而 MiniMax-M2 这波，真的把「强」与「用」合在了一起。

如果说过去的大模型像一辆停在高速上的超跑——跑得快，但你不一定能开。

那现在的 M2，更像是一台全自动驾驶的智能车，坐上去说句话，它就能载你抵达目的地。

而且，还是全网最低油耗。

它给了每个普通人一次真正上手 AI 的机会，也许你写不出 prompt、做不了产品，但你说得出想法，这就够了。

剩下的，让 MiniMax-M2 来搞定。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业