免费POC, 零成本试错
AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


MiniMax悄悄发布M2,8%价格打出Claude级性能

发布日期:2025-10-27 18:33:05 浏览次数: 1580
作者:夕小瑶科技说

微信搜一搜,关注“夕小瑶科技说”

推荐语

国产大模型M2以1/12的价格实现Claude级性能,开源限时免费引爆AI圈!

核心内容:
1. M2模型在智能指数排名第五,编程能力稳居第一梯队
2. 以超低价实现"不可能三角":高性能、快速度、低成本
3. 在金融搜索等专业领域表现突出,多项测试全球第一

杨芳贤
53AI创始人/腾讯云(TVP)最具价值专家

周末,我刷到 MiniMax Agent 海外版悄悄上新了 M2 模型。当时正在看别的东西,没在意。

直到打开 Artificial Analysis 一看——

智能指数排名第五。

前面四个是 GPT-5、Grok 4、Claude 4.5,都是顶流。M2 拿了 61 分,前五里面唯一的国产模型。

然后我看到价格排名,我愣了——

M2 是 Claude 4.5 价格的 1/12,是 GPT-5 的 1/7。关键是速度还挺快。

Artificial Analysis 是业内权威的评测平台,三个维度:智能水平、速度、价格,基本能反映一个模型的综合实力。M2 三项在第一梯队里表现不俗。这已经够炸了。

结果今天中午,MiniMax 又扔下一颗更大的炸弹:MiniMax-M2,正式开源了。

我只想说。。。MiniMax,你还让别人活吗?

要知道,大模型圈也有个「不可能三角」:智能水平、运行速度、使用价格,通常只能选两个。但这一次,M2 凭一己之力,把不可能三角给撕碎了。

开源、顶配、平价、快,开源限时免费!怎么能不激动?

榜单数据

别急着质疑,我们看看具体的榜单表现。

我们先看 M2 最核心的一项能力:编程

SWE-bench Verified 是业内公认的最能反映真实软件工程能力的测试,M2 拿下了 69.4 分,直接压过 DeepSeek、Kimi、GLM,仅次于 GPT-5 和 Claude,算是国产模型第一次在真实编程任务上稳定进入第一梯队。

Terminal-Bench 是最能体现实战价值的测试,考验模型能否在终端环境下完成任务。M2 得分 46.3 分,仅次于 Claude 4.5,实用性很强。

综合来看,M2 的编程可能比某些更贵的模型还要稳定。

那另一个主打能力——agentic 能力

τ²-Bench 测试的是模型在复杂工具调用场景下的表现。M2 拿下 77.2 分,国产模型中排名第一,虽然和 Claude Sonnet 4.5、GPT-5 还有点差距。

GAIA (text only) 则是一个强调真实世界问题解决能力的基准测试,M2 拿了 75.7 分,同样是国产模型第一,和 GPT-5 (76.4)差距非常小。

M2 还有一个比较突出的能力——深度搜索

BrowseComp 是测试模型能否通过浏览器搜索、导航、提取信息来完成任务。xbench-DeepSearch 从名字就能看出来,专门测试深度搜索能力——不是简单的一次搜索,而是多轮迭代、逐步深入的信息挖掘。

两个榜单的表现 M2 同样也是稳定的 top 发挥。FinSearchComp-global 是字节推出的金融搜索基准,考验专业领域的检索和分析能力。M2 更是爆力登顶,65.5 分分,全球第一。

要知道,金融搜索是最难的场景之一。因为它涉及大量模糊指令、日期判断、信息整合与非结构化决策。没有真正的推理能力和上下文稳定性,是扛不住的。M2 还是很稳的。

当然,在大模型行业,性能早已不是唯一维度。真正掏腰包的开发者和企业看重的,是一个更冷酷的指标:性价比

先看 MiniMax-M2 的价格:输入:$0.3/M,输出:$1.2/M

远远低于同类竞品。但光看价格没意义,得结合能力一起看。

第一张图:智能水平 vs. 价格

横轴是价格(越往右越便宜),纵轴是智能指数(越往上越聪明)。绿色区域是最优象限——又聪明又便宜。

图中那个红点,就是 MiniMax-M2。它明确落在绿色区域的右上角——在目前这张图里,没有哪一款模型能在"智能水平"和"价格"两个维度上同时压过 M2。

第二张图:输出速度 vs. 价格

横轴还是价格,纵轴是输出速度(每秒生成多少 token)。

M2 的红点同样在绿色区域的右上角——约 100 tokens/s 的速度,配上全场最低的价格。Claude 4.5 Haiku 速度更快(120 TPS),但价格贵了 4 倍多。DeepSeek 价格接近,但速度只有 M2 的 1/4。

这两张图说明了什么?就是我开头说的“智能水平、速度、价格的不可能三角被 M2 打破了”。尤其是性价比具有压倒性优势。

实测

说了这么多榜单,其实我心里也没底。所以周末两天,我就一直在测 M2。

先说一下,M2 现在已经可以接入主流的开发工具了——Claude Code、Cursor、Cline、Kilo Code、Roo Code、Grok CLI、Codex CLI、Gemini CLI、Droid 都支持。

我主要用的是 Claude Code 和 Cursor,因为这俩我比较熟。

这次就以 Claude Code 为例,手把手带着大家把 MiniMax-M2 接进来。

首先你需要安装好 Claude Code,没有的同学可以按官方文档一步步来,不复杂。

https://docs.claude.com/en/docs/claude-code/setup

接下来,关键一步是配置 MiniMax 的 API 接口。

MiniMax API 从这里获取:https://platform.minimaxi.com/user-center/basic-information/interface-key

然后打开你的 ~/.claude/settings.json 文件,把下面这段复制进去,然后把 <MINIMAX_API_KEY> 替换成你在 MiniMax 平台拿到的 Key。

{  
  "env": {  
    "ANTHROPIC_BASE_URL""https://api.minimaxi.com/anthropic",  
    "ANTHROPIC_AUTH_TOKEN""<MINIMAX_API_KEY>",  
    "API_TIMEOUT_MS""3000000",  
    "CLAUDE_CODE_DISABLE_NONESSENTIAL_TRAFFIC"1,  
    "ANTHROPIC_MODEL""MiniMax-M2",  
    "ANTHROPIC_SMALL_FAST_MODEL""MiniMax-M2"  
  }  
}  

配置完之后,在终端里跑一句命令:

claude  

选择「Yes, I trust this folder」,MiniMax-M2 就准备就绪了。

不放心的话,你也可以再测试一下。在终端输入 who are you, your version,只要看到这句:

就能开始在 Claude Code 里愉快使用 MiniMax-M2 写代码了。

我整整测了一天,Claude Code + MiniMax-M2 的组合体验非常顺畅,几乎和 Claude 自家的模型没差。

我们来几组 Claude code 上跑出来的 case。

比如说,让 M2 开发一款日程管理的 iOS APP。

不是,完成度这么高?这真不是哪个成熟的软件??感觉我可以把 minical 卸载了。。

然后我还想做一个更「AI 原生」的 App。

灵感来自最近我朋友在做心理咨询配对,我就想做一个:

做一个网页,输入生日、星座、MBTI 类型和三条感情经历,它就自动给出配对建议(包括不要碰的雷区类型)、互动建议(第一句开场白、约会不要提的话题)和 AI 模拟情侣聊天对话。

我试了下,没有遗漏需求,功能完备,交互也非常丝滑。

当然,如果你是编程纯小白,连 IDE 都没碰过、代码也看不懂,那也别担心。

MiniMax Agent 已经全面接入 M2 模型,完全不需要写一行代码,就能完成复杂任务。

M2 agent 的传送门:

海外版:
https://agent.minimax.io/

国内版
https://matrix-pre.xaminim.com/

更好的消息是,目前 MiniMax-M2 模型 API + Minimax Agent 全面限免,全球免费试用 14 天!

MiniMax 太豪了(感动)。妈妈再也不用担心,我的 agent 积分一不小心就清零了。

来几组我用 agent 跑出来的 case。

先来设计一个“末日决策”类互动网页游戏:玩家扮演一名 AI 指挥官,需要在 5 分钟内决定是否摧毁地球,每一个选择都会导致剧情分支(至少 4 条主线,12 个结局)。

不到两分钟,他就会直接给你一个网页。

首页界面做得有模有样,12 种结局、倒计时系统、音效控制、威胁等级全都配齐。

再点进游戏内部,甚至还有分支剧情控制台,每个选项都嵌套了后果逻辑、行动时长与风险评级。

大家想自己解锁一下结局的可以点这个链接:https://gk8qr2fo9f8n.space.minimax.io/(需要魔法)

当然,我还可以让 Agent 再做一个 web dev 的活:做一个可以“匿名许愿”的网页。

我只输入一句话,它立刻调起 Supabase 项目,自动完成数据库连接、前端页面开发、后端部署,全流程一把梭,不需要我写一行代码:

非常轻松,一个完整上线的「匿名许愿墙」就生成好了,支持实时添加心愿、多人协同、数据库储存。每条愿望都用不同颜色的便签展示,搭配手写字体,鼠标滑过还有轻微抖动的交互动画。

欢迎大家一起来许愿:https://w6b3erphpbtw.space.minimax.io/(需要魔法)

体验完网页搭建,我们来看看 MiniMax-M2 在 Agent 领域的另一个杀手锏——全球第一的金融 deep research 能力。

我先抛了一个极模糊的需求过去试试,prompt 很模糊:

prompt:我想写一篇关于黄金价格波动的文献综述,现在还没有定好题目

M2 直接启动了搜索代理,重点看参考文献。

检索了100多篇权威资料,芝加哥联储的工作论文(2021)、Journal of Economic Behavior & Organization(2025)、Energy Economics(2021)、摩根大通的市场报告(2025)、OECD 的政策分析(2022)……

从学术期刊到央行报告,从经济学顶刊到投行研究,来源都是真实可查的高质量文献

而且每一段落都明确标注了引用来源,终于不是假论文了。(拿 AI 写论文的应该都懂这句话的含金量。

我再换一个现实场景,测测它在“生活 agent”方向的能力。

我又扔过去一个非常具体的任务:

prompt:我在北京,这是一张 90 平两居室户型图。帮我做一个 15 万元以内的装修预算方案,风格为简约现代。要求:1.输出详细预算表(含区域、面积、材料、单价、备注)2. 生成 PDF 和一张 3D 布局草图(俯视简约风)。

MiniMax-M2 立刻解析了整张户型图,结合北京地区均价,列出包含客厅、卧室、厨房、卫生间等区域的预算明细表,涵盖材料选择、面积计算、单价估算。

甚至每个区域装修建议都有备注说明。非常接近真实家装公司的交付标准。

接下来它又调用了 image_gen 工具。

按照“俯视角 + 简约现代风”这类设计师级指令,自动生成了一张拟真度很高的 3D 布局草图。

整个过程中无需我干预任何细节。多轮对话 + 工具组合 + 搜索整合,一气呵成。

MiniMax-M2 在这类复杂、结构化的生活任务中,表现出的理解力、调度力和交付力,已经非常接近顶级闭源模型,甚至在某些链条任务上略胜一筹。

众所周知,MiniMax 一直以多模态能力强悍著称。

那我们也必须拿它的看家本领——多模态 Agent,来做最后一次压轴测试。

我们做了一个由 AI 讲述的「敦煌石窟之旅」。

https://25x5jf5vvauh.space.minimax.io/(需要魔法)

MiniMax-M2 接到指令后,自动完成了整场“导览”:

它先检索并筛选出 10 幅最具代表性的敦煌壁画图像,随后为每一幅生成讲解文案,语气贴近博物馆导览,内容准确自然。接着调用自家的语音模型,将文字转化为带呼吸感、语调流畅的解说音频;音频之间还会自动衔接,形成连续的讲解路径,仿佛你正一步步走过真实的石窟。

一句话,MiniMax 自动完成从图像、文案到语音的整合输出,网页开箱即用。多模态整合能力,还得是 MiniMax。

这才是我心中未来的多模态 Agent 应有的样子。

看完这些 case,大家是不是已经跃跃欲试了?

从 Claude Code 到通用 Agent,MiniMax-M2 给我的感受只有一个:门槛,真的低了。

以前大家总说“AI 很强”,但多数人用不上。因为强的门槛高,好用的又太弱。

而 MiniMax-M2 这波,真的把「强」与「用」合在了一起。

如果说过去的大模型像一辆停在高速上的超跑——跑得快,但你不一定能开。

那现在的 M2,更像是一台全自动驾驶的智能车,坐上去说句话,它就能载你抵达目的地。

而且,还是全网最低油耗

它给了每个普通人一次真正上手 AI 的机会,也许你写不出 prompt、做不了产品,但你说得出想法,这就够了。

剩下的,让 MiniMax-M2 来搞定。


53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询