微信扫码
添加专属顾问
我要投稿
国产大模型M2以1/12的价格实现Claude级性能,开源限时免费引爆AI圈!核心内容: 1. M2模型在智能指数排名第五,编程能力稳居第一梯队 2. 以超低价实现"不可能三角":高性能、快速度、低成本 3. 在金融搜索等专业领域表现突出,多项测试全球第一
周末,我刷到 MiniMax Agent 海外版悄悄上新了 M2 模型。当时正在看别的东西,没在意。
直到打开 Artificial Analysis 一看——
智能指数排名第五。
前面四个是 GPT-5、Grok 4、Claude 4.5,都是顶流。M2 拿了 61 分,前五里面唯一的国产模型。
然后我看到价格排名,我愣了——
M2 是 Claude 4.5 价格的 1/12,是 GPT-5 的 1/7。关键是速度还挺快。
Artificial Analysis 是业内权威的评测平台,三个维度:智能水平、速度、价格,基本能反映一个模型的综合实力。M2 三项在第一梯队里表现不俗。这已经够炸了。
结果今天中午,MiniMax 又扔下一颗更大的炸弹:MiniMax-M2,正式开源了。
我只想说。。。MiniMax,你还让别人活吗?
要知道,大模型圈也有个「不可能三角」:智能水平、运行速度、使用价格,通常只能选两个。但这一次,M2 凭一己之力,把不可能三角给撕碎了。
开源、顶配、平价、快,开源限时免费!怎么能不激动?
别急着质疑,我们看看具体的榜单表现。
我们先看 M2 最核心的一项能力:编程。
SWE-bench Verified 是业内公认的最能反映真实软件工程能力的测试,M2 拿下了 69.4 分,直接压过 DeepSeek、Kimi、GLM,仅次于 GPT-5 和 Claude,算是国产模型第一次在真实编程任务上稳定进入第一梯队。
Terminal-Bench 是最能体现实战价值的测试,考验模型能否在终端环境下完成任务。M2 得分 46.3 分,仅次于 Claude 4.5,实用性很强。
综合来看,M2 的编程可能比某些更贵的模型还要稳定。
那另一个主打能力——agentic 能力。
τ²-Bench 测试的是模型在复杂工具调用场景下的表现。M2 拿下 77.2 分,国产模型中排名第一,虽然和 Claude Sonnet 4.5、GPT-5 还有点差距。
GAIA (text only) 则是一个强调真实世界问题解决能力的基准测试,M2 拿了 75.7 分,同样是国产模型第一,和 GPT-5 (76.4)差距非常小。
M2 还有一个比较突出的能力——深度搜索。
BrowseComp 是测试模型能否通过浏览器搜索、导航、提取信息来完成任务。xbench-DeepSearch 从名字就能看出来,专门测试深度搜索能力——不是简单的一次搜索,而是多轮迭代、逐步深入的信息挖掘。
两个榜单的表现 M2 同样也是稳定的 top 发挥。FinSearchComp-global 是字节推出的金融搜索基准,考验专业领域的检索和分析能力。M2 更是爆力登顶,65.5 分分,全球第一。
要知道,金融搜索是最难的场景之一。因为它涉及大量模糊指令、日期判断、信息整合与非结构化决策。没有真正的推理能力和上下文稳定性,是扛不住的。M2 还是很稳的。
当然,在大模型行业,性能早已不是唯一维度。真正掏腰包的开发者和企业看重的,是一个更冷酷的指标:性价比。
先看 MiniMax-M2 的价格:输入:$0.3/M,输出:$1.2/M
远远低于同类竞品。但光看价格没意义,得结合能力一起看。
第一张图:智能水平 vs. 价格
横轴是价格(越往右越便宜),纵轴是智能指数(越往上越聪明)。绿色区域是最优象限——又聪明又便宜。
图中那个红点,就是 MiniMax-M2。它明确落在绿色区域的右上角——在目前这张图里,没有哪一款模型能在"智能水平"和"价格"两个维度上同时压过 M2。
第二张图:输出速度 vs. 价格
横轴还是价格,纵轴是输出速度(每秒生成多少 token)。
M2 的红点同样在绿色区域的右上角——约 100 tokens/s 的速度,配上全场最低的价格。Claude 4.5 Haiku 速度更快(120 TPS),但价格贵了 4 倍多。DeepSeek 价格接近,但速度只有 M2 的 1/4。
这两张图说明了什么?就是我开头说的“智能水平、速度、价格的不可能三角被 M2 打破了”。尤其是性价比具有压倒性优势。
说了这么多榜单,其实我心里也没底。所以周末两天,我就一直在测 M2。
先说一下,M2 现在已经可以接入主流的开发工具了——Claude Code、Cursor、Cline、Kilo Code、Roo Code、Grok CLI、Codex CLI、Gemini CLI、Droid 都支持。
我主要用的是 Claude Code 和 Cursor,因为这俩我比较熟。
这次就以 Claude Code 为例,手把手带着大家把 MiniMax-M2 接进来。
首先你需要安装好 Claude Code,没有的同学可以按官方文档一步步来,不复杂。
https://docs.claude.com/en/docs/claude-code/setup
接下来,关键一步是配置 MiniMax 的 API 接口。
MiniMax API 从这里获取:https://platform.minimaxi.com/user-center/basic-information/interface-key
然后打开你的 ~/.claude/settings.json 文件,把下面这段复制进去,然后把 <MINIMAX_API_KEY> 替换成你在 MiniMax 平台拿到的 Key。
{
"env": {
"ANTHROPIC_BASE_URL": "https://api.minimaxi.com/anthropic",
"ANTHROPIC_AUTH_TOKEN": "<MINIMAX_API_KEY>",
"API_TIMEOUT_MS": "3000000",
"CLAUDE_CODE_DISABLE_NONESSENTIAL_TRAFFIC": 1,
"ANTHROPIC_MODEL": "MiniMax-M2",
"ANTHROPIC_SMALL_FAST_MODEL": "MiniMax-M2"
}
}
配置完之后,在终端里跑一句命令:
claude
选择「Yes, I trust this folder」,MiniMax-M2 就准备就绪了。
不放心的话,你也可以再测试一下。在终端输入 who are you, your version,只要看到这句:
就能开始在 Claude Code 里愉快使用 MiniMax-M2 写代码了。
我整整测了一天,Claude Code + MiniMax-M2 的组合体验非常顺畅,几乎和 Claude 自家的模型没差。
我们来几组 Claude code 上跑出来的 case。
比如说,让 M2 开发一款日程管理的 iOS APP。
不是,完成度这么高?这真不是哪个成熟的软件??感觉我可以把 minical 卸载了。。
然后我还想做一个更「AI 原生」的 App。
灵感来自最近我朋友在做心理咨询配对,我就想做一个:
做一个网页,输入生日、星座、MBTI 类型和三条感情经历,它就自动给出配对建议(包括不要碰的雷区类型)、互动建议(第一句开场白、约会不要提的话题)和 AI 模拟情侣聊天对话。
我试了下,没有遗漏需求,功能完备,交互也非常丝滑。
当然,如果你是编程纯小白,连 IDE 都没碰过、代码也看不懂,那也别担心。
MiniMax Agent 已经全面接入 M2 模型,完全不需要写一行代码,就能完成复杂任务。
M2 agent 的传送门:
海外版:
https://agent.minimax.io/国内版:
https://matrix-pre.xaminim.com/
更好的消息是,目前 MiniMax-M2 模型 API + Minimax Agent 全面限免,全球免费试用 14 天!
MiniMax 太豪了(感动)。妈妈再也不用担心,我的 agent 积分一不小心就清零了。
来几组我用 agent 跑出来的 case。
先来设计一个“末日决策”类互动网页游戏:玩家扮演一名 AI 指挥官,需要在 5 分钟内决定是否摧毁地球,每一个选择都会导致剧情分支(至少 4 条主线,12 个结局)。
不到两分钟,他就会直接给你一个网页。
首页界面做得有模有样,12 种结局、倒计时系统、音效控制、威胁等级全都配齐。
再点进游戏内部,甚至还有分支剧情控制台,每个选项都嵌套了后果逻辑、行动时长与风险评级。
大家想自己解锁一下结局的可以点这个链接:https://gk8qr2fo9f8n.space.minimax.io/(需要魔法)
当然,我还可以让 Agent 再做一个 web dev 的活:做一个可以“匿名许愿”的网页。
我只输入一句话,它立刻调起 Supabase 项目,自动完成数据库连接、前端页面开发、后端部署,全流程一把梭,不需要我写一行代码:
非常轻松,一个完整上线的「匿名许愿墙」就生成好了,支持实时添加心愿、多人协同、数据库储存。每条愿望都用不同颜色的便签展示,搭配手写字体,鼠标滑过还有轻微抖动的交互动画。
欢迎大家一起来许愿:https://w6b3erphpbtw.space.minimax.io/(需要魔法)
体验完网页搭建,我们来看看 MiniMax-M2 在 Agent 领域的另一个杀手锏——全球第一的金融 deep research 能力。
我先抛了一个极模糊的需求过去试试,prompt 很模糊:
prompt:我想写一篇关于黄金价格波动的文献综述,现在还没有定好题目
M2 直接启动了搜索代理,重点看参考文献。
检索了100多篇权威资料,芝加哥联储的工作论文(2021)、Journal of Economic Behavior & Organization(2025)、Energy Economics(2021)、摩根大通的市场报告(2025)、OECD 的政策分析(2022)……
从学术期刊到央行报告,从经济学顶刊到投行研究,来源都是真实可查的高质量文献。
而且每一段落都明确标注了引用来源,终于不是假论文了。(拿 AI 写论文的应该都懂这句话的含金量。
我再换一个现实场景,测测它在“生活 agent”方向的能力。
我又扔过去一个非常具体的任务:
prompt:我在北京,这是一张 90 平两居室户型图。帮我做一个 15 万元以内的装修预算方案,风格为简约现代。要求:1.输出详细预算表(含区域、面积、材料、单价、备注)2. 生成 PDF 和一张 3D 布局草图(俯视简约风)。
MiniMax-M2 立刻解析了整张户型图,结合北京地区均价,列出包含客厅、卧室、厨房、卫生间等区域的预算明细表,涵盖材料选择、面积计算、单价估算。
甚至每个区域装修建议都有备注说明。非常接近真实家装公司的交付标准。
接下来它又调用了 image_gen 工具。
按照“俯视角 + 简约现代风”这类设计师级指令,自动生成了一张拟真度很高的 3D 布局草图。
整个过程中无需我干预任何细节。多轮对话 + 工具组合 + 搜索整合,一气呵成。
MiniMax-M2 在这类复杂、结构化的生活任务中,表现出的理解力、调度力和交付力,已经非常接近顶级闭源模型,甚至在某些链条任务上略胜一筹。
众所周知,MiniMax 一直以多模态能力强悍著称。
那我们也必须拿它的看家本领——多模态 Agent,来做最后一次压轴测试。
我们做了一个由 AI 讲述的「敦煌石窟之旅」。
https://25x5jf5vvauh.space.minimax.io/(需要魔法)
MiniMax-M2 接到指令后,自动完成了整场“导览”:
它先检索并筛选出 10 幅最具代表性的敦煌壁画图像,随后为每一幅生成讲解文案,语气贴近博物馆导览,内容准确自然。接着调用自家的语音模型,将文字转化为带呼吸感、语调流畅的解说音频;音频之间还会自动衔接,形成连续的讲解路径,仿佛你正一步步走过真实的石窟。
一句话,MiniMax 自动完成从图像、文案到语音的整合输出,网页开箱即用。多模态整合能力,还得是 MiniMax。
这才是我心中未来的多模态 Agent 应有的样子。
看完这些 case,大家是不是已经跃跃欲试了?
从 Claude Code 到通用 Agent,MiniMax-M2 给我的感受只有一个:门槛,真的低了。
以前大家总说“AI 很强”,但多数人用不上。因为强的门槛高,好用的又太弱。
而 MiniMax-M2 这波,真的把「强」与「用」合在了一起。
如果说过去的大模型像一辆停在高速上的超跑——跑得快,但你不一定能开。
那现在的 M2,更像是一台全自动驾驶的智能车,坐上去说句话,它就能载你抵达目的地。
而且,还是全网最低油耗。
它给了每个普通人一次真正上手 AI 的机会,也许你写不出 prompt、做不了产品,但你说得出想法,这就够了。
剩下的,让 MiniMax-M2 来搞定。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2025-10-27
锦秋基金被投企业Pokee AI 推 7B 研究智能体 PokeeResearch,RLAIF + 推理脚手架重塑深度研究
2025-10-27
终于有个简单的办公Agent入门教程了,京东云JoyAgent上大分
2025-10-27
发现一个超神的Github开源OCR项目,国产多模态杀疯了
2025-10-25
Agent从0到1落地实施:以「小智伴」为例,产品需求(一)
2025-10-25
Claude Agent SDK实战:打造开源版DeepWiki
2025-10-24
法律人需要有自己的GitHub和Cursor
2025-10-24
MineContext:字节开源的主动式上下文感知 AI 工具,助力高效信息管理
2025-10-24
10 大开源 OCR 模型对比
2025-08-20
2025-09-07
2025-08-05
2025-08-20
2025-07-31
2025-08-26
2025-08-22
2025-07-31
2025-09-06
2025-08-06
2025-10-13
2025-09-29
2025-09-17
2025-09-09
2025-09-08
2025-09-07
2025-09-01
2025-08-16