2026年3月27日,来腾讯会议(限30人)了解掌握如何用Openclaw构建企业AI生产力
免费POC, 零成本试错
AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


我要投稿

MiniMax M2.7 炸场!自己训自己,8 项基准硬刚 GPT-5 和 Opus 4.6

发布日期:2026-03-19 07:26:00 浏览次数: 1509
作者:AI智见录

微信搜一搜,关注“AI智见录”

推荐语

MiniMax M2.7实现技术突破,通过"自我训练"机制在8项基准测试中硬刚GPT-5和Opus 4.6,展现惊人实力。

核心内容:
1. M2.7在8项基准测试中与顶级AI模型的性能对比
2. "自我训练"技术原理与创新突破
3. 模型自主进化能力的具体表现

杨芳贤
53AI创始人/腾讯云(TVP)最具价值专家

 

大家好,我是智见君。

距离 MiniMax M2.5 发布才刚过一个月,MiniMax 又出手了。

MiniMax 正式发布了 M2.7,官方给出的定义很有意思:"这是我们第一个深度参与了自身进化的模型。"

什么意思?简单说就是,M2.7 在训练过程中,自己帮着训自己。这听起来有点科幻,但从基准测试的成绩来看,这种"自我进化"的路线确实跑通了。


先看硬数据。MiniMax 这次拿出了 8 项基准测试的对比,对手阵容相当豪华:Claude Opus 4.6、Sonnet 4.6、GPT-5.4、Gemini 3.1 Pro

软件工程类:

  • • SWE Bench Pro:M2.7 拿到 56.2%,和 GPT-5.4 的 57.7% 几乎持平,超过了 Gemini 3.1 Pro(54.2%)
  • • Multi-SWE Bench:M2.7 得分 52.5%,略高于 Sonnet 4.6 的 51%,和 GPT-5.4 的 49% 拉开了差距
  • • VIBE-Pro(仓库级代码生成):56.2%,和 Sonnet 4.6 的 56% 基本打平

机器学习自主能力:

  • • MLE-Bench Lite:这项很亮眼,M2.7 拿到 66.6% 的奖牌率,仅次于 Opus 4.6 的 71.2%,把 Sonnet 4.6(55.6%)和 M2.5(51.5%)远远甩在身后

工具使用与综合能力:

  • • GDPval-AA:M2.7 的 ELO 分数为 1495,是开源模型中最高的
  • • Toolathlon:准确率 46.3%,表现中规中矩
  • • MM-ClawBench:62.7%,相比 M2.5 的 42.5% 提升幅度巨大,不过和 Sonnet 4.6(75.6%)还有差距
  • • Artificial Analysis:57 分,和 Opus 4.6 持平

总的来说,M2.7 在多数基准上已经能和 Claude Opus 4.6、GPT-5.4 掰手腕了。考虑到 MiniMax 的体量和资源,这个成绩如果真实还是相当惊人。

"自己训自己"到底是怎么回事?

这是 M2.7 最值得关注的技术亮点。

传统的模型训练流程是:人类设计训练方案,准备数据,跑实验,看结果,调参数,再来一轮。整个循环高度依赖人类研究员的判断。

M2.7 的做法不同。在强化学习阶段,MiniMax 让模型自己参与到了训练循环中:

  • • 自主构建复杂技能:模型在 RL 系统中主动学习和组合超过 40 种技能,每种技能的 token 量超过 2000,保持了 97% 的遵循率
  • • 更新记忆与自我优化:模型能够维护持久化的记忆系统,根据反馈驱动架构改进
  • • 自主迭代:展示了超过 100 轮自主优化循环的能力

这个思路和之前 DeepSeek 强调的"aha moment"有异曲同工之处,但 MiniMax 走得更远。他们不只是让模型在推理时产生顿悟,而是让模型直接参与了自身能力的构建过程。

据官方说法,M2.7 在研发阶段已经能承担 30% 到 50% 原本需要人类研究员完成的工作。

以一个强化学习场景为例:研究者可以从一个实验想法开始,与代理人讨论,代理人协助文献研究,跟踪预设的实验规格、管道数据及其他对应物,并启动实验。在实验过程中,它监控并分析实验,并自动触发日志读取、调试、指标分析、代码修复、合并请求和烟雾测试实验,识别和配置细微但关键的变化。这些工作以前可能涉及来自不同团队的多名人类研究人员,但现在人类研究人员仅在关键决策和讨论时进行互动。这加快了问题的发现和实验,更快地交付模型。


多智能体协作:不是噱头

M2.7 原生支持 Agent Teams 多智能体协作框架,几个关键能力:

  • • 角色分化:不同 Agent 可以承担不同角色,有明确的职责边界
  • • 动态工具搜索:Agent 能自主寻找和调用所需的工具
  • • Research Agent:专门用于自主迭代研究的 Agent 框架

在实际场景中,MiniMax 展示了 M2.7 在软件工程、办公生产力和交互娱乐三个方向的落地能力:

软件工程方面,M2.7 展示了生产级别的调试能力,在多个场景下将故障恢复时间压缩到 3 分钟以内。它能做因果推理,分析监控指标、统计 trace、验证数据库状态。

办公场景,增强了 Word、Excel、PPT 的编辑能力,支持多轮修改和模板化文档生成,甚至能自主阅读财报、建立收入模型、生成演示材料。

交互娱乐,推出了 OpenRoom 框架(已在 GitHub 开源 https://github.com/MiniMax-AI/OpenRoom),提供基于 GUI 的 Agent 交互,支持实时视觉反馈和角色一致性。

客观来看:亮点和不足

亮点:

  1. 1. "自我进化"的训练范式确实是一个有意义的技术探索,如果这条路能持续跑通,可能会改变模型训练的效率天花板
  2. 2. MLE-Bench Lite 66.6% 的成绩很能说明问题,机器学习自主能力是衡量模型"真实智能"的硬指标
  3. 3. 从 M2.5 到 M2.7 只用了一个月,迭代速度很快
  4. 4. 定价延续 M2.5 的白菜价,输入 1.2/百万 token,还支持 Prompt Caching(读取仅 $0.06/百万 token),性价比拉满

不足:

  1. 1. 在 MM-ClawBench 和 GDPval-AA 等综合基准上,和 Opus 4.6、Sonnet 4.6 还有明显差距
  2. 2. "自己训自己"的说法虽然吸引眼球,但具体的技术细节披露不多,还需要更多第三方验证

MiniMax 这家公司一直比较低调,但 M2 系列的连续发力确实让人刮目相看。

从 M2.5 的开源到 M2.7 的"自我进化",MiniMax 选择了一条和主流厂商不太一样的技术路线。不是单纯堆参数、堆数据,而是尝试让模型参与到自身的训练过程中。

M2.7 目前已经在 MiniMax Agent(agent.minimax.io)和 MiniMax API 平台(platform.minimax.io)上线,感兴趣的开发者可以直接体验。

正如 MiniMax 官方在推特上说的那样:

"Go break it (we mean it)"


至于能不能真的"break",就交给大家去验证了。

 

热文推荐

53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询