我要投稿

MiniMax M2.7 炸场！自己训自己，8 项基准硬刚 GPT-5 和 Opus 4.6

发布日期：2026-03-19 07:26:00 浏览次数： 2671

作者：AI智见录

微信搜一搜，关注“AI智见录”

距离 MiniMax M2.5 发布才刚过一个月，MiniMax 又出手了。

MiniMax 正式发布了 M2.7，官方给出的定义很有意思："这是我们第一个深度参与了自身进化的模型。"

什么意思？简单说就是，M2.7 在训练过程中，自己帮着训自己。这听起来有点科幻，但从基准测试的成绩来看，这种"自我进化"的路线确实跑通了。

先看硬数据。MiniMax 这次拿出了 8 项基准测试的对比，对手阵容相当豪华：Claude Opus 4.6、Sonnet 4.6、GPT-5.4、Gemini 3.1 Pro。

软件工程类：

• SWE Bench Pro：M2.7 拿到 56.2%，和 GPT-5.4 的 57.7% 几乎持平，超过了 Gemini 3.1 Pro（54.2%）
• Multi-SWE Bench：M2.7 得分 52.5%，略高于 Sonnet 4.6 的 51%，和 GPT-5.4 的 49% 拉开了差距
• VIBE-Pro（仓库级代码生成）：56.2%，和 Sonnet 4.6 的 56% 基本打平

机器学习自主能力：

• MLE-Bench Lite：这项很亮眼，M2.7 拿到 66.6% 的奖牌率，仅次于 Opus 4.6 的 71.2%，把 Sonnet 4.6（55.6%）和 M2.5（51.5%）远远甩在身后

工具使用与综合能力：

• GDPval-AA：M2.7 的 ELO 分数为 1495，是开源模型中最高的
• Toolathlon：准确率 46.3%，表现中规中矩
• MM-ClawBench：62.7%，相比 M2.5 的 42.5% 提升幅度巨大，不过和 Sonnet 4.6（75.6%）还有差距
• Artificial Analysis：57 分，和 Opus 4.6 持平

总的来说，M2.7 在多数基准上已经能和 Claude Opus 4.6、GPT-5.4 掰手腕了。考虑到 MiniMax 的体量和资源，这个成绩如果真实还是相当惊人。

"自己训自己"到底是怎么回事？

这是 M2.7 最值得关注的技术亮点。

传统的模型训练流程是：人类设计训练方案，准备数据，跑实验，看结果，调参数，再来一轮。整个循环高度依赖人类研究员的判断。

M2.7 的做法不同。在强化学习阶段，MiniMax 让模型自己参与到了训练循环中：

• 自主构建复杂技能：模型在 RL 系统中主动学习和组合超过 40 种技能，每种技能的 token 量超过 2000，保持了 97% 的遵循率
• 更新记忆与自我优化：模型能够维护持久化的记忆系统，根据反馈驱动架构改进
• 自主迭代：展示了超过 100 轮自主优化循环的能力

这个思路和之前 DeepSeek 强调的"aha moment"有异曲同工之处，但 MiniMax 走得更远。他们不只是让模型在推理时产生顿悟，而是让模型直接参与了自身能力的构建过程。

据官方说法，M2.7 在研发阶段已经能承担 30% 到 50% 原本需要人类研究员完成的工作。

以一个强化学习场景为例：研究者可以从一个实验想法开始，与代理人讨论，代理人协助文献研究，跟踪预设的实验规格、管道数据及其他对应物，并启动实验。在实验过程中，它监控并分析实验，并自动触发日志读取、调试、指标分析、代码修复、合并请求和烟雾测试实验，识别和配置细微但关键的变化。这些工作以前可能涉及来自不同团队的多名人类研究人员，但现在人类研究人员仅在关键决策和讨论时进行互动。这加快了问题的发现和实验，更快地交付模型。