微信扫码
添加专属顾问
我要投稿
MiniMax M2.7实现技术突破,通过"自我训练"机制在8项基准测试中硬刚GPT-5和Opus 4.6,展现惊人实力。核心内容: 1. M2.7在8项基准测试中与顶级AI模型的性能对比 2. "自我训练"技术原理与创新突破 3. 模型自主进化能力的具体表现
大家好,我是智见君。
距离 MiniMax M2.5 发布才刚过一个月,MiniMax 又出手了。
MiniMax 正式发布了 M2.7,官方给出的定义很有意思:"这是我们第一个深度参与了自身进化的模型。"
什么意思?简单说就是,M2.7 在训练过程中,自己帮着训自己。这听起来有点科幻,但从基准测试的成绩来看,这种"自我进化"的路线确实跑通了。
先看硬数据。MiniMax 这次拿出了 8 项基准测试的对比,对手阵容相当豪华:Claude Opus 4.6、Sonnet 4.6、GPT-5.4、Gemini 3.1 Pro。
软件工程类:
机器学习自主能力:
工具使用与综合能力:
总的来说,M2.7 在多数基准上已经能和 Claude Opus 4.6、GPT-5.4 掰手腕了。考虑到 MiniMax 的体量和资源,这个成绩如果真实还是相当惊人。
"自己训自己"到底是怎么回事?
这是 M2.7 最值得关注的技术亮点。
传统的模型训练流程是:人类设计训练方案,准备数据,跑实验,看结果,调参数,再来一轮。整个循环高度依赖人类研究员的判断。
M2.7 的做法不同。在强化学习阶段,MiniMax 让模型自己参与到了训练循环中:
这个思路和之前 DeepSeek 强调的"aha moment"有异曲同工之处,但 MiniMax 走得更远。他们不只是让模型在推理时产生顿悟,而是让模型直接参与了自身能力的构建过程。
据官方说法,M2.7 在研发阶段已经能承担 30% 到 50% 原本需要人类研究员完成的工作。
以一个强化学习场景为例:研究者可以从一个实验想法开始,与代理人讨论,代理人协助文献研究,跟踪预设的实验规格、管道数据及其他对应物,并启动实验。在实验过程中,它监控并分析实验,并自动触发日志读取、调试、指标分析、代码修复、合并请求和烟雾测试实验,识别和配置细微但关键的变化。这些工作以前可能涉及来自不同团队的多名人类研究人员,但现在人类研究人员仅在关键决策和讨论时进行互动。这加快了问题的发现和实验,更快地交付模型。
多智能体协作:不是噱头
M2.7 原生支持 Agent Teams 多智能体协作框架,几个关键能力:
在实际场景中,MiniMax 展示了 M2.7 在软件工程、办公生产力和交互娱乐三个方向的落地能力:
软件工程方面,M2.7 展示了生产级别的调试能力,在多个场景下将故障恢复时间压缩到 3 分钟以内。它能做因果推理,分析监控指标、统计 trace、验证数据库状态。
办公场景,增强了 Word、Excel、PPT 的编辑能力,支持多轮修改和模板化文档生成,甚至能自主阅读财报、建立收入模型、生成演示材料。
交互娱乐,推出了 OpenRoom 框架(已在 GitHub 开源 https://github.com/MiniMax-AI/OpenRoom),提供基于 GUI 的 Agent 交互,支持实时视觉反馈和角色一致性。
客观来看:亮点和不足
亮点:
不足:
MiniMax 这家公司一直比较低调,但 M2 系列的连续发力确实让人刮目相看。
从 M2.5 的开源到 M2.7 的"自我进化",MiniMax 选择了一条和主流厂商不太一样的技术路线。不是单纯堆参数、堆数据,而是尝试让模型参与到自身的训练过程中。
M2.7 目前已经在 MiniMax Agent(agent.minimax.io)和 MiniMax API 平台(platform.minimax.io)上线,感兴趣的开发者可以直接体验。
正如 MiniMax 官方在推特上说的那样:
"Go break it (we mean it)"
至于能不能真的"break",就交给大家去验证了。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2026-03-17
【淘宝直播数字人互动LLM】告别AI感:基于真人ASR数据的拟人化探索
2026-03-03
罕见!Meta、OpenAI、xAI联合分享了用生产环境提升LLM的最佳实践!
2026-02-13
工具调用准确率从60%飙到95%?我用这个‘解耦微调’把Qwen-7B救活了
2026-02-05
普林斯顿大学RLAnything:AI学会一边学习一边给自己打分
2026-02-04
Agent 越用越聪明?AgentScope Java 在线训练插件来了!
2026-01-30
Oxygen 9N-LLM生成式推荐训练框架
2026-01-29
自然·通讯:如何挖掘复杂系统中的三元交互
2026-01-29
微调已死?LoRA革新
2026-01-04
2026-01-18
2026-01-02
2026-01-01
2025-12-21
2026-02-04
2025-12-21
2026-01-19
2026-01-03
2025-12-30
2026-01-02
2025-11-19
2025-09-25
2025-06-20
2025-06-17
2025-05-21
2025-05-17
2025-05-14