微信扫码
添加专属顾问
我要投稿
M2.7模型突破科研自动化瓶颈,97%指令遵循率让复杂任务一气呵成。核心内容: 1. M2.7原生多智能体架构如何解决传统Agent工具链崩溃痛点 2. 全自动执行离散扩散模型研究从文献调研到代码调试的全过程 3. 模型自主决策机制与容错设计实现无人值守科研流水线
不看榜单跑分,我们直接让 M2.7 接管了查文献、修 bug、跑实验的科研流水线。
过去一年,业界大多把精力卷在了外部的 Agent Harness 上,任务编排与工具链越做越重。
但面对真实的复杂业务,外围脚手架搭得再精巧,一旦底层模型的指令遵循率掉链子、长上下文一断档,整个流水线往往在第四步、第五步就会全盘崩溃。
刚刚发布的 MiniMax M2.7,试图从底座层面强行破局。它原生具备多智能体协作能力,把复杂的 Harness 构建逻辑直接内化到了模型内部。
这让它在面对 40 个复杂 Skills 的极端测试时,依然稳稳踩住了 97% 的超高遵循率。
〓 在软件工程、专业办公及复杂 Agent 评测中,M2.7 综合表现稳居全球第一梯队
当然,在 benchmark 上刷出高分是一回事,能不能扛住真实的工程压力是完全另一回事。
这次我们直接上难度,让 M2.7 接管一套端到端的自动化科研工作流。
跑通自动化科研流水线
我们给 M2.7 设定了一个比较宽泛的研究方向:
探索离散扩散模型(Discrete Diffusion Models)在逻辑/算术推理任务中的应用,找出现有研究的痛点,并构思具体的验证实验、跑通基础代码。
挂载完复杂的 skills 后,模型立刻开始调度。在尝试原生 WebSearch 工具失败时,它迅速改用终端命令(curl + proxy)抓取 arXiv API。
它自主发散出多个研究方向,并在内部完成了科学量化的打分与排名。
在筛选 idea 期间,M2.7 调度了预置的 skills,自主拉起了一个第三方大模型,作为“审稿人”进行交叉验证。
它还附带了一个成熟的容错机制。如果人类未响应决策询问,它将默认推进评分最高的 idea。
整个科研流水线不会因为人类的离线而陷入无尽等待。
最终,它大浪淘沙精炼出了一份包含具体变量的实验路线图。
不仅敲定了研究痛点,连 GPU 耗时预估、判别成功的数学指标以及需要手写的脚本清单,都安排得明明白白。
▲ 向下滑动,查看完整实验方案
拿到方案后,M2.7 开始编写实验代码并向 GPU 发起部署。
发现底层 LLaDA-8B 模型下载耗时过长,它选择剥离 transformers 库的重度依赖,用原生 PyTorch 搓了一个极简的未经训练的 Transformer(mock 模型),提前验证 pipeline 的 Tensor Shapes(张量维度)连通性。
随后的测试运行不出意外地报错了。
M2.7 完全不需要人工介入,自主抓取终端 traceback 日志,不仅秒修了低级语法错误,还顺藤摸瓜深入核心采样循环内部,精准定位并修复了 torch.multinomial 的维度不匹配逻辑 bug。
跑通 mock 实验后,面对 30%~45% 的准确率结果,它准确判断出这是随机初始化模型的合理基线数据,并未陷入死循环修 bug 的幻觉。
从 idea 探索与方案评审,再到自动化实验部署与代码调试,过去需要多人协作盯盘的流程,现在只用在关键节点点下确认。
一键搜集全网最新面经
毕业季找工作找实习,每天不停刷面经、手动收集各家大厂的面试题非常耗时。
我们依托 MiniMax 的 Agent 平台,让模型自动抓取全网最新大模型算法相关的 100 条帖子,并独立开发一个算法面试题库。
M2.7 渲染出的不仅是可视化的数据看板,更是直接对齐 LeetCode 考题的实用工具箱。
页面直观划分了各家大厂的分布情况、面试轮次和题目分类,还精准提炼了面试题的核心技术点。
文献辅助阅读神器
这些扎实的工作流接管表现,源于 M2.7 强悍的基准测试支撑。
考察核心代码能力的 SWE-Pro (56.22%)、考察端到端项目交付的 VIBE-Pro (55.6%),以及验证终端系统深层工程理解的 Terminal Bench 2 (57.0%)。
但真正让 M2.7 与上一代模型拉开代差的,是它开启了模型的自我进化。
在内部的一个 scaffold(执行框架)上,M2.7 在零人工干预的状态下自主运行了超 100 轮迭代。
它严格遵循“分析失败轨迹 → 规划改动 → 修改 scaffold 代码 → 运行评测 → 对比结果 → 决定保留或回退”的闭环,最终在评测集上压榨出了约 30% 的性能提升。
在由 Kaggle 历年真实竞赛题目构成的 MLE Lite 测试集中,M2.7 首次跑通了全流程,并在独立跑完全部题目后一举拿下 9 枚金牌。
间隔 24 小时的三次独立测试证明,M2.7 的性能会随着迭代次数的增加而持续攀升,三次测试平均得牌率达到了 66.6%。它正在学会用 AI 的逻辑去重构下一代 AI。
指令遵循率从 85% 跃升到 97%,在实际研发中意味着真金白银的 token 结余。Agent 每次因为丢上下文导致的失败重试,烧掉的都是巨大的隐性成本。
在 M2.7 的研发阶段,MiniMax 团队已经让 M2 系列模型充当架构师,1 个人 4 天时间、零人工编码,就自主搭建了一套包含 CI、测试、代码审查的完整开发 Agent Harness。
大模型正在彻底告别只能在 IDE 里补全代码的“副驾驶(Copilot)”时代。
M2.7 用实际表现证明了,只要给它一个足够强韧的底座和极简的初始指令,它就能承包你的端到端研发项目。
它不再是一个高级的辅助工具,而是一个能和你一起肝论文、跑实验的 Cowork Agent。
M2.7 目前已在 MiniMax 全量上线。如果你想将其接入自己的科研工作流,可通过以下入口直接接入:
MiniMax Agent:agent.minimaxi.com
API 服务:platform.minimaxi.com
Coding Plan 订阅:platform.minimaxi.com/subscribe/coding-plan
🔍
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2026-03-19
把 MiniMax M2.7 扔进真实业务里:它替我省了 BI 和程序员的钱
2026-03-19
从“聪明的废物”到“数字员工”,智能体落地如何破局
2026-03-19
同事群里催催催,龙虾自动回回回!刚发布的「飞书龙虾」把我解脱了
2026-03-19
一个人就是一支队伍(三):交出方向盘,与硅基网络的自治
2026-03-17
为什么你的 AI 项目总停在演示?问题不在模型,在边界
2026-03-17
火山养“龙虾”日志 | ArkClaw + Coding Plan 即刻帮教培老师减负提效
2026-03-17
软件产品,集体向 Agent 缴械
2026-03-13
用自然语言替代复杂代码
2026-01-01
2026-02-06
2026-01-05
2025-12-31
2025-12-23
2026-01-23
2026-01-13
2025-12-30
2026-01-14
2026-02-06
2026-03-07
2026-02-06
2026-01-27
2026-01-08
2025-12-29
2025-12-28
2025-12-21
2025-12-16