我要投稿

大伙都在养虾，MiniMax 带着新模型来偷偷上分了？

发布日期：2026-03-19 07:31:21 浏览次数： 2352

作者：差评X.PIN

微信搜一搜，关注“差评X.PIN”

最近 AI 圈这么热闹，全是在养龙虾的，给大伙都看乏味了，我们最爱的新模型发布环节去哪里了？

别急。在大伙忙着把虾养肥的时候，有一家国产模型公司，其实一直在偷偷上分。

MiniMax 最近更新了他们最新的 M2.7 版本，官方给出的说明非常干脆，指令遵循、办公协同和 Coding都有很大提升。

它甚至能自行建构复杂的Agent Harness，也就是搭出一套完整的任务框架，调度多个 Agent 协作、组合各种技能和工具，把那些光靠单个模型根本搞不定的复杂任务给跑通，有点“最强赛博员工”那味了。

而且 M2.7 它最有意思的地方在于，它能通过构建Agent Harness 来“自我进化”。在测试中，测试员给它甩在了 MLE Lite 22 道高难度竞赛中，M2.7 最后取得了 9 金 5 银 1 铜，得牌率 66.6%，仅次于 Opus-4.6（75.7%）、GPT-5.4（71.2%），与 Gemini-3.1 持平。

这成绩不是第一次就跑出来的，而是通过一个简易的脚手架，来引导 Agent 进行自主优化，核心的模块包括短时记忆、自反馈以及自优化三个模块，然后它自己一轮轮迭代优化出来的分数。

世超也有幸搞到了一波内测名额，接入了我们的“龙虾”和 Claude Code 里。实测跑了一段时间，怎么说呢，不管是养虾还是干活，这代模型给我的印象是，确实抗打。

大伙应该都知道了，OpenClaw 本体只是一个外壳，它的智商完全取决于你给它接什么模型当大脑。模型不行，虾就是个傻子。而这次 M2.7 也是针对 Agent 场景做了专项加强。咱就先拿龙虾来试试它的水平。

我上来就给它安排了个任务：帮我生成一个自然博物馆的网站——包含首页、购票页面、展馆地图、捐款通道，得是一个完整的多页面站点。

它有个让我很舒服的特点，就是我在龙虾里派任务的时候，它不会像一些模型一样硬控你的屏幕，让你在那干等着。

它的偏好是，自己在后台开一个子会话去执行任务，你屏幕上的主会话该干嘛干嘛，完全不耽误。

而且还会自己指挥Claude Code去干，还有领导力这一块的。

等它做完了，会把结果推送回主会话通知你，确实有点意思，有种幕后助理的感觉，你吩咐一句，它默默去办了，办完了才给汇报。

过了大概两分钟，桌面上多了一个文件夹，点开一看，是一个结构完整的网站，导航栏能跳转各个子页面，配色和排版都挺像回事的，啥按钮都能按，满分好吧。

光做前端牛，那你给我找点资料呗？于是我又给了一个更有挑战的任务：盘点一下从初代 iPhone 到 iPhone 17 的历代外观，每款附上渲染图。

它很快就把框架搭好了，每款机型都有文字描述和关键设计变化，时间线也对。

但美中不足的是，图片加载失败了。。它尝试从网上直接获取图片，没能下载成功。让它解释一下，它说被阻断了。

最后还是我给它接了 MaxClaw 搓的图片合集，它才把渲染图下载下来插入进去了（MaxClaw是Minimax的云Claw，也蛮有意思）。

图片获取这块确实是目前一个卡手的地方，理论上操作浏览器应该能做到，但实际体验还不太稳定。不过操作龙虾干正事这块，M2.7 的表现还是扎实的。

一般模型装多了 Skills 就容易搞混，该用 A 技能的时候调了 B，或者干脆无视 Skill 规范自由发挥，M2.7 在指令遵循上确实下功夫了。

按照官方的说法，M2.7 在有 40 个复杂 Skills 同时加载的情况下，仍能保持 97% 的使用准确率。

我电脑上32个skills，龙虾跑的时候也确实没怎么乱过。

嚯嚯嚯，对了，之前网传的MiniMax不认识马嘉祺的bug，M2.7也修好了。

接下来，咱来测下M2.7的办公能力，听说它Excel玩得很溜。

我让 M2.7 做一个基金月度投资组合分析表——10 只 A 股，要有市值计算、盈亏公式、条件格式（赚了标绿亏了标红）、底部汇总行，再加一个饼图展示仓位分布，标准的基金经理桌面工具。

它很快生成了第一版，结构没问题，公式、条件格式、饼图都有。但我扫了一眼数据，全是编的。。居然炒的是预制股？

所以我直接跟它说"要实时数据"。然后它便开始了深刻的思考。

它先尝试用一个 Python 库去拉 A 股实时行情，结果直接挂了。。

但 M2.7 也没开摆，它自己开始排查：先 curl 百度确认基础网络是通的，再检查环境变量发现没配代理，然后直接 curl 东方财富的 HTTP 接口，通了。

最终 10 只股票全部获取成功，全是当天的真实盘中价格。我专门去东方财富核对了一遍，是对的。

这让我觉得有点靠谱，人也不能百分百找到正确方案，但碰到问题会自己换方案，而M2.7真能做到这一点。

拿到实时数据之后，我开始给它追加编辑指令。比如美化一下颜色、加一个行业筛选的下拉框，显示目前该行业总市值，盈亏率等等，公式联动都是对的。而且之前做好的内容也没有被搞乱，表现蛮稳定的。

然后我把 Excel 的数据和结论丢给它，让它直接搓一个 PPT，要求就是给我汇报，我一目了然。最后整体效果，是那种拿去开会不会丢人的水平，还带内部超链接。

最后来看看代码吧。我之前写了一个 Python 的个人记账小工具，有一些世超摸不着头脑的问题，我把代码和最近的报错日志一起丢给了它。

哥们直接给我送来一个表格，表上是些我看不懂的原因。

但的确是四个 bug，Claude Opus 4.6也如是说。一个没漏，分析逻辑非常清晰。

而且，它的修复方案也不是头痛医头的那种，做了系统性重构，最后还给出了架构层面的判断：JSON 单文件已经到瓶颈了，建议迁移 SQLite，并且没有硬吹自己的修复能解决所有问题。

翻译成人话，就是我拿了一份自己的作业去找人批改，上面有4个叉，对面不但把4个错全找出来了，还发现了几个你之后可能犯的隐藏错误，顺手帮你优化了。

整体感觉大概相当于一个有经验的开发来帮你 review 代码，确实比我强。对于不是程序员的普通用户来说，拿它来检查和修复自己的小脚本、自动化工具，vibe coding是真够用了。

OK，最后来点实在的总结吧。M2.7 的 Agent 能力、办公能力、代码能力都拿得出手，可以说是养虾的优质模型，也是干活的靠谱工具。

要说不足的话，网络资源获取还能再提升下，不管是龙虾场景里下载图片，还是其他需要从网上抓取股价这块，经常加载失败，得我压力它才搞得定。。不过这也算目前模型的通病了，就看大伙怎么优化了。

总之 2026 年，AI 能干活也不是啥新闻了，但真正拉开差距的，还它能不能像个负责的同事一样，自己拆问题、自己想方案、搞砸了也会自己调整。

所以，M2.7 还真跨过了这个门槛，让人看到了一种最强的 Cowork Agent 形态。从当年 ChatGPT 的“你问我答”，到如今模型能够带队协作、自己排查 Bug、主导端到端交付。。再这么进化下去，普通人未来能用 AI 做的事情，将会越来越多，也越来越复杂。

可能以后就没人再说，年轻人不会用电脑了，维新派要指挥电脑自己干活了！

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2026-06-18

多 Agent 并行与 Headless 模式：让 Claude Code 效率翻 10 倍

2026-06-17

拆解大模型几项核心操作背后的数学与 Infra 优化逻辑

2026-06-17

更可靠的主播助理：淘宝主播Agent的Harness工程实战

2026-06-16

Business Insider：揭秘 Cursor 的疯狂崛起

2026-06-15

如何搭建一个端到端业务需求专家 Agent

2026-06-12

谁是 Agent 最强守门员？首个 Agent 技能安全评测基准 SkillTrustBench 正式发布

2026-06-12

Agent skill 迭代式编写实战

2026-06-12

GPT-5.5和Opus 4.8都搞不定的Bug，被Fable 5一晚上解决

联系获取

联系获取

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

Claude Opus 4.7刚刚曝光！Claude Code一夜重构，7x24小时替你打工

2026-04-15

OpenAI Codex CLI 完整使用指南

2026-04-07

Claude Code 和 Codex 接入 Figma MCP 保姆级教程

2026-04-07

刚刚Qwen 3.6 Plus上线预览：1M上下文，阿里Coding/Agent翻身战打响

2026-03-31

编程选GPT-5.4，还是GPT-5.3-Codex？

2026-03-21

GPT5.5来了，最大特点解析

2026-04-24

Claude Opus 4.7 发布，全网最详细解读

2026-04-17

突发！Claude Code 源码泄露，扒出这些隐藏功能

2026-03-31

真实测评MiniMax M2.7，不吹不夸，它到底什么水平？

2026-03-20

GPT-6，曝光了

2026-04-05

大家都在问

如何利用 Harness “一句话交付产品功能”？

2026-06-10

Loop Engineering 循环工程又是什么鬼？

2026-06-10

Anthropic万字长文：当AI开始构建自己，人类该何去何从？

2026-06-10

Agent 工程化五件套：Prompt、Skill、MCP、CLI 到底怎么配合？

2026-06-07

为什么云端 Agent 基建这么难？

2026-06-06

当 AI 开始拥有“自主调度权”：Claude 4.8 这个新功能，到底有多可怕？

2026-06-03

哪些活，该交给Claude Code的 /workflows?

2026-06-02

面向 LLM 的架构设计：什么是真正的 AI Friendly 架构？

2026-06-01

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS Skill 提示词技巧 AI+电商 AI面试数字员工 ChatBI AI知识库开源大模型智能营销智能硬件 FDE AI+医疗 MaxKB Palantir Glean Openclaw

应聘简历请发送至： ceo@53ai.com

联系我们

售前咨询

预约演示

微信扫码

添加专属顾问

回到顶部