2026年7月2日 周四晚上19:30,报名腾讯会议了解“如何构建自进化的动态知识库(Brain)”(限30人)
免费POC, 零成本试错
FDE知识库

FDE知识库

学习大模型的前沿技术与行业落地应用


收藏

MiniMax M3 实测:第一流的模型,已经对执行层动手了

发布日期:2026-06-30 12:00:21 浏览次数: 1509
作者:雷峰网

微信搜一搜,关注“雷峰网”

推荐语

MiniMax M3 剑指长任务与自主执行,实测其如何重塑编程与Agent的未来。

核心内容:
1. M3模型在长链路任务与自主执行上的突破
2. 超长上下文与架构如何支撑复杂工作流
3. 与Claude Code的竞争及生态构建前景

杨芳贤
53AI创始人/腾讯云(TVP)最具价值专家
图片
M3 舞剑,意在 Claude Code ”                          

作者丨宇景

编辑丨马晓宁 梁丙鉴
图片


一款开源模型,能否同时拥有顶级编程能力、超长上下文理解能力和原生多模态能力?

这几乎就是 Agent 的全部意涵。而我们提出这个问题,是因为从 OpenClaw 时代开始,一家公司就已经无法仅仅凭借在模型上的投入,证明自己是一家押注未来的公司。胜负全在 Agent。

MiniMax M3 似乎也意识到了这一点。

作为 MiniMax 的最新款旗舰模型,M3 重点强化了 Coding 与 Agent 能力。相比传统代码模型的“把代码写出来”,它更强调长期规划、多轮协作和自主执行复杂任务的能力。

通俗地说,这些能力共同指向一个目标,那就是让模型独立学习几十万字的资料、持续工作数小时、调用工具、编写代码,并最终交付一个真正可用的结果。这成为了同步推出的 MiniMax Code 产品的核心技术基础。

那么衍生出来的问题是,当 Claude Code 已经成为开发者最认可的 Agent 工具之一,M3 的能力,又是否足以支撑 MiniMax 建立一个自己的,真正有竞争力的 Agent 生态?


01

12 小时自主工作,你说的长任务有多长?

Coding 能力的进化,已经不仅仅是写代码了。

如果只把 MiniMax M3 当成一个更擅长写代码的模型,会严重低估此次发布的重点。M3 更值得拿出来讨论的,是它在长任务、长上下文和 Agentic 工作流上的能力。

官方给出的两个案例很能说明这一点。一个是 M3 用接近 12 小时自主复现 ICLR 论文,另一个是用约 24 小时、147 轮迭代完成 CUDA Kernel 优化。这两个例子本质上都是典型的长链路任务,模型需要理解目标、拆解步骤、不断检查中间结果,并在失败之后继续调整。

从模型架构上看,MiniMax M3 的 1M token 上下文和 MSA 稀疏注意力架构,就是为这类场景服务的。长上下文的意义不只是能塞进更多文本,更重要的是降低长任务中的信息断裂。比如一个真实代码仓库、一个复杂需求文档、一组历史修改记录,这些真实需求都不是几千 token 就能讲清楚的。如果模型每次只能看到局部,就很容易出现“前面答得对,后面改崩了”的情况。而更长的上下文窗口,则给了模型跨文件、跨阶段理解任务的可能。

不过必须澄清的是,官方宣传的 1M 上下文,并不等于当前所有开发者都能无门槛、稳定地使用完整的 1M 上下文能力。模型页虽然写明“支持最高 1M,保证至少 512K”,但按量计费页进一步说明,超过 512K 的输入能力在发布初期属于限时、限量供应,需要联系销售开通。

长上下文能力确实是这次 M3 发布的核心亮点,但在真实任务中,它更适合被理解成一种“能力上限”,而不是一个已经对所有用户完全开放的默认规格。


02

创业模拟器,M3 与 Sonnet 4.6 的直接竞技

为了测试 M3 的代码交付能力,我设计了一个相对完整的小项目,让模型从零实现一个“创业模拟器”小游戏。同样接受这项考验的,还有 Claude Sonnet 4.6。

请从零开发一个 AI 创业模拟器 Web App。

要求:

1. 用户可以创建一家初创公司,输入公司名、行业、初始资金、目标用户。

2. 游戏采用回合制,每一轮代表一个月。

3. 用户每轮可以选择 3 个经营决策,例如产品开发、市场推广、招聘、融资、降本、用户调研。

4. AI 根据当前公司状态和用户决策生成月度报告。

5. 页面需要展示资金、用户数、收入、团队士气、产品完成度、市场热度、竞争压力。

6. 每轮结束后更新这些指标。

7. 需要有成功和失败结局。

8. 使用 React + Tailwind 实现,界面要像一个现代化创业经营游戏。

9. AI 接口可以先用 mock 数据,但代码结构要方便之后接入真实 LLM API10。

10. 请保证项目可以运行,并提供启动方式。

提示词并不复杂,但这项任务其实很适合测试 Coding Agent 的综合能力。因为它同时考验需求理解、状态管理、UI 设计、数值系统和平衡性。用户在游戏中扮演创业者,每一轮需要决定做什么产品、招什么人、怎么定价、要不要融资、如何营销,AI 则根据这些决策反馈用户增长、现金流、团队士气、市场反应和竞争压力。

具体来说,真正的难点主要包括三个维度:

  • 状态管理:小游戏一旦进入多轮决策,就很容易出现页面刷新后数据丢失、上一轮数据覆盖下一轮、历史记录无法回看、进度条超过 100% 之类的问题。甚至游戏只是这些问题的高发场景,类似的需求,在很多软件开发任务中都可以看到。

  • UI 表现:很多模型生成的“游戏”其实只是一个表单加几个按钮,功能能跑,但一眼看过去就有股“塑料感”。

  • 数值平衡:这是最难的一环,数值设计不当很容易出现一两轮游戏之后现金流爆炸、用户数异常增长、游戏迅速失控的问题,最终影响可玩性。什么样的数值设计可以说是平衡?这需要模型在复杂任务拆解之外,更有一层对游戏的审美和品味。

M3 用大约 11 分钟完成了程序编写和代码检查。最终生成的小游戏可以正常运行,界面简洁,并且带有一定动画效果。更重要的是,它基本处理好了前面提到的几个核心难点,公司数据展示清晰,历史记录可以回看,游戏进度和经营指标也没有明显混乱。

作为对比的是,Sonnet 4.6 完成同一任务大约用了 19 分钟。它同样让游戏正常跑了起来,还在内容设计上增加了一点小巧思。比如加入突发事件,让游戏难度和不确定性更强,游戏性确实更高。

这是个很有意思的差异。

基于 M3 的 MiniMax Code 更像是一个执行力很强的工程师 Agent,它会非常忠实地围绕你的 prompt 做交付。优势也在这里,动作快,完成度高,指令给过去,他会围绕最终产物,把页面、逻辑、状态和基础交互一起搭出来。

而基于 Sonnet 4.6 的 Claude Code 则更像一个会主动补充产品想法的合作者,它可能会在需求之外加入一些额外的设计。

这两种风格没有绝对好坏。如果你的需求非常明确,希望模型严格按照指令快速完成,M3 的表现会非常令人舒适,毕竟谁不想要一个指哪打哪的员工。但如果你期待模型主动补完产品创意、增强玩法、提出更多可能性,Sonnet 4.6 目前在创造性扩展上仍然更有优势。


02

看图写前端:原生多模态能力实测

相比于长任务和 Coding 能力,多模态可能是 MiniMax M3 身上最容易被低估的一项能力。

很多模型宣传自己支持图片输入,但实际体验下来,往往停留在“看图说话”的阶段,能够描述页面里有哪些元素,却很难将这些视觉信息进一步转化为可运行的代码。而 M3 此次给我的最大惊喜恰恰在于,它展现出了从视觉理解到工程交付的完整链路能力。

为了测试这一点,我选择了一个非常直接的场景,将 MiniMax 自己的官网首页作为测试对象。我向 M3 提供了两张首页截图,并要求它使用 React 与 Tailwind CSS 对页面进行复刻。

请根据这张网页截图,使用 React + Tailwind CSS 完整复刻页面。

要求:

1. 尽可能还原原页面的:

  • 整体布局

  • 字体层级

  • 卡片设计

  • 配色方案

  • 间距与留白

  • 按钮样式

2. 页面必须响应式,适配:

  • Desktop

  • Tablet

  • Mobile

3. 识别并还原:

  • Hero Section

  • 导航栏

  • Feature Cards

  • CTA Button

  • Banner

  • Footer

4. 使用组件化结构:

  • Navbar.tsx

  • Hero.tsx

  • FeatureCard.tsx

  • Footer.tsx

5. 不要使用占位符代码。

6. 输出完整可运行代码。

让生成页面与截图视觉相似度达到 90% 以上。

之所以选择官网首页,是因为这类营销页面往往包含大量视觉设计细节:导航栏、卡片模块、渐变背景、按钮样式、信息层级以及复杂的页面布局。对于模型而言,这不仅是在识别图片中的文字,更是在理解整个页面背后的设计逻辑。

最终结果让我有些意外。

首先是页面结构的还原度。

仅凭两张截图,M3 对首页整体布局的复刻已经达到了极高的水平。导航栏、Hero 区域、功能介绍模块以及各个内容板块之间的层级关系都被准确识别出来,页面整体结构与原网页几乎保持一致。

如果只从宏观布局来看,几乎已经到了以假乱真的程度。剩下的差异主要集中在一些字体间距、元素对齐方式等细节层面。但就是把这些不一样的局部画面单独截图出来,你都得回忆一下,MiniMax 那个正版的官网画面是不是就长这样。

更有意思的是,M3 并没有机械地“照抄截图”。

由于测试时我只提供了首页部分内容,理论上模型无法得知页面下半部分应该如何设计。但在实际生成过程中,M3 并没有简单地留下空白,而是主动分析了官网整体的视觉风格和配色特点,自行为后续页面补充了若干风格一致的内容模块。虽然这些内容并不完全对应真实官网,但无论是配色方案还是设计语言,都与原页面保持了高度一致,整体看起来并不会让人产生明显的割裂感。

这一点其实非常重要。因为它说明模型并不仅仅是在做 OCR 或者截图复刻,而是在尝试理解页面背后的设计规律,并利用这种理解完成合理推断。

除了视觉层面的还原之外,M3 对交互元素的识别也给我留下了不错的印象。

在生成结果中,模型正确识别出了导航栏、按钮等交互式组件,并为这些元素赋予了实际功能,例如导航栏中的菜单项可以直接跳转到对应内容区域,按钮组件也被正确实现为可点击元素。

更进一步,M3 还主动为页面补充了交互动效。当鼠标悬停在按钮上时,页面会出现过渡动画与视觉反馈。这些效果并没有出现在我的提示词中,而是模型根据现代 Web 产品的设计习惯自行加入的细节。

综合来说,M3 展现出了相当强的竞争力。它不仅能够理解网页截图中的结构信息,还能识别交互逻辑、推断缺失内容,并最终生成一个能够运行、能够交互、视觉风格高度一致的前端页面。

当然,它并非没有不足。页面中仍然存在一些排版细节上的偏差,但考虑到整个过程几乎完全由模型自主完成,并且输入仅仅是两张截图,这样的结果已经远超最初的预期。


04

价格也是生产力

价格是大模型竞争中最现实的话题。过去一年,AI 行业几乎经历了一轮全面价格战,DeepSeek 用极低的 API 成本掀翻市场,OpenAI、Anthropic 和 Google 持续提升模型能力的同时也在不断调整定价策略。

从官方定位来看,M3 主打的是 Frontier Coding、Agent、多模态与百万级上下文能力。这首先决定了它的竞争对手,不是那些用于智能客服、会议纪要的中端模型,而是当前行业最前沿的一批旗舰模型,比如 Claude Opus 4.8、GPT-5.5、Gemini 2.5 Pro、GLM-5.2 以及 DeepSeek V4-Pro 等。

直接看价格,目前 Claude Opus 4.8 的 API 价格为输入 5 美元/百万 Token、输出 25 美元/百万 Token。GPT-5.5 为输入 5 美元、输出 30 美元。DeepSeek V4-Pro 在最新降价后为输入 0.435 美元、输出 0.87 美元。相比之下,MiniMax M3 官方价格为输入 0.6 美元、输出 2.4 美元。

如果以 Claude Opus 4.8 为基准,M3 的输入成本仅约为其 12%,输出成本不到 10%,即便面对 OpenAI 最新的 GPT-5.5,M3 的调用成本也只有其十分之一左右。换句话说,在同样消耗 100 万输入 Token 和 100 万输出 Token 的情况下,使用 GPT-5.5 需要 35 美元,使用 Claude Opus 4.8 需要30美元,而 M3 仅需 3 美元。

对于用量不大的普通用户来说,这种差异尚不明显,但如果你是已经习惯了每天靠大量 Agent 处理长文档、批量生成代码或者构建 AI 应用的开发者,成本差距则会被迅速放大。假设一个项目每月消耗 1000 万输入 Token 和 1000 万输出 Token,使用 Claude Opus 4.7 的成本约为 300 美元,而使用 M3 仅需 30 美元左右。在保持接近旗舰模型能力的前提下,十倍左右的成本优势已经足以影响技术选型。

当然,价格从来不能脱离能力讨论。

如果 M3 只有廉价可圈可点,那么这样的比较并没有意义。但有意思的是,在 MiniMax 公布的多项评测中,M3 瞄准的正是 Claude Opus 4.7、GPT-5.5 和 Gemini 旗舰模型所在的竞争区间。在 SWE-Bench Pro 等代码能力测试中,M3 已经超过 GPT-5.5 与 Gemini 旗舰模型,接近 Claude Opus 4.7,在长任务 Agent 场景下,官方展示的论文复现和 CUDA 优化案例甚至能够持续自主运行十几个小时以上。

更关键的是,M3 并非依靠阉割能力来换取低价格。如前所述,这份价格背后是 100 万 Token 上下文窗口、原生多模态架构以及 Agent 工作流能力,而 Claude、GPT 和 Gemini 恰恰也是沿着同样的方向演进。换句话说,M3 试图参与竞争的并不是“便宜模型市场”,而是最昂贵、也是技术含量最高的旗舰模型市场。

因此,如果只看绝对价格,DeepSeek V4-Pro 仍然是目前最激进的价格屠夫。但如果同时考虑Coding、Agent、多模态和超长上下文这些旗舰能力,那么 M3 可能是目前整个市场里最具冲击力的性价比选手之一。


05

MiniMax Code 的野心

几项测试下来,MiniMax M3 给我的感受是,它已经可以位列国产模型里最值得关注的 Coding / Agentic 底座模型之一,尤其在长任务、长上下文、多模态输入和代码交付方面,展现出了很强的竞争力。

注意底座模型这个定位,此前城头变幻大王旗的各种 Benchmark 一度让性能水平成为衡量大模型的唯一角度。但是当我们讨论 Agent,讨论落地,更现实的维度是可用性。MiniMax M3 看起来无意再去挑战“最强模型”的地位,而是在尝试成为 Agent 时代最具性价比的基础设施。

这是一条更清晰的路径。随着 Claude Code、Codex 等 Agent 产品逐渐成为开发者的主要入口,模型越来越回归其原本的角色,即一种底层能力。对于开发者而言,一个模型是否能完成长任务、调用工具、理解图像并控制成本,远比单纯跑分更重要。

从这个角度看,MiniMax 的策略相当清晰。M3 在长上下文、多模态和 Coding 能力上稳稳跻身第一梯队,同时又以远低于 GPT、Claude 的价格,将这些能力带到更多真实工作流之中。

真实工作流,这也是 MiniMax Code 此刻问世的原因。

卖 Token 的商业模式昙花一现,事实是开发者用脚投票的时候毫不犹豫,API 供应商越来越容易被替代。在这种情况下,模型能力领先 3 个月,不代表就有 3 个月的商业优势。这迫使模型厂商追问,为什么要把最有议价权的入口拱手让人?

此外今天生产级的 Agent,已经是一种高度集成的系统工程能力。一个复杂任务的交付水平,只有部分取决于模型,还有部分取决于 Agent Runtime。如果找对测评角度,每家都有 “SOTA” 模型,那么执行层的争夺将成为新的竞争焦点之一。

所以 MiniMax Code 是一个写代码的软件吗?

这仍然是 IDE 的视角。它实际上是模型、代码库上下文、工具调用、执行环境、工作流编排,所有决定 Agent 最终效果的东西都在这里了。有了这些,MiniMax 才有了争夺开发者工作流入口的资格。图片

//

近期热门文章

Kimi K2.7 Code 有多能打?找 Bug,写 3D 游戏,2000 行代码砍掉 55%


杀上闭源前沿,国产最强已经无法满足 GLM-5.2 了


Mimo Code 爆火:我们挖开源代码,找到小米 AI 的真创新

图片

53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询

扫码登录
登录即表示您同意《53AI网站服务协议》
服务协议

欢迎您使用【53AI 官方网站】(以下简称“本网站”或“我们”)。本《会员服务协议》(以下简称“本协议”)是您(以下简称“会员”或“用户”)与【深圳市博思协创网络科技有限公司】之间关于注册、登录及使用本网站会员服务所订立的法律协议。

在您注册或登录前,请务必审慎阅读、充分理解各条款内容,特别是免除或限制责任的条款、知识产权条款、争议解决条款等。此类条款将以加粗形式提示您注意。 当您通过微信公众号授权、手机验证码验证或其他方式成功登录本网站时,即视为您已完全理解并同意接受本协议的全部内容。

一、 定义

本网站:指由【深圳市博思协创网络科技有限公司】运营的,域名为【53ai.com】的网站及相关移动端页面。

会员服务:指本网站向注册会员提供的知识库文章查阅、内容检索及其他相关增值服务。

知识库内容:指本网站发布的包括但不限于文字、图表、数据、研究报告、行业分析等数字化内容资源。

二、 账号注册与登录

登录方式:本网站支持以下登录方式,您可根据实际情况选择:

微信公众号授权登录:您同意将您的微信OpenID信息授权给本网站,用于创建或关联会员账号。

手机验证码登录:您需提供真实有效的手机号码,并通过短信验证码完成身份验证与登录/注册。

账号安全:您的账号仅限您本人使用,禁止赠与、借用、租用、转让或售卖。因您保管不善导致的账号被盗、密码泄露等损失,由您自行承担。

实名认证:根据相关法律法规要求,我们可能要求您在特定功能下完成实名认证。如您拒绝提供,可能无法使用部分或全部服务。

未成年人保护:若您未满18周岁,请在法定监护人的陪同下阅读本协议,并在征得监护人同意后使用本服务。

三、 服务内容与规范

知识库查阅权限:会员登录后,有权按照其会员等级对应的权限范围,在线浏览、检索本网站知识库中的相关文章及内容。

服务变更:我们有权根据业务发展需要,调整、变更或终止部分服务内容,并将以网站公告、公众号消息等方式提前通知。

禁止行为:您在使用服务时不得实施以下行为:

利用技术手段批量爬取、下载、转存知识库内容;

将知识库内容用于商业目的或未经授权地向第三方传播;

干扰本网站正常运行或侵犯其他用户合法权益;

发布违法违规信息或从事违反公序良俗的活动。

四、 知识产权声明

权利归属:本网站知识库中的排版设计、软件代码等内容的知识产权均归【公司全称】或原权利人所有,受《中华人民共和国著作权法》等法律保护。

有限许可:本网站授予会员一项非独占、不可转让、不可转授权的普通许可,仅限于个人学习、研究之目的在线查阅知识库内容。

侵权追责:未经书面许可,任何单位或个人不得以任何形式复制、转载、摘编、镜像、汇编或以其他方式使用上述内容。一经发现,我们保留追究其法律责任的权利。

五、 个人信息保护

我们重视对您个人信息的保护。关于我们如何收集、使用、存储和保护您的个人信息,请单独阅读 《隐私政策》。

您通过微信公众号授权或手机号验证所提供的信息,我们将严格按照《个人信息保护法》的规定处理,仅用于身份识别、服务提供及安全验证等必要用途。

您可以随时通过网站设置或联系客服行使查阅、更正、删除个人信息及撤回授权同意的权利。

六、 免责声明

内容准确性:知识库内容仅供参考,不构成专业建议。我们不对其完整性、准确性、时效性作任何明示或暗示的保证,您应自行判断并承担使用风险。

不可抗力:因自然灾害、政策法规变化、网络故障、第三方平台接口异常(如微信接口维护、运营商短信通道故障)等不可抗力导致的服务中断或延迟,我们不承担违约责任。

第三方链接:本网站可能包含指向第三方网站的链接,该等网站的内容和服务不受我们控制,请您自行甄别风险。

七、 违约责任

如您违反本协议约定,我们有权视情节采取警告、限制功能、暂停服务、注销账号等措施,并保留要求赔偿损失的权利。

如因您的违约行为导致我们遭受行政处罚、第三方索赔或商誉损失,您应承担全部赔偿责任(包括但不限于罚款、赔偿金、律师费、公证费等)。

八、 法律适用与争议解决

本协议的订立、执行和解释均适用中华人民共和国大陆地区法律。

因本协议产生的或与本协议有关的任何争议,双方应友好协商解决;协商不成的,任何一方均可向【公司所在地】有管辖权的人民法院提起诉讼。

九、 其他

本协议构成双方就本服务达成的完整协议,取代此前任何口头或书面约定。

本协议任一条款被认定为无效或不可执行的,不影响其他条款的效力。

我们对本协议享有最终解释权,并在法律允许的范围内保留随时修改的权利。修改后的协议一经公布即生效,继续使用服务即视为同意修订内容。


已查阅