微信扫码
添加专属顾问
我要投稿
MiniMax M2.1在编程和办公场景表现惊艳,国产模型首次达到国际顶级水平! 核心内容: 1. M2.1在SWE-bench等编程基准测试中超越多个国际知名模型 2. 详细配置指南:如何在Cursor中集成M2.1进行复杂项目开发 3. 前端UI生成能力突出,可自动创建高级交互页面和动画效果
MiniMax M2.1 终于正式发布了。这一代模型的核心目标,是在更多编程语言和日常办公场景里做到"真正可用",并在这些领域把能力拉到行业顶级水准。
官方介绍中提到,团队系统性地增强了 M2.1 在多种编程语言上的表现,尤其是对原生 Android 和 iOS 开发能力做了重点加强。相比上一代 M2,M2.1 的回复更加简洁清晰,不再只是"代码更强"——在日常对话、技术说明和写作场景中,回答质量也有明显提升。
从公开数据来看,M2.1 在 SWE-bench Verified 上的得分已经达到 74%,冲到国产模型第一的位置。在软件工程相关的多个榜单,特别是多语言相关的评测中,它的成绩甚至超过了 Sonnet 4.5 和 Gemini 3 Pro,与 Claude Opus 4.5 的差距也在不断缩小。
MiniMax 还构建了一个全新的 VIBE 基准,覆盖 Web 端、仿真环境、Android、iOS 和后端等多个维度。在这一整套基准下,M2.1 的总体表现已经非常接近 Opus 4.5,并且在所有子集上都明显优于 Sonnet 4.5。
如果你特别关心编程能力,这一代是非常值得认真测试的一版。
MiniMax-M2.1 和 MiniMax-M2 一样,支持在多个软件里面使用。
我这次主要是在 Cursor 的 Plan 模式下使用 M2.1。
Plan 模式会先梳理任务、列出步骤,再逐步执行。对复杂项目或者调试比较棘手的 Bug 时,帮助非常大。
MiniMax 官网上有非常详细的文档,介绍如何在 Cursor 里配置它的 API。
核心的几步是:
M2.1 在 Web 端的 UI 和交互上,给了我很多惊喜。
在没开 Plan 模式、也没用前端优化技能的情况下,我让它生成了一个理发沙龙着陆页。最终出来的是一个黑金配色的页面,整体布局和配色都很高级。
M2.1 还帮我生成了一组“催眠数学”动画:包括分形螺旋、粒子漩涡、彭罗斯三角、玫瑰曲线花园等多种风格。动画不仅好看,还可交互——点击、拖拽、键盘都能调参数,实时看变化。
我还让它生成了一套“奥德赛号主控面板”的界面。这里我结合了前端 skill,再加上 Cursor 的 Plan 模式,让 M2.1 负责布局和交互逻辑。
最终生成的界面 UI 非常美观,有“启动扫描”“触发红色警报”等按钮。点击之后,会出现类似科幻片那种动态效果。
MiniMax-M2.1 还帮我做了一个 AI 教程类的页面。我在 AGENTS.md 里特意强调'不要用太普通的字体',它也很好地遵循了,选了更有特色的字体。
接下来是一个偏三维场景的实验:我给它的提示是 Minecraft 风格,要有方块人,背景是春晚聚会场景,电视机上要写着“2026 春晚”,桌上要有饺子等等。
电视和电视柜的位置、质感都不错。但人有点嵌进桌子里,饺子也"飘"在桌外,说明它在空间关系上的理解还有待提升。
在生成这个场景的过程中,M2.1 会主动反问我:
我觉得“加 GIF 录制”的提议非常好,就让它实现了一键录制 GIF 的功能:点击开始录制,几秒后自动停止,可直接下载 GIF。
还有一个是“绵羊理发店”的场景。这道题里我给的提示词非常长,元素非常多,目的就是想测试 M2.1 在指令遵循和空间理解方面的能力。
资质证书、窗外透进来的光、理发椅和工具细节都不错。不过围布没盖好,小羊和椅子的距离也不太自然。
这是 M2.1 生成的"兵马俑跳街舞":
兵马俑表演 popping、locking、breaking、Waving,最后还有 freestyle。
同样,让我惊喜的是它对传统文化的理解。
下方还有三个小标签,介绍兵马俑的材质:
这也是我近期测过的非常有趣的兵马俑街舞画面。
这是 M2.1 生成的数字书画应用。页面很美观,笔架有三种笔,墨水浓度和颜色都可调。敦煌纹饰做得相当好。
整体 UI 的配色、文案和交互,都能看出它对中国文化的理解:比如下方有“落款装裱”。
接下来重点讲一个完整项目:一个由 M2.1 帮我从零构建的 AI 幻灯片图片生成器。这是一个全栈应用,我已经把它开源了。
这个应用的核心功能是:
应用里内置了 30 多种风格,还提供了右侧的“风格设置”按钮,可以新增分类、自定义风格提示词。
图片数量可自动或手动指定,比例综合了即梦和香蕉 Pro 的常见尺寸。
AI 在分好段之后,还可以做一次“评估与优化”:
还可以手动合并多段内容,节省生图成本。合并后可自己修改提示词,或交给'提示词助手'做去重和润色。
确认好分段和提示词之后,你可以:
不满意可调整提示词重新生成,应用会保留不同版本方便对比。所有图片支持一键下载。
从零到完成,包括多轮修 Bug 和优化,我大概花了 5 小时,编码全程用 M2.1。
遇到各种问题,我也让 M2.1 逐一调试。
遇到这类问题时,我通常做两件事:
它在工具调用和自动调试这块的表现非常好,基本上都能快速定位问题并修复掉,比我自己刷新页面、看日志、改代码要高效很多。
我给的 PRD 功能较多,M2.1 大概完成了 90%。“评估功能”——被遗漏了。页面上对应的按钮只显示“还在开发中”。
从整体效果来看,它的指令遵循已经算很不错了:在那么长的需求里只漏掉一个功能点。
在整个应用的构建过程中,分享一点小心得:
无论是从零构建应用,还是修复棘手的 Bug,都建议先开启 Plan 模式。
最后还有个小 tip:使用 MiniMax 的编码套餐。
以上就是今天视频的所有内容,这次 M2.1 无论在前端 UI 还是全栈应用构建方面,都有了明显的提升。国产模型与 Claude 顶级模型的差距越来越小了。
推荐大家体验!
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2026-01-04
字节Seed:大概念模型来了,推理的何必是下一个token
2026-01-04
MIT团队推出递归语言模型!不改架构、不扩窗口,上下文处理能力扩展百倍
2026-01-04
MIT发现让AI变聪明的秘密,竟然和人类一模一样
2026-01-04
Claude SkiLL 21 种让人上瘾的实战场景(更细拆解版 · 可直接落地)
2026-01-04
DeepSeek开年王炸:mHC架构——用流形约束重构残差连接的革命性突破
2026-01-04
五个值得一试的 Claude Skills:从代码审查到数据优化
2026-01-04
你的Claude Code缺一块仪表盘!
2026-01-03
Google 刚发布 Gemini 3 Flash,说实话,AI 的经济模型被彻底改写了
2025-10-26
2025-10-07
2025-11-19
2025-10-20
2025-11-13
2025-10-18
2025-10-11
2025-10-21
2025-10-15
2025-10-09
2026-01-02
2025-12-31
2025-12-31
2025-12-31
2025-12-30
2025-12-30
2025-12-25
2025-12-25