我要投稿

MiniMax 的 Agent 做得怎么样？｜我们实测了 7 个案例，给出 3 点思考

发布日期：2025-06-19 08:18:19 浏览次数： 5379

作者：十字路口Crossing

微信搜一搜，关注“十字路口Crossing”

你追我赶太好了。

👦🏻 作者: 镜山

🥷 编辑: Koji

🧑‍🎨 排版: NCon

过去几天，Minimax 下场做通用 AI Agent 的消息在各种社区中都获得了相当程度的关注，而且他们还在 X 平台官宣了为期 5 天的发布周，首先发布的是一个开源推理模型 M1。

当具备完整大模型技术栈的公司开始构建 Agent 产品时，理论上，他们能够在底层架构进行整合设计，这会带来哪些差异化优势？

一个拥有完整技术闭环的玩家 ——MiniMax ，正要让这款集合原生模型能力的通用 AI Agent 产品冲入市场。

🚥

「十字路口」今天这篇测评，将全方位体验和展现 MiniMax Agent 的能力，特别着重测试其最近增强的功能。

我们深度测试了 7 个案例，并据此总结和分享我们的 3 点思考。

Agent 正在从「能做什么」转向「做得有多美」

现在，我们注意到 Agent 不再仅仅强调「能做什么」，而是逐步转向「做得有多美」。这不仅包括任务完成的准确性，还包括产出结果的「美学性」。

我们先从最简单的一个模拟案例开始。

1）观鸟记录可视化

Koji 保留了一份持续 3 年的观鸟记录 CSV 文件，观鸟地点涉及了多个国家，并且地点的记录方式为经纬度，非常复杂，很适合让 Agent 拿来做可视化。

我们给 MiniMax Agent 输入了下面这段提示词：




Prompt：将我上传的 CSV 观鸟记录文件可视化成网页，有各种数据展示，视觉效果就像是苹果的各种动态展示效果

MiniMax Agent 在处理长程复杂任务上的能力很不错，除了一般 Agent 也具有的任务规划能力之外，它还会非常有意识地自我审查。

在这段持续多轮的修复工作流程中，我们发现了一个亮点，同时这也是 MiniMax Agent 为什么能够交付完整任务的关键 —— 它会用浏览器操作 Browser Use，自主「测试/Debug」已生成好的初版网页！

即便在网页设计基本正常时，Agent 仍然会查询所有组件，并进行多轮的自我修复。

下面的左图是我为了方便观看，用中文翻译了一遍它的「修复」工作流，右图则是 MiniMax Agent 的初始工作流：

它这种用 Browser Use 来自主 debug 的方法有些特殊，多数 Agent 往往只是调用 Browser 去理解外部网站。

你既可以说 MiniMax Agent 对自己的「第一轮产品有些不放心」，也可以说它有点担心「用户会不满意」：

《观鸟记录可视化》这个案例对于 MiniMax Agent 的难度可能还是太低了，我只 Roll 了一次，该网页就已经体现了比较强的 Coding 能力，前端设计很简洁，功能模块也很完备，涵盖表单处理、动态数据交互、响应式设计等多个关键模块。

我录制了一个视频，你可以直观感受下：

在我测试过的许多 Agent 里，MiniMax Agent 对 Koji 那份复杂的《观鸟记录 CSV 文件》的识别是很准确的。比如，它观察到了 236 种鸟类物种；5078 次记录；覆盖 63 个地点；3 年以上的数据跨度；共 166 天活跃观测日等等。

在这个观鸟可视化的网页里，我个人很喜欢下面的交互式旭日图和活动日历，都非常直观。

「可视化」的意义可能就在于此，让人可以「赏心悦目」地获得数据：

2）参考某网站的风格，重新设计

由于在体验过程中，我发现 MiniMax Agent 利用 Browser Use 的能力非常强，所以我准备给它上点难度：直接识别外部网站的交互设计，并移植到现在的观鸟网站里。

提示词里，直接加入目标网站即可：




Prompt：参考 https://wope.com/ 的交互设计，比如聚光灯式的悬停效果和可操作的复制表格。使用Linear设计风格：在大面积暗色背景下，巧妙地运用渐变、模糊、动态流光、极细描边、微噪点、外发光以及庄重的无衬线字体，并结合流畅克制的微动效来组织和修饰界面元素。

然后，Agent 就开始使用 Browser 进入到「https://wope.com/ 」里，开始识别网站交互设计。

Agent 对这个网站的视觉效果的理解是：高级暗黑主题元素，聚光灯悬停效果，可复制表格，微噪点纹理，精致的字体排版：

识别完各种风格效果后，Agent 开始执行大量的更新任务，并给出了一份非常详细的更新任务列表：

虽然在文字显示方面，现在的页面与外部网站的视觉风格仍有一定差距，但在参考外部网站进行迭代后，设计感确实更上了一层楼。

尤其是在文字配色和动效上，更加有视觉冲击力了。

3）12 位世界最著名的 AI 人物与他们的名言

测试完可视化能力之后，我还想看看这款 Agent 在搜集图片和生成图片上的多模态能力。

我们模拟一个案例，让 Agent 先去搜索人物图片，再「吉卜力化」：




Prompt：我们准备为12位世界最著名的AI人物做 PDF 海报，里面主要展示CEO的图片（吉卜力风格）和他们的关于创业的语录文字，文字要放在CEO图片的旁边，要有设计感。

MiniMax 开始大规模的 Web 搜索，我惊讶地发现：它居然还能精准进入到 X 和 Linkedln 进行搜索：

当 MiniMax Agent 搜索完 AI 人物后，我开始仔细回顾它生成吉卜力风格结果的工作过程。

我发现：这家伙还是很聪明的。

它竟然为每个人物项目都自主规划了一段吉卜力风格的提示词：




超干净的吉卜力风格半身肖像画，主角是 Sam Altman，采用柔和水彩风格，暖色轮廓光，表情温和，穿着职业正装，背景宁静，极为精致的动漫艺术风格，4K画质，光影优美。

经过这一番操作，Agent 给出的 PDF 文件所呈现的效果非常的完整。

相比于我们在试用某些 Agent 时，常出现无法将图片正确插入到指定位置的情况，MiniMax Agent 能多做两步：自主搜集大量信息，将图片吉卜力化，再插入到正确位置。

你可以看看 MiniMax Agent 生成结果的一致性有多高：

4）深度研究苹果「液体玻璃」风格的 PPT 报告

随后，我们再来看看 MiniMax Agent 生成 PPT 的能力，它在这方面也表现出了不错的精确度以及美观度。

比如，最近苹果「液体玻璃」非常出圈，所以我想让它帮我做个深度研究苹果「液体玻璃」的PPT报告。

提示词如下：




Prompt：项目名称：《Liquid Glass at Apple Events – Design & Technology Research Report》 目标： 生成一份 8 页 / 16:9 的 .pptx，系统梳理 Apple 在近期发布会上提出的「液体玻璃」（Liquid Glass）设计理念、材料科技、制造工艺与市场影响，整体风格对标 Apple Keynote：极简、半透明、磨砂。

在 MiniMax Agent 执行这类涉及到「现实事物」的 PPT 时，搜索信息其实只是它的基本能力，这方面就不多概述了。它还是会像先前描述的那样，进行详尽的信息查找。

除此之外，当我浏览它的工作流时，看到一个让我觉得特别惊艳的点 —— 它为了制作 Apple 的 Timeline，居然会锁定「Timeline」这个关键词，去搜索相关图片，而不只是去套用 Apple 本身的 Timeline 图片：

很明显地，MiniMax Agent 在借用这些 Timeline 的灵感。最后，它做出来 Apple Timeline 是下面这样的：

除了单独点击 PPT ，它会显示各种交互效果之外，PPT 在播放时也是具有动效设计的。尤其是「Apple设计语言演进 (2007-2025)」那一段，MiniMax Agent 生成的效果简洁直观，有设计感。

我录制了一个 GIF，可以感受下：

5）Monochrome Masterpieces — 十部黑白影史经典影展网站

在前面我们已经分享了的实际体验中，MiniMax Agent 在完成任务时所展现的长程复杂任务处理能力以及它的「审美观」都很不错。

接下来，我们来看一个更直接挑战审美的例子：




Prompt：创建《Monochrome Masterpieces — 十部影史经典影展》黑白网站

MiniMax Agent 收集的海报质量不错，几乎没有夹杂广告或者水印信息的图。

同样地，在第一轮网页部署时，MiniMax Agent 还是会用 Browser Use 自我排查信息，这算是它的基本操作。

它所生成的网页中的这十部影片涵盖了 1936 — 1960 年的经典之作，像是黑泽明的「七武士」以及「卡萨布兰卡」。

最终，它给出了一个完整度较高，具有交互动效、看起来赏心悦目的网站：

不过，是 Agent 就会犯错，它在第一轮生成的网页中就出现了一个错误。Agent 将「惊魂记」的图片截错了：

我试了下将这张出现错误的截图发送给了 Agent，看它能否修复。

从结果来看，MiniMax Agent 确实已经可以视觉理解截图中出现的问题，并准确定位到了网页的错误界面中，它意识到了：海报被裁剪，需要修复 CSS 样式。

MiniMax 之前发布的声音模型在各个 AI 产品社区里都非常的火，所以我也想试试 Agent 是否能够将一段音频准确插入到这个网页里的某一个位置中，并且是否能够正常播放。

我输入了下面这段提示词：




Prompt： 我想要可以通过点击每一幅电影作品的海报，进入到这个电影更详细的介绍界面。 并且你要在这个介绍界面里插入介绍音频，用MiniMax生成音频。

注意，提示词中最好加入「用 MiniMax 生成音频」，这样才能最大成功率地让 Agent 调用自己家的 MiniMax MCP。

像是我一开始直接让它生成音频，就失败了一两次。

不过，当我让它用 MiniMax 生成音频并替换掉错误音频时，它的表现就好了很多。

而且还用了一个有点好玩的校验方法：依靠文件的大小来判断音频是否正常生成：

最终 Agent 依靠自己写的「剧本」，生成了一个比较完整、附带详情界面以及音频播客的网页，我录制了一段，你可以看看效果，听一下「七武士」音频播客的拟真度：

6）世界十大黑白电影海报单

MiniMax Agent 将多模态类型的文件插入到指定位置的能力确实不错，在挑选电影海报时的「甄别」能力也蛮好的。

接下来，我就试试能否让它更上一层楼，做一些更复杂的交互设计，生成一个「经典黑白电影画廊」出来：




Prompt：制作一个电影海报单页面，主要内容为世界十大著名黑白电影，包含以下功能： 1.顶部全屏海报图。 2.滚动触发海报逐步显现动态文本、渐变蒙版或微交互效果。 3.在滚动过程中使用视差或简单 3D 转场使海报画面层次感增强。 4.动态排版：标题、副标题、上映日期等元素随滚动逐步出现或移动。 5.性能优化 & 响应式布局，兼容移动端。

这对于 MiniMax Agent 来说是一个更加复杂的需求，因为这考验了它的综合能力：深度搜索信息，整合，文字与图文的匹配，复杂的交互设计效果。

没想到，Agent 第一轮出来的效果，我就很喜欢：

我截了一张「公民凯恩」的电影海报单页面作为展示。

整体界面十分具有设计感，美感很高。电影名称、剧情简介、影史意义，甚至连经典台词都加入了其中：

最让我惊奇的是！「公民凯恩」的黑白海报在最开始时其实并不是黑白颜色。

我去回顾了下它的工作流，发现 Agent 在最一开始的批量图片搜索步骤中，「公民凯恩」的海报其实是彩色风格，后期的网页中所显示的黑白海报应该是 Agent 自主加了一层黑白滤镜或者是执行了一些其他操作：

再有就是，整个网页的交付度高。比如，下面的这个重叠交互效果美观度就很高，层级设计合理，组件之间的覆盖与融合自然过渡，没有出现显示 bug：

7）让 MiniMax 整理自己的工作流

最后，我想完整介绍 MiniMax 的工作流。但由于它处理复杂任务时涉及大量步骤和专业术语，直接讲解会比较困难。于是我灵机一动：何不让 MiniMax Agent 来整理并可视化它自己的工作流呢？

此时的提示词其实很简单，我把它的工作流程复制下来再发给它，并加上一句简单的提示词和对视觉效果的要求即可：




Prompt：这是一家名叫「MiniMax」的Agent产品的工作流，帮我可视化，并解读。 要求：结构清晰。字体为宋体，中文使用深红色，英文使用白色。

在第一轮生成中，MiniMax Agent 就做出来一份采用卡片式网格布局的网页，展示了它自己工作流的各个阶段。

比如，它说它自己的工作步骤有 75 个，成功率 100%……

在这个网页中，Agent 展现了不同尺寸的卡片组合，创造了很好视觉层次感。像是它包含了大卡片（开发效率）、中卡片（成功率、技术栈）、长卡片（工作流程阶段、性能对比）等等。

Agent 还说自己的开发速度提升 10 倍，用了 14 个现代技术栈：

我还让它深入介绍了下自己的工作流的六个核心阶段。

可以看到它大量时间都放在了数据处理、前端开发时。还有 13.3% 的时间集中在了测试调试，操作了 42 次文件：

工作流的可视化如下：

最后，我们想分享 3 点评测过程中的思考：

1）多模态的融合，越强越好

对于一个通用 Agent 来说，理解并处理图像信息的能力是 Bottom Line。

如果它在多模态处理上表现不够令人满意，无论文本能力多强，最终的可交付性大概率也会受到限制。尤其是在需要图文搭配或交互内容生成的复杂任务中，多模态能力的不足将直接成为「天花板」。

这对于「技术成功」之外的「产品成功」来说，是一个巨大的阻碍。

如果原生多模态大模型公司本身就具备这种能力，就能很好地解决这一问题，让产品更具说服力。

像是在这回的案例之中，MiniMax 就用到了它们的音频生成能力，并且只在短短的数步之内就将音频内容正确排版到了合适的位置。

这种深度整合需要 Agent 真正理解图像、文本、音频之间的关联，而不仅仅是简单的模块调用。

对 Agent 来说，多模态能力是「刚需」，而不是「锦上添花」。

2）上下文窗口，越长越好

一个足够长的上下文能够：

【1】保持对话的连贯性，即使经过多轮复杂交互，也不会「失忆」。

【2】在长程复杂任务规划上尤其重要，足够的上下文才能够支撑握整个项目的来龙去脉。

【3】基于完整的历史信息，而非片段化的记忆，作出更智能的决策。

「足够长」的上下文能够让 Agent 在输入侧和输出侧都产生足够的可能性。

各家厂商的模型明显都在往这方面走。MiniMax 前几天开源的 M1，输入甚至到了 100 万 token，与 Gemini 2.5 Pro 并肩；在输出端，M1 达到了 8 万 token，甚至超越了 Gemini 2.5 Pro，成了业界第一。

正如现在各家 Agent 都在采用 MCP，充足的上下文长度在输入端能够处理完整的代码库，依靠上下文的连贯性来支持复杂的推理链条，从而逐步分解用户需求；在输出端则能够将文本、图像、音频有机地组合，最终为用户呈现一个「真正合格」的交付成果。

3）品位，越来越重要

当各家基础模型技术能力趋于同质化的现在，真正让 Agent 脱颖而出的，其实可能是「品味」。

「品味」不仅仅定义为视觉设计的美观，还在于任务完成的标准。比如，到了 Agent 长长的工作链的「最后一公里」，是选择急速交付，还是再让 Agent 自我审查一遍？

「交付品味」，决定了 Agent 是「差不多先生」还是「足够好先生」。

🚥

在测试 MiniMax Agent 的这 7 个案例时，我意识到：未来总有一天，技术的门槛会逐渐被抹平，当所有的 Agent 都能「干完活」时，那些能「干得漂亮」的 Agent 才更有可能脱颖而出。

AI 呈现出的能力越强，「审美」的稀缺性就越高。

当基础能力成为标配时，Agent 的差异化价值就体现在对「用户的理解」和「对美的追求」上。

这让我想起乔布斯曾在一段访谈中提到：

归根结底，一切都取决于品味。关键在于让自己接触人类最伟大的作品，然后努力将其中的精华融入自己的创作中。

「十字路口」的名字也源自乔布斯对苹果公司的一个比喻，形容它站在科技与人文的十字路口，伟大的产品往往诞生在这里。

正如乔布斯所说，一切都取决于品味。

当 Agent 超越了单纯的任务执行者角色，真正立足于技术与人文的十字路口时，它才会像一位富有品味、深谙用户需求的设计师，有可能创造出超越基础功能的优雅与惊喜。

期待那一天！

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业