支持私有化部署
AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


MiniMax 的 Agent 做得怎么样?|我们实测了 7 个案例,给出 3 点思考

发布日期:2025-06-19 08:18:19 浏览次数: 1605
作者:十字路口Crossing

微信搜一搜,关注“十字路口Crossing”

推荐语

MiniMax Agent展现惊人实力,7个实测案例揭示AI助手如何从功能转向美学体验。

核心内容:
1. MiniMax Agent在复杂任务处理中的自我审查与自主Debug能力
2. 观鸟记录可视化案例展现的前端设计与交互水平
3. 从功能实现到美学追求的AI Agent发展趋势

杨芳贤
53AI创始人/腾讯云(TVP)最具价值专家

你追我赶太好了。


loading

👦🏻 作者: 镜山

🥷 编辑: Koji

🧑‍🎨 排版: NCon


loading


过去几天,Minimax 下场做通用 AI Agent 的消息在各种社区中都获得了相当程度的关注,而且他们还在 X 平台官宣了为期 5 天的发布周,首先发布的是一个开源推理模型 M1。


当具备完整大模型技术栈的公司开始构建 Agent 产品时,理论上,他们能够在底层架构进行整合设计,这会带来哪些差异化优势?


一个拥有完整技术闭环的玩家 ——MiniMax ,正要让这款集合原生模型能力的通用 AI Agent 产品冲入市场。

🚥

「十字路口」今天这篇测评,将全方位体验和展现 MiniMax Agent 的能力,特别着重测试其最近增强的功能。


我们深度测试了 7 个案例,并据此总结和分享我们的 3 点思考

Agent 正在从「能做什么」转向「做得有多美」


现在,我们注意到 Agent 不再仅仅强调「能做什么」,而是逐步转向「做得有多美」。这不仅包括任务完成的准确性,还包括产出结果的「美学性」。


我们先从最简单的一个模拟案例开始。

1)观鸟记录可视化

Koji 保留了一份持续 3 年的观鸟记录 CSV 文件,观鸟地点涉及了多个国家,并且地点的记录方式为经纬度,非常复杂,很适合让 Agent 拿来做可视化。

loading


我们给 MiniMax Agent 输入了下面这段提示词:




Prompt:将我上传的 CSV 观鸟记录文件可视化成网页,有各种数据展示,视觉效果就像是苹果的各种动态展示效果


MiniMax Agent 在处理长程复杂任务上的能力很不错,除了一般 Agent 也具有的任务规划能力之外,它还会非常有意识地自我审查。


在这段持续多轮的修复工作流程中,我们发现了一个亮点,同时这也是 MiniMax Agent 为什么能够交付完整任务的关键 —— 它会用浏览器操作 Browser Use,自主「测试/Debug」已生成好的初版网页!

即便在网页设计基本正常时,Agent 仍然会查询所有组件,并进行多轮的自我修复。


下面的左图是我为了方便观看,用中文翻译了一遍它的「修复」工作流,右图则是 MiniMax Agent 的初始工作流:


loading

它这种用 Browser Use 来自主 debug 的方法有些特殊,多数 Agent 往往只是调用 Browser 去理解外部网站。


你既可以说 MiniMax Agent 对自己的「第一轮产品有些不放心」,也可以说它有点担心「用户会不满意」:


loading


《观鸟记录可视化》这个案例对于 MiniMax Agent 的难度可能还是太低了,我只 Roll 了一次,该网页就已经体现了比较强的 Coding 能力,前端设计很简洁,功能模块也很完备,涵盖表单处理、动态数据交互、响应式设计等多个关键模块。


我录制了一个视频,你可以直观感受下:



在我测试过的许多 Agent 里,MiniMax Agent 对 Koji 那份复杂的《观鸟记录 CSV 文件》的识别是很准确的。比如,它观察到了 236 种鸟类物种;5078 次记录;覆盖 63 个地点;3 年以上的数据跨度;共 166 天活跃观测日等等。


在这个观鸟可视化的网页里,我个人很喜欢下面的交互式旭日图和活动日历,都非常直观。


「可视化」的意义可能就在于此,让人可以「赏心悦目」地获得数据:


loading

2)参考某网站的风格,重新设计

由于在体验过程中,我发现 MiniMax Agent 利用 Browser Use 的能力非常强,所以我准备给它上点难度:直接识别外部网站的交互设计,并移植到现在的观鸟网站里。


提示词里,直接加入目标网站即可:




Prompt:参考 https://wope.com/ 的交互设计,比如聚光灯式的悬停效果和可操作的复制表格。使用Linear设计风格:在大面积暗色背景下,巧妙地运用渐变、模糊、动态流光、极细描边、微噪点、外发光以及庄重的无衬线字体,并结合流畅克制的微动效来组织和修饰界面元素。


然后,Agent 就开始使用 Browser 进入到「https://wope.com/ 」里,开始识别网站交互设计。


loading


Agent 对这个网站的视觉效果的理解是:高级暗黑主题元素,聚光灯悬停效果,可复制表格,微噪点纹理,精致的字体排版:


loading


识别完各种风格效果后,Agent 开始执行大量的更新任务,并给出了一份非常详细的更新任务列表:



虽然在文字显示方面,现在的页面与外部网站的视觉风格仍有一定差距,但在参考外部网站进行迭代后,设计感确实更上了一层楼。


尤其是在文字配色和动效上,更加有视觉冲击力了。


loading


3)12 位世界最著名的 AI 人物与他们的名言


测试完可视化能力之后,我还想看看这款 Agent 在搜集图片生成图片上的多模态能力。


我们模拟一个案例,让 Agent 先去搜索人物图片,再「吉卜力化」:




Prompt:我们准备为12位世界最著名的AI人物做 PDF 海报,里面主要展示CEO的图片(吉卜力风格)和他们的关于创业的语录文字,文字要放在CEO图片的旁边,要有设计感。


MiniMax 开始大规模的 Web 搜索,我惊讶地发现:它居然还能精准进入到 X 和 Linkedln 进行搜索


loading


当 MiniMax Agent 搜索完 AI 人物后,我开始仔细回顾它生成吉卜力风格结果的工作过程。


我发现:这家伙还是很聪明的


它竟然为每个人物项目都自主规划了一段吉卜力风格的提示词:





超干净的吉卜力风格半身肖像画,主角是 Sam Altman,采用柔和水彩风格,暖色轮廓光,表情温和,穿着职业正装,背景宁静,极为精致的动漫艺术风格,4K画质,光影优美。


loading


经过这一番操作,Agent 给出的 PDF 文件所呈现的效果非常的完整。


相比于我们在试用某些 Agent 时,常出现无法将图片正确插入到指定位置的情况,MiniMax Agent 能多做两步:自主搜集大量信息,将图片吉卜力化,再插入到正确位置。


你可以看看 MiniMax Agent 生成结果的一致性有多高:


loading

4)深度研究苹果「液体玻璃」风格的 PPT 报告

随后,我们再来看看 MiniMax Agent 生成 PPT 的能力,它在这方面也表现出了不错的精确度以及美观度。


比如,最近苹果「液体玻璃」非常出圈,所以我想让它帮我做个深度研究苹果「液体玻璃」的PPT报告 。


提示词如下:




Prompt:项目名称:《Liquid Glass at Apple Events – Design & Technology Research Report》 目标: 生成一份 8 页 / 16:9 的 .pptx,系统梳理 Apple 在近期发布会上提出的「液体玻璃」(Liquid Glass)设计理念、材料科技、制造工艺与市场影响,整体风格对标 Apple Keynote:极简、半透明、磨砂。


在 MiniMax Agent 执行这类涉及到「现实事物」的 PPT 时,搜索信息其实只是它的基本能力,这方面就不多概述了。它还是会像先前描述的那样,进行详尽的信息查找。


除此之外,当我浏览它的工作流时,看到一个让我觉得特别惊艳的点 —— 它为了制作 Apple 的 Timeline,居然会锁定「Timeline」这个关键词,去搜索相关图片,而不只是去套用 Apple 本身的 Timeline 图片:


loading


很明显地,MiniMax Agent 在借用这些 Timeline 的灵感。最后,它做出来 Apple Timeline 是下面这样的:


loading
loading


除了单独点击 PPT ,它会显示各种交互效果之外,PPT 在播放时也是具有动效设计的。尤其是「Apple设计语言演进 (2007-2025)」那一段,MiniMax Agent 生成的效果简洁直观,有设计感。


我录制了一个 GIF,可以感受下:


loading


5)Monochrome Masterpieces — 十部黑白影史经典影展网站

在前面我们已经分享了的实际体验中,MiniMax Agent 在完成任务时所展现的长程复杂任务处理能力以及它的「审美观」都很不错。


接下来,我们来看一个更直接挑战审美的例子:




Prompt:创建《Monochrome Masterpieces — 十部影史经典影展》黑白网站


MiniMax Agent 收集的海报质量不错,几乎没有夹杂广告或者水印信息的图。


loading


同样地,在第一轮网页部署时,MiniMax Agent 还是会用 Browser Use 自我排查信息,这算是它的基本操作。


它所生成的网页中的这十部影片涵盖了 1936 — 1960 年的经典之作,像是黑泽明的「七武士」以及「卡萨布兰卡」。


最终,它给出了一个完整度较高,具有交互动效、看起来赏心悦目的网站:



不过,是 Agent 就会犯错,它在第一轮生成的网页中就出现了一个错误。Agent 将「惊魂记」的图片截错了:


loading


我试了下将这张出现错误的截图发送给了 Agent,看它能否修复。


从结果来看,MiniMax Agent 确实已经可以视觉理解截图中出现的问题,并准确定位到了网页的错误界面中,它意识到了:海报被裁剪,需要修复 CSS 样式。


loading


MiniMax 之前发布的声音模型在各个 AI 产品社区里都非常的火,所以我也想试试 Agent 是否能够将一段音频准确插入到这个网页里的某一个位置中,并且是否能够正常播放。


我输入了下面这段提示词:




Prompt: 我想要可以通过点击每一幅电影作品的海报,进入到这个电影更详细的介绍界面。 并且你要在这个介绍界面里插入介绍音频,用MiniMax生成音频。


注意,提示词中最好加入「用 MiniMax 生成音频」,这样才能最大成功率地让 Agent 调用自己家的 MiniMax MCP。


像是我一开始直接让它生成音频,就失败了一两次。


不过,当我让它用 MiniMax 生成音频并替换掉错误音频时,它的表现就好了很多。


而且还用了一个有点好玩的校验方法:依靠文件的大小来判断音频是否正常生成


loading


最终 Agent 依靠自己写的「剧本」,生成了一个比较完整、附带详情界面以及音频播客的网页,我录制了一段,你可以看看效果,听一下「七武士」音频播客的拟真度:


6)世界十大黑白电影海报单

MiniMax Agent 将多模态类型的文件插入到指定位置的能力确实不错,在挑选电影海报时的「甄别」能力也蛮好的。


接下来,我就试试能否让它更上一层楼,做一些更复杂的交互设计,生成一个「经典黑白电影画廊」出来:




Prompt:制作一个电影海报单页面,主要内容为世界十大著名黑白电影,包含以下功能: 1.顶部全屏海报图。 2.滚动触发海报逐步显现动态文本、渐变蒙版或微交互效果。 3.在滚动过程中使用视差或简单 3D 转场使海报画面层次感增强。 4.动态排版:标题、副标题、上映日期等元素随滚动逐步出现或移动。 5.性能优化 & 响应式布局,兼容移动端。


这对于 MiniMax Agent 来说是一个更加复杂的需求,因为这考验了它的综合能力:深度搜索信息,整合,文字与图文的匹配,复杂的交互设计效果。


没想到,Agent 第一轮出来的效果,我就很喜欢:



我截了一张「公民凯恩」的电影海报单页面作为展示。


整体界面十分具有设计感,美感很高。电影名称、剧情简介、影史意义,甚至连经典台词都加入了其中:


loading


最让我惊奇的是!「公民凯恩」的黑白海报在最开始时其实并不是黑白颜色。


我去回顾了下它的工作流,发现 Agent 在最一开始的批量图片搜索步骤中,「公民凯恩」的海报其实是彩色风格,后期的网页中所显示的黑白海报应该是 Agent 自主加了一层黑白滤镜或者是执行了一些其他操作:


loading


再有就是,整个网页的交付度高。比如,下面的这个重叠交互效果美观度就很高,层级设计合理,组件之间的覆盖与融合自然过渡,没有出现显示 bug:



7)让 MiniMax 整理自己的工作流

最后,我想完整介绍 MiniMax 的工作流。但由于它处理复杂任务时涉及大量步骤和专业术语,直接讲解会比较困难。于是我灵机一动:何不让 MiniMax Agent 来整理并可视化它自己的工作流呢?


此时的提示词其实很简单,我把它的工作流程复制下来再发给它,并加上一句简单的提示词和对视觉效果的要求即可:




Prompt:这是一家名叫「MiniMax」的Agent产品的工作流,帮我可视化,并解读。 要求:结构清晰。字体为宋体,中文使用深红色,英文使用白色。


在第一轮生成中,MiniMax Agent 就做出来一份采用卡片式网格布局的网页,展示了它自己工作流的各个阶段。


比如,它说它自己的工作步骤有 75 个,成功率 100%……


loading


在这个网页中,Agent 展现了不同尺寸的卡片组合,创造了很好视觉层次感。像是它包含了大卡片(开发效率)、中卡片(成功率、技术栈)、长卡片(工作流程阶段、性能对比)等等。


Agent 还说自己的开发速度提升 10 倍,用了 14 个现代技术栈:


loading


我还让它深入介绍了下自己的工作流的六个核心阶段。


可以看到它大量时间都放在了数据处理、前端开发时。还有 13.3% 的时间集中在了测试调试,操作了 42 次文件:


loading
loading
loading
loading


工作流的可视化如下:


loading

最后,我们想分享 3 点评测过程中的思考:

1)多模态的融合,越强越好

对于一个通用 Agent 来说,理解并处理图像信息的能力是 Bottom Line。


如果它在多模态处理上表现不够令人满意,无论文本能力多强,最终的可交付性大概率也会受到限制。尤其是在需要图文搭配或交互内容生成的复杂任务中,多模态能力的不足将直接成为「天花板」


这对于「技术成功」之外的「产品成功」来说,是一个巨大的阻碍。


如果原生多模态大模型公司本身就具备这种能力,就能很好地解决这一问题,让产品更具说服力。


像是在这回的案例之中,MiniMax 就用到了它们的音频生成能力,并且只在短短的数步之内就将音频内容正确排版到了合适的位置。


loading


这种深度整合需要 Agent 真正理解图像、文本、音频之间的关联,而不仅仅是简单的模块调用。


对 Agent 来说,多模态能力是「刚需」,而不是「锦上添花」


2)上下文窗口,越长越好

一个足够长的上下文能够:

【1】 保持对话的连贯性,即使经过多轮复杂交互,也不会「失忆」。

【2】在长程复杂任务规划上尤其重要,足够的上下文才能够支撑握整个项目的来龙去脉。

【3】基于完整的历史信息,而非片段化的记忆,作出更智能的决策。


「足够长」的上下文能够让 Agent 在输入侧和输出侧都产生足够的可能性。


各家厂商的模型明显都在往这方面走。MiniMax 前几天开源的 M1,输入甚至到了 100 万 token,与 Gemini 2.5 Pro 并肩;在输出端,M1 达到了 8 万 token,甚至超越了 Gemini 2.5 Pro,成了业界第一。


loading


正如现在各家 Agent 都在采用 MCP,充足的上下文长度在输入端能够处理完整的代码库,依靠上下文的连贯性来支持复杂的推理链条,从而逐步分解用户需求;在输出端则能够将文本、图像、音频有机地组合,最终为用户呈现一个「真正合格」的交付成果。


loading


3)品位,越来越重要


当各家基础模型技术能力趋于同质化的现在,真正让 Agent 脱颖而出的,其实可能是「品味」。


「品味」不仅仅定义为视觉设计的美观,还在于任务完成的标准。比如,到了 Agent 长长的工作链的「最后一公里」,是选择急速交付,还是再让 Agent 自我审查一遍?


「交付品味」,决定了 Agent 是「差不多先生」 还是 「足够好先生」。

🚥

在测试 MiniMax Agent 的这 7 个案例时,我意识到:未来总有一天,技术的门槛会逐渐被抹平,当所有的 Agent 都能「干完活」时,那些能「干得漂亮」的 Agent 才更有可能脱颖而出。


AI 呈现出的能力越强,「审美」的稀缺性就越高。


当基础能力成为标配时,Agent 的差异化价值就体现在对「用户的理解」和「对美的追求」上。


这让我想起乔布斯曾在一段访谈中提到:

归根结底,一切都取决于品味。关键在于让自己接触人类最伟大的作品,然后努力将其中的精华融入自己的创作中。


loading


「十字路口」的名字也源自乔布斯对苹果公司的一个比喻,形容它站在科技与人文的十字路口,伟大的产品往往诞生在这里。


正如乔布斯所说,一切都取决于品味。


当 Agent 超越了单纯的任务执行者角色,真正立足于技术与人文的十字路口时,它才会像一位富有品味、深谙用户需求的设计师,有可能创造出超越基础功能的优雅与惊喜。


期待那一天!

53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询