微信扫码
添加专属顾问
我要投稿
MiniMax Agent展现惊人实力,7个实测案例揭示AI助手如何从功能转向美学体验。 核心内容: 1. MiniMax Agent在复杂任务处理中的自我审查与自主Debug能力 2. 观鸟记录可视化案例展现的前端设计与交互水平 3. 从功能实现到美学追求的AI Agent发展趋势
你追我赶太好了。
👦🏻 作者: 镜山
🥷 编辑: Koji
🧑🎨 排版: NCon
过去几天,Minimax 下场做通用 AI Agent 的消息在各种社区中都获得了相当程度的关注,而且他们还在 X 平台官宣了为期 5 天的发布周,首先发布的是一个开源推理模型 M1。
当具备完整大模型技术栈的公司开始构建 Agent 产品时,理论上,他们能够在底层架构进行整合设计,这会带来哪些差异化优势?
一个拥有完整技术闭环的玩家 ——MiniMax ,正要让这款集合原生模型能力的通用 AI Agent 产品冲入市场。
「十字路口」今天这篇测评,将全方位体验和展现 MiniMax Agent 的能力,特别着重测试其最近增强的功能。
我们深度测试了 7 个案例,并据此总结和分享我们的 3 点思考。
现在,我们注意到 Agent 不再仅仅强调「能做什么」,而是逐步转向「做得有多美」。这不仅包括任务完成的准确性,还包括产出结果的「美学性」。
我们先从最简单的一个模拟案例开始。
Koji 保留了一份持续 3 年的观鸟记录 CSV 文件,观鸟地点涉及了多个国家,并且地点的记录方式为经纬度,非常复杂,很适合让 Agent 拿来做可视化。
我们给 MiniMax Agent 输入了下面这段提示词:
Prompt:将我上传的 CSV 观鸟记录文件可视化成网页,有各种数据展示,视觉效果就像是苹果的各种动态展示效果
MiniMax Agent 在处理长程复杂任务上的能力很不错,除了一般 Agent 也具有的任务规划能力之外,它还会非常有意识地自我审查。
在这段持续多轮的修复工作流程中,我们发现了一个亮点,同时这也是 MiniMax Agent 为什么能够交付完整任务的关键 —— 它会用浏览器操作 Browser Use,自主「测试/Debug」已生成好的初版网页!
即便在网页设计基本正常时,Agent 仍然会查询所有组件,并进行多轮的自我修复。
下面的左图是我为了方便观看,用中文翻译了一遍它的「修复」工作流,右图则是 MiniMax Agent 的初始工作流:
它这种用 Browser Use 来自主 debug 的方法有些特殊,多数 Agent 往往只是调用 Browser 去理解外部网站。
你既可以说 MiniMax Agent 对自己的「第一轮产品有些不放心」,也可以说它有点担心「用户会不满意」:
《观鸟记录可视化》这个案例对于 MiniMax Agent 的难度可能还是太低了,我只 Roll 了一次,该网页就已经体现了比较强的 Coding 能力,前端设计很简洁,功能模块也很完备,涵盖表单处理、动态数据交互、响应式设计等多个关键模块。
我录制了一个视频,你可以直观感受下:
在我测试过的许多 Agent 里,MiniMax Agent 对 Koji 那份复杂的《观鸟记录 CSV 文件》的识别是很准确的。比如,它观察到了 236 种鸟类物种;5078 次记录;覆盖 63 个地点;3 年以上的数据跨度;共 166 天活跃观测日等等。
在这个观鸟可视化的网页里,我个人很喜欢下面的交互式旭日图和活动日历,都非常直观。
「可视化」的意义可能就在于此,让人可以「赏心悦目」地获得数据:
由于在体验过程中,我发现 MiniMax Agent 利用 Browser Use 的能力非常强,所以我准备给它上点难度:直接识别外部网站的交互设计,并移植到现在的观鸟网站里。
提示词里,直接加入目标网站即可:
Prompt:参考 https://wope.com/ 的交互设计,比如聚光灯式的悬停效果和可操作的复制表格。使用Linear设计风格:在大面积暗色背景下,巧妙地运用渐变、模糊、动态流光、极细描边、微噪点、外发光以及庄重的无衬线字体,并结合流畅克制的微动效来组织和修饰界面元素。
然后,Agent 就开始使用 Browser 进入到「https://wope.com/ 」里,开始识别网站交互设计。
Agent 对这个网站的视觉效果的理解是:高级暗黑主题元素,聚光灯悬停效果,可复制表格,微噪点纹理,精致的字体排版:
识别完各种风格效果后,Agent 开始执行大量的更新任务,并给出了一份非常详细的更新任务列表:
虽然在文字显示方面,现在的页面与外部网站的视觉风格仍有一定差距,但在参考外部网站进行迭代后,设计感确实更上了一层楼。
尤其是在文字配色和动效上,更加有视觉冲击力了。
测试完可视化能力之后,我还想看看这款 Agent 在搜集图片和生成图片上的多模态能力。
我们模拟一个案例,让 Agent 先去搜索人物图片,再「吉卜力化」:
Prompt:我们准备为12位世界最著名的AI人物做 PDF 海报,里面主要展示CEO的图片(吉卜力风格)和他们的关于创业的语录文字,文字要放在CEO图片的旁边,要有设计感。
MiniMax 开始大规模的 Web 搜索,我惊讶地发现:它居然还能精准进入到 X 和 Linkedln 进行搜索:
当 MiniMax Agent 搜索完 AI 人物后,我开始仔细回顾它生成吉卜力风格结果的工作过程。
我发现:这家伙还是很聪明的。
它竟然为每个人物项目都自主规划了一段吉卜力风格的提示词:
超干净的吉卜力风格半身肖像画,主角是 Sam Altman,采用柔和水彩风格,暖色轮廓光,表情温和,穿着职业正装,背景宁静,极为精致的动漫艺术风格,4K画质,光影优美。
经过这一番操作,Agent 给出的 PDF 文件所呈现的效果非常的完整。
相比于我们在试用某些 Agent 时,常出现无法将图片正确插入到指定位置的情况,MiniMax Agent 能多做两步:自主搜集大量信息,将图片吉卜力化,再插入到正确位置。
你可以看看 MiniMax Agent 生成结果的一致性有多高:
随后,我们再来看看 MiniMax Agent 生成 PPT 的能力,它在这方面也表现出了不错的精确度以及美观度。
比如,最近苹果「液体玻璃」非常出圈,所以我想让它帮我做个深度研究苹果「液体玻璃」的PPT报告 。
提示词如下:
Prompt:项目名称:《Liquid Glass at Apple Events – Design & Technology Research Report》 目标: 生成一份 8 页 / 16:9 的 .pptx,系统梳理 Apple 在近期发布会上提出的「液体玻璃」(Liquid Glass)设计理念、材料科技、制造工艺与市场影响,整体风格对标 Apple Keynote:极简、半透明、磨砂。
在 MiniMax Agent 执行这类涉及到「现实事物」的 PPT 时,搜索信息其实只是它的基本能力,这方面就不多概述了。它还是会像先前描述的那样,进行详尽的信息查找。
除此之外,当我浏览它的工作流时,看到一个让我觉得特别惊艳的点 —— 它为了制作 Apple 的 Timeline,居然会锁定「Timeline」这个关键词,去搜索相关图片,而不只是去套用 Apple 本身的 Timeline 图片:
很明显地,MiniMax Agent 在借用这些 Timeline 的灵感。最后,它做出来 Apple Timeline 是下面这样的:
除了单独点击 PPT ,它会显示各种交互效果之外,PPT 在播放时也是具有动效设计的。尤其是「Apple设计语言演进 (2007-2025)」那一段,MiniMax Agent 生成的效果简洁直观,有设计感。
我录制了一个 GIF,可以感受下:
在前面我们已经分享了的实际体验中,MiniMax Agent 在完成任务时所展现的长程复杂任务处理能力以及它的「审美观」都很不错。
接下来,我们来看一个更直接挑战审美的例子:
Prompt:创建《Monochrome Masterpieces — 十部影史经典影展》黑白网站
MiniMax Agent 收集的海报质量不错,几乎没有夹杂广告或者水印信息的图。
同样地,在第一轮网页部署时,MiniMax Agent 还是会用 Browser Use 自我排查信息,这算是它的基本操作。
它所生成的网页中的这十部影片涵盖了 1936 — 1960 年的经典之作,像是黑泽明的「七武士」以及「卡萨布兰卡」。
最终,它给出了一个完整度较高,具有交互动效、看起来赏心悦目的网站:
不过,是 Agent 就会犯错,它在第一轮生成的网页中就出现了一个错误。Agent 将「惊魂记」的图片截错了:
我试了下将这张出现错误的截图发送给了 Agent,看它能否修复。
从结果来看,MiniMax Agent 确实已经可以视觉理解截图中出现的问题,并准确定位到了网页的错误界面中,它意识到了:海报被裁剪,需要修复 CSS 样式。
MiniMax 之前发布的声音模型在各个 AI 产品社区里都非常的火,所以我也想试试 Agent 是否能够将一段音频准确插入到这个网页里的某一个位置中,并且是否能够正常播放。
我输入了下面这段提示词:
Prompt: 我想要可以通过点击每一幅电影作品的海报,进入到这个电影更详细的介绍界面。 并且你要在这个介绍界面里插入介绍音频,用MiniMax生成音频。
注意,提示词中最好加入「用 MiniMax 生成音频」,这样才能最大成功率地让 Agent 调用自己家的 MiniMax MCP。
像是我一开始直接让它生成音频,就失败了一两次。
不过,当我让它用 MiniMax 生成音频并替换掉错误音频时,它的表现就好了很多。
而且还用了一个有点好玩的校验方法:依靠文件的大小来判断音频是否正常生成:
最终 Agent 依靠自己写的「剧本」,生成了一个比较完整、附带详情界面以及音频播客的网页,我录制了一段,你可以看看效果,听一下「七武士」音频播客的拟真度:
MiniMax Agent 将多模态类型的文件插入到指定位置的能力确实不错,在挑选电影海报时的「甄别」能力也蛮好的。
接下来,我就试试能否让它更上一层楼,做一些更复杂的交互设计,生成一个「经典黑白电影画廊」出来:
Prompt:制作一个电影海报单页面,主要内容为世界十大著名黑白电影,包含以下功能: 1.顶部全屏海报图。 2.滚动触发海报逐步显现动态文本、渐变蒙版或微交互效果。 3.在滚动过程中使用视差或简单 3D 转场使海报画面层次感增强。 4.动态排版:标题、副标题、上映日期等元素随滚动逐步出现或移动。 5.性能优化 & 响应式布局,兼容移动端。
这对于 MiniMax Agent 来说是一个更加复杂的需求,因为这考验了它的综合能力:深度搜索信息,整合,文字与图文的匹配,复杂的交互设计效果。
没想到,Agent 第一轮出来的效果,我就很喜欢:
我截了一张「公民凯恩」的电影海报单页面作为展示。
整体界面十分具有设计感,美感很高。电影名称、剧情简介、影史意义,甚至连经典台词都加入了其中:
最让我惊奇的是!「公民凯恩」的黑白海报在最开始时其实并不是黑白颜色。
我去回顾了下它的工作流,发现 Agent 在最一开始的批量图片搜索步骤中,「公民凯恩」的海报其实是彩色风格,后期的网页中所显示的黑白海报应该是 Agent 自主加了一层黑白滤镜或者是执行了一些其他操作:
再有就是,整个网页的交付度高。比如,下面的这个重叠交互效果美观度就很高,层级设计合理,组件之间的覆盖与融合自然过渡,没有出现显示 bug:
最后,我想完整介绍 MiniMax 的工作流。但由于它处理复杂任务时涉及大量步骤和专业术语,直接讲解会比较困难。于是我灵机一动:何不让 MiniMax Agent 来整理并可视化它自己的工作流呢?
此时的提示词其实很简单,我把它的工作流程复制下来再发给它,并加上一句简单的提示词和对视觉效果的要求即可:
Prompt:这是一家名叫「MiniMax」的Agent产品的工作流,帮我可视化,并解读。 要求:结构清晰。字体为宋体,中文使用深红色,英文使用白色。
在第一轮生成中,MiniMax Agent 就做出来一份采用卡片式网格布局的网页,展示了它自己工作流的各个阶段。
比如,它说它自己的工作步骤有 75 个,成功率 100%……
在这个网页中,Agent 展现了不同尺寸的卡片组合,创造了很好视觉层次感。像是它包含了大卡片(开发效率)、中卡片(成功率、技术栈)、长卡片(工作流程阶段、性能对比)等等。
Agent 还说自己的开发速度提升 10 倍,用了 14 个现代技术栈:
我还让它深入介绍了下自己的工作流的六个核心阶段。
可以看到它大量时间都放在了数据处理、前端开发时。还有 13.3% 的时间集中在了测试调试,操作了 42 次文件:
工作流的可视化如下:
对于一个通用 Agent 来说,理解并处理图像信息的能力是 Bottom Line。
如果它在多模态处理上表现不够令人满意,无论文本能力多强,最终的可交付性大概率也会受到限制。尤其是在需要图文搭配或交互内容生成的复杂任务中,多模态能力的不足将直接成为「天花板」。
这对于「技术成功」之外的「产品成功」来说,是一个巨大的阻碍。
如果原生多模态大模型公司本身就具备这种能力,就能很好地解决这一问题,让产品更具说服力。
像是在这回的案例之中,MiniMax 就用到了它们的音频生成能力,并且只在短短的数步之内就将音频内容正确排版到了合适的位置。
这种深度整合需要 Agent 真正理解图像、文本、音频之间的关联,而不仅仅是简单的模块调用。
对 Agent 来说,多模态能力是「刚需」,而不是「锦上添花」。
一个足够长的上下文能够:
【1】 保持对话的连贯性,即使经过多轮复杂交互,也不会「失忆」。
【2】在长程复杂任务规划上尤其重要,足够的上下文才能够支撑握整个项目的来龙去脉。
【3】基于完整的历史信息,而非片段化的记忆,作出更智能的决策。
「足够长」的上下文能够让 Agent 在输入侧和输出侧都产生足够的可能性。
各家厂商的模型明显都在往这方面走。MiniMax 前几天开源的 M1,输入甚至到了 100 万 token,与 Gemini 2.5 Pro 并肩;在输出端,M1 达到了 8 万 token,甚至超越了 Gemini 2.5 Pro,成了业界第一。
正如现在各家 Agent 都在采用 MCP,充足的上下文长度在输入端能够处理完整的代码库,依靠上下文的连贯性来支持复杂的推理链条,从而逐步分解用户需求;在输出端则能够将文本、图像、音频有机地组合,最终为用户呈现一个「真正合格」的交付成果。
当各家基础模型技术能力趋于同质化的现在,真正让 Agent 脱颖而出的,其实可能是「品味」。
「品味」不仅仅定义为视觉设计的美观,还在于任务完成的标准。比如,到了 Agent 长长的工作链的「最后一公里」,是选择急速交付,还是再让 Agent 自我审查一遍?
「交付品味」,决定了 Agent 是「差不多先生」 还是 「足够好先生」。
在测试 MiniMax Agent 的这 7 个案例时,我意识到:未来总有一天,技术的门槛会逐渐被抹平,当所有的 Agent 都能「干完活」时,那些能「干得漂亮」的 Agent 才更有可能脱颖而出。
AI 呈现出的能力越强,「审美」的稀缺性就越高。
当基础能力成为标配时,Agent 的差异化价值就体现在对「用户的理解」和「对美的追求」上。
这让我想起乔布斯曾在一段访谈中提到:
归根结底,一切都取决于品味。关键在于让自己接触人类最伟大的作品,然后努力将其中的精华融入自己的创作中。
「十字路口」的名字也源自乔布斯对苹果公司的一个比喻,形容它站在科技与人文的十字路口,伟大的产品往往诞生在这里。
正如乔布斯所说,一切都取决于品味。
当 Agent 超越了单纯的任务执行者角色,真正立足于技术与人文的十字路口时,它才会像一位富有品味、深谙用户需求的设计师,有可能创造出超越基础功能的优雅与惊喜。
期待那一天!
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2025-06-19
Dify、n8n、Coze、Fastgpt、Ragflow到底该怎么选?超详细指南~
2025-06-19
PDF 秒变高质量 Markdown 文件,国产开源神器绝了。
2025-06-19
7.3k star,一款开源高效的知识管理神器!
2025-06-19
Browser-Use:AI解锁浏览器的无限可能
2025-06-18
Refly 0.7.0 首个解决复杂任务的「Vibe Workflow」正式发布!动动嘴,让 AI 自动完成复杂工作流!
2025-06-18
开源!基于大模型的视频监控系统,市场巨大,可以商业化
2025-06-18
请记住 MiniMax M1:MiniMax 用自己的方法追上R1们,直奔最强Agent模型而去
2025-06-18
LLaMA-Factory v0.9.3版本全面解读:多模态模型新特性、丰富基础与指令模型及关键优化
2025-06-17
2025-06-17
2025-04-01
2025-04-13
2025-04-01
2025-04-29
2025-03-23
2025-03-22
2025-04-12
2025-03-24
2025-06-16
2025-06-15
2025-06-14
2025-06-10
2025-06-08
2025-05-28
2025-05-28
2025-05-26