我要投稿

爆火了大半年，Agent 到底能干好多少活 | WAIC 特别策划

发布日期：2025-07-29 12:17:25 浏览次数： 2280

作者：APPSO

微信搜一搜，关注“APPSO”

2025 年 AI 产品井喷，浪潮夹杂着泡沫，到底什么产品能穿越周期？

WAIC 世界人工智能大会即将结束，APPSO 系列专题继续，我们希望梳理这半年来重要的 AI 产品和趋势，并在现场挖掘有用有趣的产品，同时探讨产品背后的一些细节：

有哪些工具，正在从根本上改变我们的工作流？

有哪些设计，让我们发自内心地感到「就该如此」？

有哪些产品，通过开放和真诚赢得了用户的口碑？

有哪些应用，为我们带来了真实可感的效率提升？

今天，我们把镜头对准上半年以来，最炙手可热的 AI 形态：Agent。

你的Chrome要被淘汰了？这届AI浏览器想彻底改变你的「上网」方式 | WAIC特别策划

ChatGPT 们都在卷的深度研究，是 AI 对搜索框事先张扬的谋杀 | WAIC 特别策划

今年上半年的热门话题：AI Agent 很强。同时，另一个热门话题：Agent 到底强在哪儿？

能陪聊、能写论文、能画画？这些能力当然令人惊艳，但放在现实世界里，成年人的核心能力是什么？不是表达，而是解决问题。对 AI 来说，同样如此。

伴随着Manus 的现象级爆红" data-itemshowtype="0" linktype="text" data-linktype="2"> Manus 的现象级爆红，主打能干活的 Agent 也在短短数月内走入大众视野。ChatGPT Agent 发布了，AGI 在巨头高管们的口口相传中快实现了，被寄予厚望的 Agent 也号称快成为你的 AI 同事了。

喂，醒醒，你已经是一个成熟的 Agent，得学会自己解决问题了。

Chatbot 下岗，Agent 上位，

Agent 到底该怎么翻译，都曾争论不休。有人坚持叫智能体，有人认为应当叫能动者，也有人希望保留「代理」这个喊法，讨论的热烈程度也恰恰说明了 Agent 在当时的陌生与不确定性。

「Agent」一词源自拉丁语「Agere」，意思是「行动」「做事」。

在使用链路上，Chatbot 的链路是线性对话——用户反复提出请求、AI 提供回应，每一步都要人为干预。而 Agent 的链路是任务链：用户输入一个目标，系统自动拆解为子任务，自主调用工具完成多步操作。过程中，除非必要，可能无需用户再次介入。

How to use ChatGPT: A beginner's guide to the most popular AI chatbot | ZDNET

我们可以把大模型类比为一台超强咖啡机，它拥有压粉、萃取、控温等所有功能模块。而 Agent，则是一个训练有素的咖啡师，它知道顾客想要什么，能协调时间，接待、出品、收银、关店一气呵成。

是的，这年头，不止人卷，AI 也卷执行力。

今年以来，已经有很多 Agent 工具冒头，但实际作业环境却复杂得多。比如，几乎所有办公软件、内容平台、业务系统都有网页版，Agent 很难事先知道你要用哪一个服务；API 又各有各的封闭权限与格式。

浏览器一度是解决方案。年初时，OpenAI 发布的 Operator，尚且还聚焦在浏览器环境中的自动操作，不久前更新的 ChatGPT Agent 则在此基础上进一步整合了 Operator 等多种能力，并内嵌任务规划与工具调用的决策逻辑，成为一种更加完整且智能的 Agent 形态。

只是，这样的做法早在今年三月，就由 Manus 的出现来展示。通过显示思考过程的对话框、酷炫的任务执行可视化面板、用户能够直观地看见 AI 每一步的执行过程，这种真实可感的产品体验极大地提升了用户对 Agent 的信任与使用意愿，也为后来的「一码难求」埋下了伏笔。

注意，Manus 号称自己是通用型 agent，ChatGPT 的也是——或许你也会好奇，为什么这轮 Agent 热会是通用型 Agent 率先跑出来？

在商业视角下，这种策略比较好理解，相比深耕垂类场景，通用型 Agent 瞄准的方向主打一个大而全：图像生成、PPT 制作……也代表着更容易快速落地、做出技术展示，从而尽快抢占注意力与融资红利。

不过，现实也摆在眼前，市面上多数初创公司的 Agent 产品本质上只是模型的套壳应用，缺乏真正的产品壁垒。基于此，能否在功能细节上「雕花」，就变得尤为关键。

比如一个看似微不足道的设计细节——Manus 在执行任务时，通常会给出一个预估时长。

对于时间观念强的用户来说，这是一个非常体贴的设计。亦或者同样都是通用型 Agent，Genspark 也有一个别出心裁的功能：让 AI 替你打电话，无论是分手、辞职，AI 上阵，电话那头的真人接招。

但有一说一，现实往往是残酷的，就像几年前大家一窝蜂地追逐「元宇宙」一样，Agent 足够宏大、足够模糊，也足够让人浮想联翩，仿佛承载着下一轮技术浪潮的希望。问题是，如果想象力无法真正落地为产品力，所谓的 Agent 便有可能沦为一场集体自嗨。

「瑞士军刀」不好用，用户需要一把好菜刀

避免纯粹自嗨的方式有没有？是有的。

相比于大而全的「通用」型 Agent，垂类 Agent 有着天然优势——更聚焦、更扎实、场景更加明确，也更接地气。

这样的苗头也早已有之：自打 Manus 爆红之后， AI 这个略显笼统的意象仿佛一夜之间被更具象化的 Agent 所取代，从客服到销售，从医学到投研，从法律助手到内容运营，每个赛道都有人在讲：我们也能做一个 Agent。

本质上，这就是在说每个行业要有自己的垂类 agent。

面向不同行业语境的定位差异也体现在 Agent 打招呼的 Solgan 上，比如，通用型 Agent 更强调「我能为你做什么」，相比之下，Lovart 则直接表示「我们今天在创造什么」，这是一个明确面向设计师的产品态度和场景锚点。

我喜欢用「瑞士军刀」来形容当前阶段的 Agent——很遗憾，用这个词并没有表扬的意思。

一把瑞士军刀功能齐全，能剪、能锯、能开瓶，听起来强大，但真要剪东西、拧螺丝、开啤酒，还是得找那些专职工具。这也是为什么瑞士军刀平常都是被放在抽屉深处，只在偶尔才翻出来——好像什么都能干，却没有一样最好用。

今天的通用 Agent，大多也处在这个阶段：能做的事不少，但每一项都是堪堪够用。每个 Agent 项目都想做瑞士军刀，但市场需要的往往是一把好用的菜刀。

以「AI」为中心

既然如此，思维范式也是时候要更新了。

投资人 Greg Isenberg 最近提出了一个观察，传统的 UX 是以界面为中心的。你点一个按钮，产品做出反应，任务完成。每一次使用，都是从零开始。

设计师需要提前规划好每一条路径，写死所有流程。用户之所以需要填写表单、选择下拉菜单，是因为产品对你一无所知。但伴随着 AI 上下文能力的提升，记忆能力的提升，就出现了 AX：Agent Experience。

这意味着，Agent 成为了设计交互时，最需要考虑的对象。

Agent 的能力包括：记住你的目标，主动提示下一步操作，并在持续使用中记住你的偏好、操作习惯，甚至识别出你所在团队的工作模式，也就能自动规划路径，感知当前状态、推理意图，并选择最合适的行动。

这些能力将会带来体验上的跃迁，也正在重塑产品设计的基本策略，交互应该围绕着 Agent 的能力展开。

可以看到，AX 并不是单纯的 UI/UX 的翻版，而是从根上重构交互逻辑：如何与一个拥有一定感知、具备主动性和路径选择能力的系统协作。

同时，AX 也不是让 AI 简单「拟人」，是让人更容易进入「委托 → 跟踪 →干预 → 验收」的节奏循环。它强调可控性（知道 Agent 在干嘛）、可预期性（知道会发生什么）、可逆性（可以中断/撤回），以及最重要的：可演进性——Agent 要能随用户需求变化逐步学习。

一旦进入工作流，它就不再只是一个工具，而是业务系统不可或缺的一部分，具备更高的替代成本、更强的用户粘性，以及更清晰的商业闭环，从而构筑起天然的产品护城河。

不同的路径，同一个问题

回顾了 AI 能力在 Chatbot 和 Agent 产品上的演变，也看过了如何以 AX 的概念落实在产品设计上，那么不同的选手，是如何提出自己的方法的呢？

玩家目前分为两种：做「套壳」 Agent 的 AI 初创公司，以及拥有成熟产品生态的大厂。

前者是先有技术，再找场景——他们从大模型、Agent 等能力出发，努力寻找落地的入口。

而巨头公司则正好相反：他们原本就拥有成熟产品和稳定用户，只需在已有业务中嵌入 AI 或 Agent 能力，就能实现体验升级。

打工人天天用的三件套，被飞书用AI 重做了一遍，还将打通企微和钉钉: r/ChineseNewsHub

这是一种由实际业务需求驱动的场景闭环，典型案例是企业办公软件领域的「御三家」——飞书、钉钉和企业微信。其中，飞书在七月初，升级了知识问答、会议、妙搭等多个功能。「多维表格」现在已然成为他们的拳头产品。

钉钉也推出了自己的 AI 表格，背后的理念是：AI 是表格背后的原生能力，不只是要做一个表格工具，更是一个表格的智能体。

夸克今年针对高考生推出的高考志愿大模型，也是针对垂直场景，结合原有产品的一个 Agent 应用代表。

在这个对数据和需求拆解有强烈需求的，这种 Agent 的确是目前实用性最强的形态之一。

不久前的志愿填报季，夸克也不得不因为庞大的需求涌入连夜扩容，几乎把阿里的算力都临时调配过来，最终提供了 1200 万份志愿报告。

这些产品本来就已经相对成熟了，通过「打AI补丁」的方式，原本的产品形态开始向 Agent 靠近。而这些 Agent 一旦跑通，往往能在商业变现上发挥出远超初创公司的潜力。

看上去是很光明的路径，可是要走起来依然困难重重。大厂因组织结构复杂、流程重、安全要求高，往往采用渐进式集成 AI；比方说，微软 Office 的 Copilot，最开始选择在侧边栏加一个 Copilot 插件，辅助你总结文档、起草邮件，顾名思义，承担的依旧是「副驾驶」的角色，不能越俎代庖。

How to enable Copilot on Microsoft Word - Pureinfotech

相比之下，初创公司的路径更轻也更直接。比如像 YouMind 这样的产品从一开始就以 Agent 逻辑构建——围绕写作展开任务切片，直接让 Agent 成为「主要执行者」，形成另一种范式。

如何把已有产品的 AI 化，初创公司和大厂，给出了各自的思路，体现了各有各的优势。

借由过往的积累，大厂拥有历史数据、权限架构、任务链路，以「打补丁」的方式推进渐进升级，让 Agent 才真正有机会从产品走向商业闭环。

而初创公司，则胜在灵活、纵深。只要能踩中一个痛点，就能留下用户，同时也留住极其个性化的数据，从而与大而全的产品展开差异化竞争。

它们都试图在回答同一个问题：Agent，不只是功能，而是一种新的系统组织方式。

自动化接近完成，但 AGI 还在路上

在 Agent 之前，我们早已见过各种自动化的工具。诸如互联网脚本等自动化框架同样在浏览器中通过代码的形式完成自动化操作，但它们大多依赖人工配置，缺乏上下文理解、语言推理和任务拆解能力。

它们是「自动」，但谈不上「智能」。

Agent 的出现，本质上是为这些执行流程装上了「大脑」，通过融合大模型的语言理解和推理能力，让它不仅能执行命令，还能主动理解意图 → 拆解任务 → 选择工具 → 反馈结果，实现一个接近闭环的智能执行链。

换句话说，成熟的 Agent 本质上是一种具备封装能力的调度机制。它连接大模型、插件、API、语义指令和状态缓存的执行中枢，这种架构要成立，离不开足够丰富的开放接口、成熟的工具链，以及更稳定的模型基础设施。

具体到通用 Agent，它更可能是一个过渡物种，最终会被嵌入式、垂直化、工作流型 Agent 替代，就像今天没人真的用 iPhone 的万能 App 操作所有事务——大家还是在用微信、携程、WPS，各司其职。

不过，可以欣慰的是，至少有些事，现在不用人类动手了。

最后，附上 APPSO 今年体验过的部分 Agent 产品和一些开发者访谈，尽管很多都不够成熟，但也都各自有些有趣的细节：

实测 Manus ：我用它生成了 10 个邀请码……好玩，但崩溃

Manus 的狂热和争议之后，我和 AI 开发者们聊了聊：这是智能体的胜利吗？

从 0 到 1 打造 Labubu ，MiniMax Agent 让我看到了智能体未来的样子

这个比Manus更早的AI Agent，10分钟内完成复杂任务，不只是免费平替 | 对话Flowith团队

ChatGPT agent开放了，我们重新实测看它还拉不拉胯

首个高考志愿大模型体验：夸克给 1335 万考生配免费高报规划师？

Kimi又火了，深度体验它的第一个Agent 后，我发现99%的AI产品忽略了这件「小事」

扣子空间上手体验：一个会主动跟你「对齐」的 AI 实习生

实测会沉思的国产 Agent ：深度研究又能自己干活的 AI ，免费不限量

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业