原来是百度给了 Manus 最大的启发

发布日期：2026-01-03 08:31:49 浏览次数： 2359

作者：互法周记

微信搜一搜，关注“互法周记”

将来如果有人写人工智能史，大概会将2025 年定义为Agent（智能体）元年。

25年以前，AI 行业的光芒都在大模型和他们对应的聊天机器人（Chatbot）身上。

虽然有行业大佬 23 年就在呼吁不要卷模型，应该卷应用。但到了25 年，AI应用的时代才算终于到来。

Forbes网站25年 4 月评选的第七届年度 AI 50 强榜单中，AI Agents公司的耀眼星光已无法掩饰。

当时Forbes网站有评论文章就写道，“AI 50 2025: AI Agents Move Beyond Chat”。

虽然如此，Forbes在 4 月，可能依然低估了智能体在 2025 年将要爆发的巨大动能。

上榜的编程智能体Cursor，彼时估值只有 25 亿美金，到年末是 293 亿美金。法律应用Harvey当时估值 30 亿美金，现在是 80 亿美金。

当时还未上榜的Manus，年末以数十亿美金被 Meta 收购。

2025 年 AI Agent 的爆发，有其必然性。

首先是基础大模型越来越强大，无论是国外的GPT、Claude、Gemini，还是国内的DeepSeek、豆包、千问，的确是你追我赶，各有千秋，给Agents 提供了强大的脑力。

其次是软硬件、云计算的选择也越来越多元，价格足够低，这给 Agents 提供了充沛的体力。

最后是消费者经过这几年AI Chatbot 的教育，已经越来越能接受，甚至期待新的 AI 应用了。

千呼万唤后，总有人会站出来。

但打造一款真正有价值、能解决实际问题的 Agent 产品，实际一点也不容易。

不像大模型需要凝聚算力、算法和数据，需要很多聪明的大脑在一起完成一项系统工程，Agent 更考验认知，考验对用户需求的洞察，考验调动和配置资源的能力。

打造一个 Agent，是追求无所不能的“通用”，还是深耕某一领域的“垂直”？是简单选一个应用方向，为大模型套上一个外壳，还是构建一个能够协同调度多方能力的复杂系统？

当许多团队还在这些问题上摇摆不定、仓促追赶风口时，Manus 的异军突起，为我们提供了一个“充分思考，果断执行”的绝佳范本。

而令人意外的是，给予他们最大启发的，竟然是看似与 Agent 风马牛不相及的——百度搜索。

一份Manus在立项初期的内部会议纪要显示Manus 产品立项初期会议纪要， Manus团队曾有过一场关于产品发展范式的深刻思辨。正是这场讨论，确立了 Manus 未来的道路。

关于Manus到底应定位为通用Agent，还是垂直Agent，创始人肖弘（Red）用“百度 vs. Hao123”的类比，快速在团队内部形成了共识。

“百度”和“Hao123”是两款中国互联网用户都非常熟悉的产品。百度是通用搜索引擎，抓全网数据，什么问题都能响应。Hao123 是网址导航，在搜索框之外，主要给用户提供特定网站的导航。

肖弘认为，如果将Agent做成“Hao123 模式”，那就相当于开发者是“供给侧”，预先实现和集成各种特定的功能，用户能做什么，完全被限制在开发者提供的能力范围之内。

这种模式虽然在特定任务上可能表现不错，但其拓展缓慢，极易陷入同质化竞争的泥潭，本质上是一种“功能预设”的垂直思路。

即使是ChatGPT 这样的 Chatbot，看似通用，但实际上没有那么通用，所以现在大家感觉它遇到瓶颈了。

这个地方，我要用我个人的使用体验，给肖弘的上述观点提供一个辅证。我使用 ChatGPT/Gemini/DeepSeek 这类 Chatbot时，如果让他们分析总结一篇微信公众号文章，他们无一例外都做不到，因为打不开网页链接。（至于原因是什么，之后我会专门写文章解释。）

但我把微信公众号的链接放在任何一个浏览器，他们都能打开。这个例子可以说明，当前的Chatbot，在某些方面确实如肖弘所说，缺乏通用性。

肖弘认为，把 Manus 做成“百度模式”，相比“Hao123 模式”，有显而易见的优势。

它相当于是先打造一个具备强大通用能力的底层平台，目标是能够爬取、理解和操作互联网上的一切信息与工具。平台强大的通用性，能够吸引海量用户来尝试解决五花八门的任务（Query）。

然后，通过分析那些高频次、高价值的用户需求，团队再反向进行“垂直优化”，推出类似于百度搜索“框计算”或“阿拉丁卡片”那样的“预设能力”（Preset）。

这样，常见的核心任务就能够被“秒级”完成，体验远超纯粹的通用模型。这是一种“通用性优先，逐步沉淀和优化高频场景”的战略。

实际上，Manus的“通用性”产品哲学，并不是 Agent 产品的主流。鉴于大模型越来越强大，Agent很难在大多数通用场景做到人无我有，所以创业者往往选择在一个细分场景寻找发挥空间。美国的 VC 甚至要求创业者垂直垂直再垂直。周鸿祎的 AI 产品观，B端应用要切极窄赛道

但细分赛道的想象力，确实不如通用场景大。所以Manus 的选择，充分体现了团队的洞察力和勇气。

当然，仅靠领先的认知是不够的，要实现无所不能的“通用”，Manus还要有强大的工程实现能力和细节上的巧思，比如下面这些：

在技术底层押注“状态持久化”（Persistence）。 Manus团队认为，一个真正的 Agent 必须具备 Agency（代理性），而代理性的前提是“不失忆”。与市面上大多数“阅后即焚”的 Chatbot 不同，Manus 为每个用户构建了独立的云端环境，能够保存 Cookies、登录状态和完整的文件系统。

在实现路径上选择了“Browser in Browser”。 它为用户直接在云端跑起了一个真实的、具有完整渲染能力的浏览器，它不是在“读”网页，而是在“看”并“操作”网页。同时，当 AI 遇到无法处理的验证码或扫码环节时，用户可以随时在串流画面中接管操作。

在交互逻辑上采取“渐进式披露”。 默认呈现给用户的应该是一个极其简洁的界面（可能只有一个对话框）。随着任务的展开，Agent 所使用的工具（如 Shell，Browser）才作为独立的窗口或标签页「浮现」出来。这样既能让用户对 Agent建立信任，知道它在干什么；又能给专业用户提供一种控制感，知道它哪里做得对，哪里做错了（类似 DeepSeek 展示的推理过程）；同时又能避免一下子展示过多信息造成的混乱感。