微信扫码
添加专属顾问
我要投稿
深度解析Agentic Browser如何引领AI科技新潮流。 核心内容: 1. Agentic Browser的行业共识与技术革新 2. 浏览器形态“AI文艺复兴”与行业巨头的布局 3. Agentic Browser与传统AI Browser的区别及其未来展望
2025 年的 AI 科技圈,喧嚣依旧,但一个新的风暴眼正悄然形成。当多数人对 Agent 分类还停留在通用和垂类这种按领域适用性划分方式时,一个以技术载体为出发点的新兴 Agent 物种正在悄然形成行业共识——Agentic Browser(智能体浏览器)。
从海外备受瞩目的Comet、Dia,到国内Fellou、豆包,以及传统浏览器厂商Chrome、夸克、QQ浏览器。一场围绕浏览器形态的“AI 文艺复兴”正蓄势待发。甚至连OpenAI,也在24年底挖角Chrome,坊间传闻正在秘密打造自己的浏览器作为ChatGPT的新技术载体。
面对这样的行业瞬息变化,我不禁在思考:
本文尝试通过研究和系统分析尝试回答上述问题,字数9000+字,阅读大概需要15分钟
30秒速读(读了跟没读一样)版本:
故事来源:Perplexity CEO公开访谈,稍作演绎,不改变关键信息的真实性
要理解这场变革的端倪,我们不妨将视线投向一家名为 Perplexity 的公司。
2024 年初,Perplexity 的创始人 Aravind Srinivas 站在摩托罗拉的会议室里,他的演示充满了对未来的憧憬,试图说服这家老牌手机制造商将 Perplexity 设置为其新款手机的默认 AI 助手。然而,演示刚刚结束,一通来自谷歌的警告电话如同一盆冷水,浇灭了合作的火花:“如果你们预装 Perplexity,摩托罗拉将可能失去 Android 的官方授权以及 Play Store 的使用权。”合作,在这样的压力下,瞬间化为泡影。
这并非孤例。我们看到,微软的 Windows 系统已经将 Copilot 深度绑定,用户甚至无法轻易卸载;苹果的 iOS 生态,对于第三方的 AI 助手,更是设置了层层权限壁垒。Aravind Srinivas 敏锐地意识到,传统的操作系统厂商,正凭借其强大的“生态霸权”,在无形中扼杀着 AI 创新者的生存空间。
更让 Perplexity 团队感到棘手的是,我们日常使用的传统浏览器,例如 Chrome,如同一个数据堡垒(浏览器的同源策略),将用户的宝贵数据牢牢囚禁在每一个网站所有者的“封闭花园”之中。这意味着,Perplexity 这样的通用 Agent,无法触及用户真实的购物记录、社交动态,甚至连“帮我比较一下几家酒店价格”这样基础的跨网站任务,也无法执行。
在一次内部会议上,工程师展示的数据揭示了残酷的现实:当用户搜索“帮我预订去巴厘岛的行程”时,由于 Perplexity 无法访问用户已经登录的 Booking.com 或 Skyscanner 等平台的内部数据,它只能给出一些泛泛的、缺乏个性化的建议。相比之下,谷歌却能够轻易调用 Gmail 中的日历信息、地图中的历史足迹,从而直接生成高度个性化的出行方案。
“我们就像戴着镣铐跳舞。”
Aravind Srinivas 的这声叹息,道出了许多 AI Agent 开发者的无奈。
转机出现在美国司法部针对谷歌的反垄断诉讼中。当媒体曝光“强制谷歌剥离 Chrome 浏览器”的提案时,Perplexity 团队嗅到了机会的气息,连夜召开了战略研讨会。他们深刻洞察到:浏览器,是打破操作系统现有格局、释放 AI Agent 潜能的关键钥匙。 它不仅能够巧妙地绕过 iOS 和 Android 系统的预装封锁,更有潜力合法合规地获取用户全维度的数据——从浏览时长、私密的交易信息,到复杂的跨站点行为模式——这些,都将成为驱动 AI Agent 高效行动的“燃料”。
仅仅三个月后,一款名为 Comet 的浏览器正式面向公众。它的雄心,并不仅仅是成为一个更好的信息入口,而是直指AI操作系统。
Comet这款Agentic浏览器,不仅仅是一个工具的升级,更被 Perplexity 视为对抗操作系统霸权、实现其 AI Agent 愿景的“诺曼底登陆”。从这个故事中,我们隐约可以窥见 通用 Agent 的理想、AI 搜索 的局限、传统 AI 浏览器的过渡形态,以及 Agentic 浏览器(Agentic Browser)所承载的颠覆性潜力。
在深入探讨为何 Agentic Browser 可能是通用 Agent 的下一站之前,我们有必要先厘清几个容易混淆的概念:
我们可以将其理解为一个具备自主理解、规划、执行能力的智能实体。它的目标是能够像人类助手一样,在广泛的领域和多样的任务中提供帮助,而不仅仅局限于特定功能。它强调的是自主性和通用性。代表性产品是:ChatGPT、Manus、Flowith、豆包等。
这更侧重于利用人工智能技术改进搜索结果的相关性和呈现方式。例如,通过自然语言处理理解用户更复杂的查询意图,或者以摘要、问答等形式直接给出答案,而不仅仅是罗列链接。Perplexity 最初的形态,更接近于一个高级的 AI 搜索引擎。它的核心在于信息获取和理解。国内的秘塔搜索也属于这个类别。
这通常指的是在传统浏览器基础上,集成了一些 AI 功能的浏览器。例如,侧边栏的 AI 助手、网页内容总结、智能翻译等。它们在一定程度上提升了浏览效率和体验,但其核心架构和交互模式并未发生根本性改变。AI 浏览器更像是在现有交通工具上增加了导航系统,提升了辅助驾驶能力。国内例如QQ浏览器、夸克等之前一直属于这个分类
这代表了一种更深层次的进化。Agentic Browser 不仅仅是将 AI 作为辅助工具集成进来,而是将浏览器本身视为一个 Agent 执行其任务的平台和环境。它强调的是浏览器赋能 Agent,使其具备更强的上下文感知、任务执行和跨应用操作能力。它追求的是让 Agent 能够主动地、深度地在浏览器环境中“行动”起来,而不仅仅是被动地响应用户指令。
简单理解就是:
如果说通用Agent代表了行业对AGI产品能力的最终想象(一个能够理解和执行任何任务的智能体);AI搜索则专注于信息获取能力,让机器更好地"知道";而浏览器作为数字世界的通用载体,则承载着用户跨应用、跨场景的上下文获取、理解以及行动能力。而Agentic Browser正是当下通用Agent与AI搜索能力的最佳融合形态
越来越多的迹象表明,浏览器这个我们日常生活中几乎离不开的互联网入口,正逐渐显露出成为通用 Agent 最佳载体的巨大潜力。这并非偶然,而是由浏览器自身独特的属性和其在数字生态中所扮演的关键角色决定的。我们可以从几个关键维度来审视这一趋势。
在 Agent 崛起的时代,仅仅争夺用户的注意力已经远远不够,更深层次的较量在于对“上下文(Context)”的掌控。上下文是 Agent 理解用户意图、提供个性化服务、高效执行任务的基石,甚至是基于RL强化的模型训练范式下获取用户端到端的反馈信号的重中之重。在这方面,浏览器所能提供的上下文深度和广度,是其他应用形态难以企及的。
浏览器是用户与数字世界交互最直接、最持久的窗口。用户的每一次点击、每一次输入、每一个页面的停留时长,甚至鼠标滚动的速度和轨迹,都蕴含着丰富的行为习惯、潜在偏好和即时需求。
浏览器天然具备跨越应用边界的能力。
这种深度与广度兼备的上下文获取能力,使得浏览器成为了一个无与伦比的“感知器官”。它让 Agent 不再是盲人摸象,而是能够在一个更完整、更动态的图景中理解用户的真实需求和所处环境,从而做出更智能的决策和行动。
通用 Agent 要想真正发挥其“通用”的价值,仅仅停留在云端或沙箱化的应用内部是远远不够的。它需要具备与用户所处的计算环境进行更深度交互的能力,这其中就包括对本地操作系统的控制能力。在这方面,浏览器作为一种特殊的应用程序,相比传统的 APP 和纯粹的 Web 服务,在触达本地资源方面展现出独特的优势。
我们以 Fellou 的架构为例,它清晰地展示了如何通过整合浏览器(Browser)、智能体(Agent)、以及工作流自动化(Workflow Automation)这三元能力,来实现对本地资源的深度控制与协同。
这种对本地 OS 更深层次的控制能力,意味着 Agent 可以为用户处理更广泛、更复杂的事务。它不再局限于网页内容的浏览和简单交互,而是能够真正深入到用户的工作流中,成为一个更加得力的数字助手。Perplexity 的 CEO Aravind Srinivas 也曾明确提出,浏览器是构建 AI Agent 的最佳容器,一个关键原因就在于其有潜力具备操作系统级别的资源调度能力。
Fellou 团队甚至计划发布一套 Agentic Browser 的评估基准(Benchmark),旨在构建一个横跨不同操作环境、不同设备类型、以及不同应用场景的任务集合。他们希望通过这套基准来系统性地验证 Agentic Browser 在真实生产环境中提升用户生产力的实际能力。这无疑也从一个侧面反映出,业界对于浏览器在本地控制能力上的期望。
终极的畅想,是将 Agentic Browser 发展成为一种全新的AI 操作系统(AIOS)。
它不仅仅是应用的载体,更是人机协作范式的一次重构。就像 Agent Store生态一样,用户可以将自己的经验和知识封装成特定领域的垂直 Agent(例如,“跨境电商爆款选品助手”),并在平台上分享或使用。这将形成一个类似“AI 应用商店”的开放平台,进一步强化其系统级的扩展能力和对本地资源的整合深度。
OpenAI的GPTs则是一个已经初具雏形的Agent Store,差的就是一个强有力的载体了
在当今这个由无数应用程序和服务构成的数字世界里,信息的孤岛效应和操作的割裂感是用户面临的普遍痛点。通用 Agent 的一个核心使命,就是要打破这些壁垒,实现跨应用的无缝连接与协同。而浏览器,凭借其独特的生态位和技术特性,正成为承载这一使命的理想平台。
想象一下,我们有多少日常任务需要辗转于不同的 APP 或网站之间?
这种切换和整合的成本,往往是巨大的。
Agentic Browser 的出现,为解决这一难题提供了新的思路。它不仅仅是信息的聚合器,更致力于成为一个行动的协调者。
浏览器凭借其作为互联网主要入口的地位,以及与各类 Web 服务天然的亲和性,正在演变为一个强大的跨应用连接中枢。它不再仅仅是通向各个网站的“门”,更像是一个繁忙的“十字路口”和高效的“交通调度系统”,让信息和操作能够在不同的目的地之间顺畅流转。
当我们把目光从具体的技术特性拉远,审视浏览器在整个数字生态中的角色时,会发现它天然就具备成为通用 Agent 理想载体的诸多禀赋。这并非刻意拔高,而是其历史演进和用户习惯共同塑造的结果。
首先,浏览器是互联网内容的通用容器。万维网(World Wide Web)的诞生,其核心理念便是通过超链接将全球的信息连接起来,而浏览器正是实现这一理念的客户端工具。无论是新闻门户、社交媒体、电商平台,还是在线办公、娱乐影音,几乎所有的互联网服务最终都会以网页的形式呈现。这种对内容形态的普适性,使得浏览器成为了一个天然的、无需额外适配的“万能交互界面”。通用 Agent 若想在广阔的数字世界中畅游无阻,浏览器无疑是最平坦、最宽阔的出发点。
其次,浏览器承载了用户规模庞大的固有习惯。数十年互联网的发展,已经让用户对通过浏览器获取信息、使用服务形成了根深蒂固的习惯。我们遇到问题时,会下意识地打开浏览器搜索;我们需要在线购物时,会熟练地输入电商网站的地址。这种用户习惯的继承,对于通用 Agent 的普及至关重要。将 Agent 的能力融入用户已经熟悉的环境中,远比强制用户学习一套全新的交互范式要容易得多。Agentic Browser 恰恰是站在了这一“巨人的肩膀上”,它让 Agent 的能力能够以一种更自然、更低门槛的方式触达海量用户。
再者,浏览器本身就是一个不断进化的“小操作系统”。从最初简单的 HTML 渲染引擎,到如今支持复杂 Web 应用、扩展插件、本地存储、硬件加速的强大平台,浏览器的功能边界在持续扩张。它有自己的进程管理、内存管理、安全机制,甚至开始涉足文件系统访问、设备 API 调用等原本属于操作系统核心的领域。这种“准操作系统”的特性,为通用 Agent 提供了施展能力的“土壤”和必要的“基础设施”。Agent 需要环境来感知,需要工具来行动,而现代浏览器恰恰能提供这一切。
正是这种内容的通用性、用户习惯的继承性、以及平台能力的进化性,共同构筑了浏览器作为通用 Agent 天然载体的坚实基础。它不像特定领域的 APP 那样存在场景局限,也不像纯粹的后台服务那样缺乏与用户的直接交互界面。浏览器,这个看似“古老”的工具,在新一轮的技术浪潮中,正焕发出全新的生机与可能。
当我们谈论浏览器作为通用 Agent 的载体时,目光可以放得更长远一些。浏览器未来的演进路径,并不仅仅局限于成为一个更智能的上网工具,它甚至有潜力沿着“浏览器 → 操作系统 → 硬件”这条被验证过的路径,发展成为数字时代新的生态核心,具备成为“另一个 Apple”的想象空间。
回顾科技史,Chrome OS 和 Chromebook 的出现,已经为我们展示了这条路径的技术可行性。谷歌通过将其强大的 Chrome 浏览器内核与 Linux 底层结合,成功打造了一个轻量级、云优先的操作系统,并催生了 Chromebook 这一全新的硬件品类。虽然 Chrome OS 的生态规模和市场占有率与 Windows 或 macOS 相比仍有差距,但它清晰地证明了:以浏览器为核心,向上构建操作系统,再向下延伸至定制化硬件,这条路是走得通的。
那么,Agentic Browser 的出现,又为这条路径增添了哪些新的想象力呢?
这并非遥不可及的幻想。当浏览器能够深度理解我们的意图,管理我们的数字生活,并无缝连接云端与本地、软件与硬件时,它就具备了成为下一代计算平台核心的潜力。正如昔日的个人电脑和智能手机分别定义了一个时代,以 Agentic Browser 为起点的新物种,或许正在孕育着定义下一个时代的巨大能量。这条从浏览器出发,途经操作系统,最终抵达定制化硬件的道路,充满了挑战,但也充满了令人激动的可能性。
潮水的方向,已然清晰。从 Perplexity 的困境与突围,到 Fellou、Dia 等先行者的勇敢探索,我们不难发现,Agentic Browser 并非一时兴起的概念炒作,而是通用 Agent 寻求更佳栖息地、释放更大潜能的必然选择。
它不仅仅是 AI 搜索的延伸,或是传统 AI 浏览器的简单升级。Agentic Browser 的核心,在于将浏览器从一个被动的“信息视窗”,转变为一个主动的“智能工坊”。它赋予了 Agent 前所未有的上下文感知深度与广度,打通了连接本地操作系统与跨应用服务的关键链路,并继承了浏览器天然的内容通用性和庞大的用户基石。
这场变革,争夺的早已不是用户的注意力,而是对用户数字世界“上下文”的深度掌控,以及在此基础上的“行动力”。浏览器,凭借其独特的生态位,正成为这场争夺战的核心战场。
未来,Agentic Browser 或许真的能够沿着 Chrome OS 的足迹,向上生长为全新的 AI 优先操作系统,向下延伸至为 Agent 量身定制的智能硬件。这不仅是对现有数字生态的一次重构,更是对人机协作范式的一次深刻革新。
路漫漫其修远兮,但方向既明,便只顾风雨兼程。Agentic Browser 的故事,才刚刚开始。我们有理由相信,这扇通往更智能、更自主的数字世界的大门,正在缓缓开启。
最后,预测一下OpenAI的Agentic Browser,将会在秋季之前正式对外发布。立帖为证,坐等打脸。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2025-06-10
ChatGPT的记忆系统是如何工作的
2025-06-10
Qwen3 嵌入与重排序(技术报告):复杂指令下的文本处理新能手(万字)
2025-06-10
上下文窗口错觉:为什么你的 128K token 不起作用
2025-06-10
大语言模型并非一切:你还应该了解这 8 种不同的 AI 模型类型
2025-06-10
GitMCP:为任意GitHub仓库文档提供即时MCP服务
2025-06-10
将AI当模型看,为什么能少走很多弯路?
2025-06-10
苹果放王炸!开放大模型访问权、全家桶集成ChatGPT,人人能开发AI应用
2025-06-10
一文读懂:MCP Servers架构如何像“操作系统”一样管理你的AI能力?
2024-08-13
2024-06-13
2024-08-21
2024-07-31
2024-09-23
2024-05-28
2024-08-04
2024-04-26
2024-07-09
2024-07-20
2025-06-10
2025-06-10
2025-06-10
2025-06-08
2025-06-07
2025-06-05
2025-06-04
2025-06-04