我要投稿

为什么Perplexity要打造自有浏览器Comet？

发布日期：2025-07-19 20:59:42 浏览次数： 2115

作者：Fighter的世界

微信搜一搜，关注“Fighter的世界”

What：AI巨头们的浏览器乱战

2025年，各大AI巨头们开始了一场新的“浏览器战争”，其核心是为了AI的深度集成与入口控制权。这场竞争的参与者几乎囊括了所有顶级的AI公司，它们不约而同地将浏览器视为AI时代的关键战场。

Google：Google正全力将其Gemini模型整合进数十亿用户的Chrome浏览器，陆续推出了页面智能摘要、多标签页比较、智能镜头搜索以及非常关键的AI Mode搜索等功能，试图在不颠覆其广告帝国的前提下进行一场“防御性创新” 。

Microsoft: Microsoft则将Edge浏览器中的Copilot定位为其庞大企业生态(Microsoft 365）的AI延伸，专注于提升办公生产力。

OpenAI：OpenAI正准备推出自己的浏览器，据传代号为Aura，并在最近已发布“ChatGPT Agent”功能，旨在将网页浏览、代码执行和应用交互融为一体。

The Browser Company：这家公司果断放弃了从设计驱动的Arc，坚决地转向AI优先的Dia，背后的关键判断是其认为”最深度的AI能力才是未来浏览器大规模普及的关键“。

Perplexity于7月9日发布了AI原生浏览器Comet，CEO Aravid Srinivas在多次访谈中反复强调这是一次关乎其生死存亡的战略突围。

Source: Perplexity

为什么Perplexity要坚决打造自己的浏览器Comet呢？

Perplexity CEO Aravind Srinivas认为，打造Comet并非一个可有可无的“选项”，而是其在AI下半场竞争中的“唯一出路”。这背后是一套关于商业价值、竞争壁垒和市场终局的深刻判断。

这句论断是理解Perplexity所有后续战略的基石。当AI聊天和AI搜索迅速成为商品，被Google、OpenAI等巨头作为功能免费集成到其现有产品中时，Perplexity最初凭借“Answer Engine”建立的差异化优势越来越快地丧失竞争力。

如果继续停留在“Answer Engine”的层面，意味着Perplexity将永远是一个依附于他人平台的“功能”，其用户和数据最终仍将留存在Google或MS的平台上。

Aravid认为，”浏览器是比聊天更大的奖赏，是一款更具粘性的产品”。构建自有浏览器，本质上是一次“平台跃迁”的尝试，即从一个随时可能被取代的“AI应用”，转变为一个拥有自己用户、数据和生态的“平台”，这是构建一道可防御的商业护城河的唯一途径。

传统搜索引擎，包括Perplexity仅满足的是信息需求，其商业价值在用户获得答案后便结束。而一个Agnet Browser，其目标是完成从“提出想法”到“任务完成”的整个闭环。例如，用户不再是搜索“最新的iPhone”，而是直接下达指令“帮我买一款拍照能力最好的iPhone” 。

谁能可靠地编排和执行这个workflow，谁就掌握了价值链中利润最丰厚的部分。

Aravid设想的商业模式是，为高价值任务收取费用，比如如完成一次复杂的招聘流程收取20美元，为一个能创造数百万商业价值的分析报告收取2000美元等。这种商业模式的基础完全是建立在对workflow的所有权之上。

这与VC们日益看重“清晰的投资回报率（ROI）”和“工作流所有权”的趋势不谋而合，也将Perplexity与那些仍在探索广告或简单订阅模式的AI Startups区分开来。

过去两年业界对Agent的讨论非常多，但“没有人真正发布过任何可行的产品”。Aravid认为，其根本瓶颈在于上下文（Context）和安全问题。

一个Agent需要访问用户在各个应用，如Gmail、Amazon中已登录的状态和数据，才能真正“为你办事”。Aravid的判断是，浏览器是解决这一难题的“唯一途径” ，因为它天然具备了AI Agent执行任务所需的三大核心要素：

透明可控的协同界面（Control）：用户可以在熟悉的浏览器界面中，实时监控Agent的每一步操作，并在其“偏离轨道”时随时中止并接管。这种Human-in-the-Loop的设计对于建立用户在AI技术尚不完全可靠阶段的信任至关重要。

客户端的安全保障（Security）：敏感数据和操作被限定在本地设备，避免了将认证信息暴露在网络传输中。Aravid明确表示，这比新兴的MCP协议或OpenAI的服务器端方案风险小得多，且无需等待不成熟的协议。

1. Comet的务实架构：站在巨人的肩膀上

Comet的技术实现体现了其一贯的高度实用主义：

Chromium内核：选择基于开源的Chromium项目开发，是个聪明的市场进入策略，据称OpenAI也是基于Chromium来打造其Aura的。好处是，这种方案确保了用户对界面的熟悉感，与庞大的Chrome扩展生态兼容，并能通过一键操作无缝导入书签和密码，极大地消除了用户迁移的摩擦。

混合AI架构：Comet采用混合式设备端/云端AI架构。敏感的上下文信息处理尽可能保留在客户端以保护隐私，而需要强大算力的复杂推理任务则交由云端的大模型处理。这种架构试图在苹果式的隐私保护和OpenAI的强大模型性能之间做balance。

侧边栏作为入口：Comet的AI助手（Sidecar）被普遍认为是其最直观、最具即时价值的功能。它将AI能力无缝嵌入到用户当前的浏览页面旁，作为引导用户从传统的“信息查询”转向更复杂的“任务委托”的“特洛伊木马”。

Agentic Frameworks：最早从ReAct框架为代表的技术，赋予了AI “思考-行动-观察”的自主能力。AI不再是简单地生成文本，而是可以调用外部工具，如搜索引擎、API等，并根据返回结果进行下一步推理和规划。这是所有功能性Agent的技术基石。

多模态视觉理解：现代网页是高度视觉化的。传统的AI仅靠解析HTML代码，很难理解动态加载的复杂界面。以视觉语言模型（VLMs）为代表的多模态技术，让AI能够真正地“看见”网页截图，像人一样通过分析视觉布局来识别可交互的元素。这是Comet能够模拟点击、填写表单等操作的关键。

多步推理能力的进化：对于长周期的复杂任务，Comet目前还很“脆弱” ，主要原因是当前AI模型在多步推理（Multi-step Reasoning）能力上还有待提升。但我个人认为Perplexity对未来AI多步推理能力会越来越强的技术押注是非常前瞻和正确的，即赌定“GPT-5”等下一代模型将在推理能力上实现质的飞跃，从而从根本上解决Comet的可靠性问题。