微信扫码
添加专属顾问
我要投稿
AI浏览器Comet和Dia开放体验,带你解锁自动化操作、快捷指令和多标签页整合三大实用场景!核心内容: 1. AI浏览器的三大实用场景:批量自动化、快捷指令创建、多标签页整合 2. AI浏览器诞生的背景与解决的用户痛点 3. AI浏览器对传统浏览器Chrome的挑战与局限
之所以和大家聊这个话题,是因为之前一码难求的 Comet 和 Dia 在上周相继开放,现在都可以免费体验了。大家在体验后会更容易 get 到文章中的一些点。
文章分为三个部分:
AI浏览器的三个实用场景
AI浏览器为何诞生?
AI浏览器对Chrome的挑战:有,但还不够大
场景一:批量自动化操作
同理,你还可以让 Comet 帮你筛选并关注符合条件的 X 账号,或帮你批量回复,又或者自动完成报表生成、邮件分发、数据抓取等重复性工作。
不用自己手动操作,也不用去写脚本,更不用调用 MCP 或 RPA,你要做的,就是用自然语言描述你的需求(也告别了大段大段的Prompt撰写)。
场景二:创建快捷指令来执行 routine 属性的任务
配置完成后,你后续要执行这个任务,就不用在对话框重复输入大段的指令,只需要输入快捷指令,就可以快速执行这类 routine 任务(如下图)。
场景三:多标签页对比、关联、整合等
如果你想要横向比较三家保险公司的产品,比较古早的方法是在传统浏览器中分别访问三个网站,手动记录和比对各项条款,整个过程耗时耗力;稍微新一点的方法,是将这三个网站的链接复制粘贴给你常用的AI工具,然后让它来整合产品信息并对比。
而现在,你只需要在 Comet 中打开这三家产品的产品页,然后在输入框手动@这三个网页,并输入你的指令即可。
我现在就经常用它来对比提供相似解决方案的GitHub项目(如下图,就是在对比markitdown、MinerU 和 marker 的区别),非常舒服。
传统浏览器,如Google Chrome、Mozilla Firefox 和 Apple Safari,它们的设计哲学根植于一个以文档为中心的互联网时代。
它们的核心功能是作为访问和渲染网页的客户端,整个交互模式主要依赖于用户的主动、精确操作,如点击链接、填写表单和手动搜索。然而,随着网络信息量的爆炸式增长和用户需求的日益复杂化,这种传统模式的局限性愈发凸显,比如:
信息检索和整合困难:我们在进行一项复杂任务,如撰写研究报告时,可能会打开数十个甚至上百个标签页,包括学术论文、新闻网站、社交媒体等,这种 “标签页地狱” 让信息检索和整合都变得异常困难,因为我们需要在众多标签中来回切换以寻找所需内容。
手动操作的低效与重复性:传统浏览器需要我们手动执行绝大多数操作,从简单的信息搜索到复杂的多步骤任务,如数据抓取、内容比较和跨平台信息同步。这种高度依赖人工的模式不仅效率低下,而且充满了重复性劳动。我们无法将精力集中在更高层次的思考和决策上。
这些痛点并不是现在才有的,只不过之前一直没法解决,直到 LLM 和 Agent 技术的成熟,为解决这些痛点提供了可能性。
2.2 AI技术成熟带来的机遇
在 Every 的播客采访中,Josh Miller(Dia 创始人之一)坦言现在有底气做 Dia 浏览器,就是因为技术开始变得可行。他说,
“GPT-4o 让 Dia 真正跑了起来。我们刚做 Dia 的时候,我记得很清楚,还专门联系了 OpenAI 的朋友说,你们这个新模型让我们产品真的能落地了。”
Dia 的发展特别像 Cursor,都是一个模型能力的直接提升带来产品能力的迭代。Cursor 成立在 2022 年,最开始也不是做代码编辑器;后面虽然做了代码编辑器,一开始也没火。它真正为大家所知,是 2024 年 7、8 月份,因为 Claude-3.5- Sonnet 发布了。
以 GPT-4o 等为代表的大语言模型,具备了强大的自然语言理解、推理和生成能力。它们能够理解用户模糊、复杂的自然语言指令,而不仅仅是关键词匹配,然后将这些指令,自主地将其分解为一系列可执行的子任务,并调用相应的工具(如浏览器API、外部API)来完成这些任务。
例如,当我下达 “我想阅读有关 GUI Agent 的论文。请帮我找到十篇相关论文,并将它们整理成一份报告进行概述” 的指令时,Fellou 浏览器中的 Agent 就会自动将它分解为在搜索特定论文、筛选符合要求的论文、提取论文信息等多个步骤,并自动执行。这种自主任务规划与执行的能力,使得浏览器能够完成过去需要大量手动操作的复杂工作流。
所以,AI 浏览器的诞生并非偶然,而是传统浏览器在信息时代演进中暴露出的核心痛点与 AI 技术成熟后所带来的必然。
传统浏览器的最终产出是信息,而 AI 浏览器的最终产出是结果。用户不再满足于仅仅找到信息,而是希望浏览器能够直接帮助他们完成目标。
这种范式的转移,要求浏览器具备更强的主动性、智能性和行动能力。于是便有了 AI 浏览器的生长空间。
AI 浏览器对Chrome的挑战:有,但还不够大
虽然 Comet、Dia 等 AI 浏览器吸引不少资本关注和用户尝试。例如 Comet 在 2025 年 5 月月活跃搜索量达 7.8 亿次,环比增速超 20%,但用户主要还是集中在高端订阅市场,整体体量和 Chrome 仍然不具可比性,甚至对比其它主流浏览器也有较远的距离。
而且 Chrome、Edge 等传统浏览器自身也在积极集成 AI 能力,来巩固和扩展市场份额。所以在短时间内,AI Native Browser 对 Chrome 冲击会有,但不大。
尽管 ChatGPT、Perplexity 等 AI 搜索正在侵蚀 Google 的市场份额,但没有任何一方找到替代 Google 搜索作为高质量网络索引的好方法。OpenAI 目前仍然选择抓取 Google 搜索结果。
Google 搜索有着持续统治力。
这让我联想到上个月 Google 搜索的一项策略调整引发的行业震荡。
Google 悄悄移除了 num=100 搜索参数。这意味着我们无法再一次性查看100个结果,“长尾”访问被大幅削减。现在默认的最大值是10。
这之所以重要,是因为大多数 LLMs(OpenAI、Perplexity 等)直接或间接地依赖谷歌索引的结果,以及它们自己的爬虫。
这种调整带来的直接结果就是:
根据 Search Engine Land 的数据,88%的网站出现了曝光量下降。
Reddit,通常排名在 11 至 100 位,它的 LLM 引用量大幅下降,股价更是下跌了 15%。
对于小团队或者独立开发者来说来说,这意味着 AEO(尤其是面向海外的 AEO)会变得更难,自己的产品更难被看见。
所以,无论从AI浏览器,还是AI搜索的角度,目前 Chrome 的地位还很难被撼动。
说实话,在刚开始使用 Comet 和 Dia 之前,我一直不太习惯,后面是强迫自己将部分任务交给它俩后,大概用了一个多月后,我才逐渐体会到 AI 浏览器的部分好处。
不过我目前默认浏览器还是 Chrome。
我在想,我们这批互联网和移动互联网的原住民,可能会因为太习惯 Chrome 浏览器所以有产品依赖和迁移成本。可 AI 时代的原住民呢?他们一开始就是用的 AI 搜索、AI 浏览器,这种影响随着时间推移会越来越明显。Comet、Dia、Fellou 最后不一定会存活,但 AI 浏览器会。
至于 AI 浏览器最后到底是个什么形态,没有人知道,但我觉得 Dia 创始人 Josh Miller 的两段话值得思考,他说,
“我妻子每天花七个小时在「浏览器」里处理应用和文件,它更像是一个计算机或操作系统。从技术角度讲,它是一个计算环境,「浏览器」这个词语易误导人,我们一直觉得奇怪。
…… 其实现在我们还都在努力想给自己做的东西找个合适的名字。但 Hursh 很早就看出来,真正的价值不是浏览器本身,它只是基础设施,真正的价值来自上面你要用它干的事。
就像 iPhone 虽然是手机,但它的强大并不在于打电话,而在于其他能力。那会儿我还觉得这个说法有点玄乎,但后来事实证明他的直觉完全正确。”
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2025-10-14
Opera Neon 浏览器重磅升级:集成 OpenAI Sora 2,开启智能创作新纪元
2025-10-14
Palantir 创始工程师深度分享:FDE 模式是 Agent 时代的 PMF 范式
2025-10-14
腾讯开源Youtu-Embedding:加速企业级RAG落地
2025-10-14
OpenAI奥特曼:能被ChatGPT消灭的工作不是真正的工作
2025-10-13
2025 AI Agent 元年:你还在用 AI 聊天,别人已靠“智能体”成为“超级个体”
2025-10-13
为何底层数据湖决定了 AI Agent 的上限?
2025-10-13
从需求到运维:证券领域LLM增强型DevOps平台建设实践
2025-10-13
全网首发 OpenAI Apps SDK 使用教程
2025-08-21
2025-08-21
2025-08-19
2025-09-16
2025-07-29
2025-09-08
2025-08-19
2025-09-17
2025-09-29
2025-08-20
2025-10-14
2025-10-13
2025-10-09
2025-10-09
2025-10-07
2025-10-04
2025-09-30
2025-09-29