2026年7月2日 周四晚上19:30,报名腾讯会议了解“如何构建自进化的动态知识库(Brain)”(限30人)
免费POC, 零成本试错
FDE知识库

FDE知识库

学习大模型的前沿技术与行业落地应用


收藏

实测腾讯开源的 BrowserSkill:让 AI 直接用你登录好的浏览器

发布日期:2026-07-01 07:48:11 浏览次数: 1518
作者:翻斗花园二蛋

微信搜一搜,关注“翻斗花园二蛋”

推荐语

BrowserSkill让AI直接操作你已登录的浏览器,解决登录态共享与自动化干扰的痛点。

核心内容:
1. 传统AI浏览器自动化方案的三大翻车场景
2. BrowserSkill的本地桥接架构与隐私安全特性
3. 安装步骤与多框架兼容的实测体验

杨芳贤
53AI创始人/腾讯云(TVP)最具价值专家

本文是真上手装了、跑了、读了源码、又跟另外四款方案横评之后写的。优缺点都给硬的,不写软文。

一、先说痛点

用 Cursor / Claude Code / Codex 写代码,顺手想让 AI 去浏览器里查个内网文档、在后台系统提个单、验收一下刚写的页面——结果常见三种翻车:

  1. AI 直接摆烂
    :"我无法访问网页。"
  2. 上 Playwright / Selenium
    :能跑,但你的内网后台要登录、SaaS 后台要登录。让 AI 自己走登录流程,要么失败,要么得把账号密码明文塞进 prompt——很不优雅。
  3. headless 自动化
    :AI 另起一个浏览器实例,跟你抢窗口、抢标签页,有时候还把你正在测的东西给关了。

我自己最烦的是第 3 点:用 Playwright 每次都要等它冷启一个全新的 Chromium,而且那是另一个浏览器实例,跟我日常浏览器各玩各的——我正测着别的,它一跑可能就把我的环境搅了。

BrowserSkill 想解决的就是这对矛盾:AI 想用浏览器,但它不会登录;它会自动化,但不能跟你共存。

二、它是什么

腾讯 2026 年 6 月开源,github.com/Tencent/BrowserSkill[1]MIT 协议,可商用可二开。

一句话:做一个本地桥接层,让 AI Agent 通过 CLI 命令控制你浏览器里的一个专属窗口,共享你的登录态,但不打扰你正常用浏览器。

BrowserSkill 演示:左边终端里 Agent 跑 bsk 命令,右边橙色高亮的 Agent Window 在浏览网页
BrowserSkill 演示:左边终端里 Agent 跑 bsk 命令,右边橙色高亮的 Agent Window 在浏览网页

上图是官方仓库的演示(已转 GIF):左边是 Agent 在终端里发 bsk 命令,右边橙色描边的就是 Agent Window——它在动,但不抢你正在用的窗口。

三、架构(读源码 + 实测确认)

BrowserSkill 架构:AI Agent → bsk CLI → bsk Daemon → 浏览器扩展 → Agent Window,全链路走 127.0.0.1 不外联
BrowserSkill 架构:AI Agent → bsk CLI → bsk Daemon → 浏览器扩展 → Agent Window,全链路走 127.0.0.1 不外联

两个关键事实:

  • 全链路在本机,不外联
    。读了 install.sh 和扩展隐私声明,确认只走 127.0.0.1,无 telemetry、无凭证上报。
  • 对 Agent 来说 bsk 就是个普通 shell 命令
    ,跟 curl 没区别。所以它天然 agent 中立——实测 bsk install-skill --list 能自动检测出本机的 Claude Code、Codex、OpenClaw、CodeBuddy、WorkBuddy 等多个框架,一键写入各自的 skills 目录。

四、三步装 + 真实命令样例

第一步:装 CLI

# macOS / Linux
curl -fsSL https://raw.githubusercontent.com/Tencent/BrowserSkill/main/install.sh | sh
# Windows PowerShell
irm https://raw.githubusercontent.com/Tencent/BrowserSkill/main/install.ps1 | iex
bsk --version    # 验证

它会把 bsk 装进 ~/.local/bin 并写好 PATH,无 sudo、无 telemetry(脚本我逐行读过)。

第二步:装浏览器扩展

到 Chrome Web Store 搜 BrowserSkill 装上。⚠️ 装进你平时用的、已经登录了目标站点的那个浏览器——这是它复用登录态的前提。

第三步:配置 Agent

bsk install-skill          # 空格选框架,回车自动配置

实际用起来的命令(我实测跑通的一套):

bsk browsers                            # 看连了哪些浏览器,拿 instance id
bsk session start --browser        # 在指定浏览器开一个会话
bsk navigate --session https://example.com
bsk snapshot --session            # 输出带 @e1/@e2 编号的无障碍树
bsk click   --session @e12        # 按编号点
bsk fill    --session @e8 "hello"
bsk get-html --session            # snapshot 不够时看原始 DOM
bsk screenshot --session          # 最后才用截图
bsk request-help --session        # 遇验证码/登录,暂停交回给你
bsk session stop                  # 用完必须关,否则留下 Agent Window

实测最实用的是 snapshot:它把页面可交互元素整理成带编号的树,AI 直接 click @e12,比把整个 DOM 或截图丢给模型又稳又省 token

实测一个细节:在一个登录态站点上,普通隔离浏览器(如全新 Playwright 实例)打开会被踢回登录页;而 BrowserSkill 用你已登录的浏览器打开,直接就是登录后的页面。这就是它最大的卖点,确实成立。

五、跟其它四款横评


BrowserSkillPlaywright(MCP)官方 Claude in ChromeOpenClaw RelayBrowserAct
用真实登录态
❌ 全新实例无登录
✅(chrome 模式)
桥接机制
daemon+WS+CDP
直接驱动新实例
native messaging
CDP relay
CLI+多模式
读 console/network
✅✅(主打调试)
✅(CDP)
截图 / GIF 录制
仅单张 PNG,无 GIF
截图+视频
截图+会话录制为 GIF
CDP 可截
截图
是否要你浏览器开着
(用你现有浏览器)
否(自己冷启)
视模式
抢不抢你窗口
不抢(独立 Agent Window)
会抢/会冷启
开新标签
点哪控哪
隔离 session
扩展权限洁净度
中(debugger+)
不需扩展
高(站点白名单)
最高(debugger+仅localhost)
有确认门控
是否外联上报
否(纯本地)
会上报 URL 做策略
agent 中立
✅ 任意 shell agent
✅(MCP)
❌ 仅 Claude
❌ 仅 OpenClaw
鉴权要求
任意
(authtoken/第三方API 都行)
任意
必须官方账号登录
仅 OpenClaw 体系
任意
反爬/隔离模式
单一
一般
✅✅ 三模式隔离
开源
✅ MIT
可读

一句话定位:调试看官方,权限最克制看 OpenClaw,多账号隔离/反爬看 BrowserAct,要 CI/无人值守看 Playwright,登录态+agent 中立+纯本地看 BrowserSkill。

更大的赛道全景:两大阵营

把视野放大,2026 年这波"给 Agent 装浏览器"的项目其实分成两个阵营,选型先看你要哪个:

两大阵营:阵营 A 复用你已登录的真实浏览器(BrowserSkill/官方 Claude in Chrome/OpenClaw 等),阵营 B 是 Agent 优化的全新浏览器(Playwright MCP/Vercel agent-browser 等);BrowserSkill 占位 agent 中立+纯本地
两大阵营:阵营 A 复用你已登录的真实浏览器(BrowserSkill/官方 Claude in Chrome/OpenClaw 等),阵营 B 是 Agent 优化的全新浏览器(Playwright MCP/Vercel agent-browser 等);BrowserSkill 占位 agent 中立+纯本地

阵营 A:复用你已登录的真实浏览器(适合内网/SaaS 后台、要登录态、人机协作)

  • BrowserSkill(腾讯,本文主角)、官方 Claude in Chrome、OpenClaw Relay、GenericAgent
  • BrowserAct 的 chrome 模式、Browserbase 的本地模式

阵营 B:Agent 优化的全新浏览器(适合无人值守、批量抓取、CI;但默认无登录态)

  • Playwright MCP、Chrome DevTools MCP
  • Vercel agent-browser
    agent-browser.dev,上线一周冲到 9K star,npm i -g 自带 Chromium,实测首次成功率 ~95%,号称优于 Playwright MCP / Chrome DevTools MCP)
  • BrowserAct 的 stealth 模式(指纹浏览器+住宅 IP,过 Cloudflare/DataDome/reCAPTCHA)、Browserbase 的云端隐身模式

BrowserSkill 是阵营 A 里"agent 中立 + 纯本地"那一格——这是它最清晰的占位。

一个行业已经收敛的最佳实践:Snapshot + 编号引用

值得单独点出来:BrowserSkill 的 snapshot @eN、Vercel agent-browser 的 Refs、BrowserAct 的 state 编号树,三家不约而同走到了同一个设计——把页面可交互元素整理成带编号的快照,让 Agent 直接 click @e12,而不是去猜脆弱的 CSS/XPath。这套做法更省 token、步骤更少、确定性更高(agent-browser 实测首次成功率 ~95%,明显高于传统 Playwright MCP)。所以你看 BrowserSkill 把 snapshot 列为第一选择、截图垫底,不是随便排的,是这一代 Agent 浏览器工具的共识。

六、优点(实测/读源码得出,给硬的)

  1. 复用登录态,凭证不离开本机
    。不用把账密塞 prompt,不用配登录流程。安全模型上比"账密进 prompt"强一个量级。
  2. 纯本地、不外联
    。daemon 只在 127.0.0.1,不像官方 Claude in Chrome 会把你访问的 URL 上报服务器做策略校验——内网地址友好,这点对在内网环境干活的人很关键。
  3. agent 中立
    。一套桥接,Cursor / Claude Code / Codex / OpenClaw / CodeBuddy 都能用,对它们来说 bsk 就是普通命令,零适配。
  4. 不挑鉴权方式(很多人会忽略的一条)
    。官方 Claude in Chrome 绑死 Anthropic 官方账号登录,鉴权过不去就用不了;而国内大量用户跑 Claude Code 走的是 authtoken 接中转站,或者干脆 接第三方 API——这批人官方浏览器功能直接用不了。BrowserSkill 因为只是个普通 shell 命令,不关心你用什么模型、什么 key、什么鉴权,authtoken / 第三方 API / 别家 agent 照样能用。对"非官方订阅"的大多数人来说,这往往是唯一能用的那个。
  5. 不抢你的窗口、无冷启
    。用你已开的浏览器,独立的橙色 Agent Window,要碰你现有标签得显式 borrow。相比 Playwright 每次冷启新实例还跟你抢焦点,体验上确实清爽。
  6. 人在回路
    request-help 暂停/恢复,验证码、二次确认、删除弹窗交回给你处理完再继续,适合"该自动的自动、该人来的叫人"的半自动流程。
  7. MIT 开源可审计
    install.sh / manifest / SKILL.md 我都读过,无 telemetry、无凭证访问,能自己核。

七、缺点(一样给硬的,别被科普文带跑)

  1. 不适合无人值守 / CI 的长时间自动化
    。注意:这里要分清——"需要你的浏览器开着"本身不是缺点,是设计前提,它就是要用你已开、已登录的浏览器(甚至能用 bsk tab borrow 直接借用你当前正开着的标签页来看),对"人在电脑前随手让 AI 看个页面"的场景反而是优点:没有冷启动、就是你那个真实会话。真正的短板在于连接不够稳:实测 service worker 闲置后、或浏览器重启后,instance id 会变、连接会掉(这次 Edge 实例 id 变过、Chrome 掉过线,得重跑 bsk browsers 重查)。所以没人盯着的长时间任务 / CI 流水线用它要额外做保活,不如 Playwright 省心;而你人在跟前时,掉了重连一下没什么影响。
  2. 读不了 console / network
    。命令集里没有专门的控制台/网络抓包命令,找前端 bug 看报错和接口返回只能用 evaluate 绕。这是相对官方 Claude in Chrome 的硬伤——后者专门主打读 console 调试。
  3. 不支持 GIF / 会话录制
    。实测命令集里截图只有一个 screenshot(单张 PNG,可裁剪到某元素),没有 gif/录屏/会话录制。官方 Claude in Chrome 支持"会话录制为 GIF"用来记录或分享操作过程,BrowserSkill 没有,要演示流程得自己外接录屏工具。

「读不了 console/network」这条我没忍住,动手给扩展补了一版——用 CDP 的 Log/Network/Runtime 域旁路抓取,能拿到 evaluate 绕法拿不到的引擎级报错真实状态码。已 fork 一份(含实现)并给上游提了 issue:

  • Fork:https://github.com/hjxccc/BrowserSkill
  • Issue:https://github.com/Tencent/BrowserSkill/issues/2

实现就是照搬它自己监听对话框事件的范式,多开两个 CDP 域 + 把事件 buffer 起来——基础设施它本来就有,所以这缺口补起来很轻。

  1. 权限大,且约束是"软"的
    。扩展要 debugger + ,技术上能读任意站点的全部内容和 cookie;SKILL.md 里写的"不要提取凭证/cookie"只是提示词级别的约束,没有技术强制。对比之下 OpenClaw 的 manifest 只要 debugger+localhost(CDP 挂上标签本就够用,不必 ),更克制。
  2. 有明显的"被接管"观感
    。它用 CDP,会触发 Chrome/Edge 顶部那条"BrowserSkill 已开始调试此浏览器"横幅 + 整窗橙色描边 + "Agent 正在控制"浮窗(见实测截图)。安全上是好事(可见性高),但有人会觉得碍眼。
  3. 页面内容会进 Agent 上下文 = 进你的 LLM 提供商
    。对含敏感信息的页面,等于绕过了人工脱敏这一关。五款工具都有这个问题,但它是用任何"真实浏览器 + LLM"方案都要付的代价,得心里有数。
  4. 很新
    。v0.1.5、2026 年 6 月首发、star 还不多,长期稳定性和生态没经过检验;多浏览器连接时要手动 --browser  指定,体验还略糙。
  5. session 用完必须 stop
    ,否则堆 Agent Window;写自动化脚本时容易忘。

八、适合谁 / 不适合谁

适合

  • 让 AI 操作需要登录的内网后台、知识库、工单系统、SaaS 后台——外部工具触达不到,它靠复用登录态天然能进。
  • 让 AI 编程助手在你平时那个真实浏览器里跑端到端验收,而不是 headless。
  • 想跟 AI 半自动协作:重复操作交给它,关键决策自己点。
  • 在意数据不出本机、用多个不同 agent 的人。

不适合

  • 无人值守 / CI 流水线:它依赖你浏览器开着、还会掉线,不如 Playwright 省心。
  • 深挖前端 bug 看 console/network:它弱,用官方 Claude in Chrome 或 Playwright。
  • 扩展权限洁癖到极致: 会让你不舒服,可以看 OpenClaw。

九、结论

BrowserSkill 最聪明的不是"能打开网页",而是把 登录态共享 + 与人共存 + 纯本地 + agent 中立 这四件事一起做对了。它和 Playwright 不是替代关系,是互补

要登录态、要跟人共存、不要冷启 → BrowserSkill; 要 CI、要无人值守、要读 console、要干净隔离 → Playwright。

如果你已经在让 AI 干网页活儿,又被"登录态"和"抢窗口"折磨过,它值得装来试。但别把它当成全自动魔法——它需要你的浏览器开着,它读不了 console,它的权限边界靠自觉。认清这三条,再决定用在哪。

引用链接

[1] https://github.com/Tencent/BrowserSkill

53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询

扫码登录
登录即表示您同意《53AI网站服务协议》
服务协议

欢迎您使用【53AI 官方网站】(以下简称“本网站”或“我们”)。本《会员服务协议》(以下简称“本协议”)是您(以下简称“会员”或“用户”)与【深圳市博思协创网络科技有限公司】之间关于注册、登录及使用本网站会员服务所订立的法律协议。

在您注册或登录前,请务必审慎阅读、充分理解各条款内容,特别是免除或限制责任的条款、知识产权条款、争议解决条款等。此类条款将以加粗形式提示您注意。 当您通过微信公众号授权、手机验证码验证或其他方式成功登录本网站时,即视为您已完全理解并同意接受本协议的全部内容。

一、 定义

本网站:指由【深圳市博思协创网络科技有限公司】运营的,域名为【53ai.com】的网站及相关移动端页面。

会员服务:指本网站向注册会员提供的知识库文章查阅、内容检索及其他相关增值服务。

知识库内容:指本网站发布的包括但不限于文字、图表、数据、研究报告、行业分析等数字化内容资源。

二、 账号注册与登录

登录方式:本网站支持以下登录方式,您可根据实际情况选择:

微信公众号授权登录:您同意将您的微信OpenID信息授权给本网站,用于创建或关联会员账号。

手机验证码登录:您需提供真实有效的手机号码,并通过短信验证码完成身份验证与登录/注册。

账号安全:您的账号仅限您本人使用,禁止赠与、借用、租用、转让或售卖。因您保管不善导致的账号被盗、密码泄露等损失,由您自行承担。

实名认证:根据相关法律法规要求,我们可能要求您在特定功能下完成实名认证。如您拒绝提供,可能无法使用部分或全部服务。

未成年人保护:若您未满18周岁,请在法定监护人的陪同下阅读本协议,并在征得监护人同意后使用本服务。

三、 服务内容与规范

知识库查阅权限:会员登录后,有权按照其会员等级对应的权限范围,在线浏览、检索本网站知识库中的相关文章及内容。

服务变更:我们有权根据业务发展需要,调整、变更或终止部分服务内容,并将以网站公告、公众号消息等方式提前通知。

禁止行为:您在使用服务时不得实施以下行为:

利用技术手段批量爬取、下载、转存知识库内容;

将知识库内容用于商业目的或未经授权地向第三方传播;

干扰本网站正常运行或侵犯其他用户合法权益;

发布违法违规信息或从事违反公序良俗的活动。

四、 知识产权声明

权利归属:本网站知识库中的排版设计、软件代码等内容的知识产权均归【公司全称】或原权利人所有,受《中华人民共和国著作权法》等法律保护。

有限许可:本网站授予会员一项非独占、不可转让、不可转授权的普通许可,仅限于个人学习、研究之目的在线查阅知识库内容。

侵权追责:未经书面许可,任何单位或个人不得以任何形式复制、转载、摘编、镜像、汇编或以其他方式使用上述内容。一经发现,我们保留追究其法律责任的权利。

五、 个人信息保护

我们重视对您个人信息的保护。关于我们如何收集、使用、存储和保护您的个人信息,请单独阅读 《隐私政策》。

您通过微信公众号授权或手机号验证所提供的信息,我们将严格按照《个人信息保护法》的规定处理,仅用于身份识别、服务提供及安全验证等必要用途。

您可以随时通过网站设置或联系客服行使查阅、更正、删除个人信息及撤回授权同意的权利。

六、 免责声明

内容准确性:知识库内容仅供参考,不构成专业建议。我们不对其完整性、准确性、时效性作任何明示或暗示的保证,您应自行判断并承担使用风险。

不可抗力:因自然灾害、政策法规变化、网络故障、第三方平台接口异常(如微信接口维护、运营商短信通道故障)等不可抗力导致的服务中断或延迟,我们不承担违约责任。

第三方链接:本网站可能包含指向第三方网站的链接,该等网站的内容和服务不受我们控制,请您自行甄别风险。

七、 违约责任

如您违反本协议约定,我们有权视情节采取警告、限制功能、暂停服务、注销账号等措施,并保留要求赔偿损失的权利。

如因您的违约行为导致我们遭受行政处罚、第三方索赔或商誉损失,您应承担全部赔偿责任(包括但不限于罚款、赔偿金、律师费、公证费等)。

八、 法律适用与争议解决

本协议的订立、执行和解释均适用中华人民共和国大陆地区法律。

因本协议产生的或与本协议有关的任何争议,双方应友好协商解决;协商不成的,任何一方均可向【公司所在地】有管辖权的人民法院提起诉讼。

九、 其他

本协议构成双方就本服务达成的完整协议,取代此前任何口头或书面约定。

本协议任一条款被认定为无效或不可执行的,不影响其他条款的效力。

我们对本协议享有最终解释权,并在法律允许的范围内保留随时修改的权利。修改后的协议一经公布即生效,继续使用服务即视为同意修订内容。


已查阅