腾讯刚开源了个好东西：BrowserSkill 让 AI Agent 直接用你的浏览器

发布日期：2026-06-29 20:27:09 浏览次数： 1514

作者：叨叨数码

微信搜一搜，关注“叨叨数码”

让 AI Agent 安全使用你的真实浏览器

先聊聊痛点吧

不知道大家有没有遇到过这个情况——

你用 Cursor 或者 Claude Code 写代码，顺手想让 AI 帮你去浏览器里查个内网文档，或者在工单系统里提个 Issue，结果 AI 直接给你返回一个：「我没办法访问网页。」

好，那用 Playwright 之类的工具？可以，但问题来了：你的工单系统要登录，内网文档要登录，各种 SaaS 后台也要登录。让 AI 自己处理登录流程，要么失败，要么你得把账号密码明文塞进 prompt——这实在有点不优雅。

再退一步，跑一个 headless Chrome，Selenium 或者 Playwright 去自动化。然后你发现 Agent 和你的浏览器开始抢窗口、抢标签页，有时候还把你正在写的东西给关了……

这就是 BrowserSkill 要解决的核心矛盾：AI 想用浏览器，但它不会登录；它会自动化，但不能跟你共存。

这个项目是什么？

腾讯在 2026 年 6 月开源了 BrowserSkill，GitHub 地址是 https://github.com/Tencent/BrowserSkill，MIT 协议，可以随便用。

用一句话概括：

做一个本地桥接层
，让 AI Agent 通过 CLI 命令控制你浏览器里的一个专属窗口，共享你的登录态，但不打扰你正常使用浏览器。

先看效果：

听起来简单，但设计思路挺精妙的，我们一个一个拆开说。

三个设计哲学，值得单独说

🔹 Agent 是访客，不是主人

这个理念我第一次看到的时候觉得挺有意思的。

很多浏览器自动化工具的默认思维是：Agent 来了，浏览器就是它的，它爱咋整咋整。结果就是你一边开着会，AI 在另一边帮你关标签页……

BrowserSkill 的做法不同：给 Agent 单独开一个 「Agent Window」——你能在屏幕上看到它，橙色高亮，一眼就能认出来。但它跟你自己的浏览器窗口物理隔离，互不干扰。

Agent 想用你的某个已打开的标签页？可以，但要「借用」，用完还回来，不会乱动你其他的东西。

🔹 登录态共享，但不是交出密码

这是整个方案最聪明的地方。

BrowserSkill 的浏览器扩展装在你平时用的 Chrome 里，Agent Window 属于同一个 Browser Profile。这意味着你在 Chrome 里登录了 GitHub、飞书、公司内网，Agent 打开同一个 URL，直接就是登录状态的——Cookie 是共享的。

不需要给 AI 任何账号密码，不需要额外配置登录流程，它天然就能访问你有权限的东西。

从安全角度讲，这比把账密塞进 prompt 好太多了——凭证从没有离开过你的机器。

🔹 人始终在回路里

这个我个人很喜欢。

遇到验证码怎么办？遇到「确认删除」弹窗怎么办？需要二次验证怎么办？

BrowserSkill 内置了 暂停 / 恢复机制：Agent 遇到这类步骤会主动停下，把控制权还给你。你处理完了，点个继续，Agent 接着跑。

这让它特别适合「半自动化」场景——重复的机械操作让 AI 干，关键决策还是你来。

架构是怎么运作的？

说实话，这个设计还挺干净的：

你的 AI Agent
│ 调用 shell 命令：bsk navigate xxx
▼
bsk CLI（命令行工具）
│ IPC 通信
▼
bsk Daemon（本地后台服务）
│ WebSocket（127.0.0.1）
▼
浏览器扩展（装在你的 Chrome 里）
│ CDP 协议（Chrome DevTools Protocol）
▼
Agent Window （独立窗口 · 橙色高亮）

整条链路全在本机，没有任何数据经过外部服务器

bsk 命令对 Agent 来说就像普通的 shell 命令一样，Agent 框架不需要做任何特殊适配，只要能跑 shell 就行。

这就是为什么它能支持这么多框架——Cursor、Claude Code、Codex、OpenClaw、CodeBuddy、WorkBuddy、Pi、Hermes Agent——因为对它们来说，bsk 就是个普通命令，跟 curl 没什么区别。

实际怎么装？三步搞定

第一步：装 CLI

macOS / Linux：

curl -fsSL https://raw.githubusercontent.com/Tencent/BrowserSkill/main/install.sh | sh

Windows PowerShell：

irm https://raw.githubusercontent.com/Tencent/BrowserSkill/main/install.ps1 | iex

装完跑 bsk --version 验证一下。

第二步：装浏览器扩展

去 Chrome Web Store 搜「BrowserSkill」装上就行。

第三步：配置你的 Agent 框架

bsk install-skill

用空格键选中你用的 Agent 框架，回车，自动配置完成。如果你的框架不在列表里，手动把 skill/SKILL.md 复制到 frameworks 的 skills 目录就行。

配置完，在 Agent 对话里直接这样用：

/browser-skill 打开 xxx.com，帮我找到今天新增的工单并总结

我最推荐这四个场景

1. 内网系统的自动化

公司内网的管理后台、知识库、工单系统——外部工具根本触达不到，BrowserSkill 因为复用你的登录态，天然能访问。

2. AI 编程助手的端到端测试

写完代码让 AI 直接在真实 Chrome 里跑验收，不是 headless，就是你平时用的那个浏览器，结果更可靠。

3. 重复性的后台操作

每天导出报表、更新状态、批量处理数据——让 AI 跑，遇到需要确认的地方暂停叫你。

4. 需要保留人工判断的半自动流程

跟其他工具最大的差异：不是追求「完全自动化」，而是「该自动的自动，该人来的叫人」。

技术栈和开源情况

编程语言	Rust 57% + TypeScript 42%
仓库管理	Cargo workspace + pnpm workspace 混合
许可证	MIT，可商用可二开
平台	macOS · Linux · Windows
浏览器	Chrome · Edge（Chromium 兼容）
首次公开	2026 年 6 月 22 日