我要投稿

Chrome 146 来了：OpenClaw 操控浏览器最大的几个坑，终于有解了

发布日期：2026-03-16 09:30:51 浏览次数： 6210

作者：小K的AI漫谈

微信搜一搜，关注“小K的AI漫谈”

最近 OpenClaw 火得不行，GitHub 星标从 9000 飙到 6 万多，成了 2026 年开年最炸的开源 AI Agent 项目。但你要是真拿它来操控浏览器干活，大概率会被折腾得够呛。

好消息是，4 天前（3月10日）Chrome 146 稳定版发布了，带来了原生 MCP 支持和 WebMCP 标准。这两个东西，恰好能治 OpenClaw 操控浏览器的好几个老毛病。

今天就来聊聊这件事。

01 OpenClaw 操控浏览器，到底有多折腾？

先说 OpenClaw 是什么。它是一个自托管的 AI Agent 运行时，你可以理解成一个「住在你电脑里的AI助手」，能通过 WhatsApp、Telegram、Slack 这些聊天工具来指挥它干活。它能执行终端命令、管理文件，也能操控浏览器。

浏览器操控是 OpenClaw 最吸引人的能力之一——让 AI 帮你填表、爬数据、下单、搜信息。但实际用起来，坑不少。

OpenClaw 提供了三种浏览器控制模式（Extension Relay、OpenClaw Managed、Remote CDP），看着挺全的，但每种都有各自的问题：

插件动不动断连。 OpenClaw 通过 Chrome 扩展和 CDP 协议（Chrome DevTools Protocol）来控制浏览器。简单场景还行，一旦操作复杂点，扩展就容易断开，得手动重连。有个开发者在 GitHub 上记录了一次会话里浏览器连接断了 25 次的经历，每次断连要等 10 分钟超时，一下午什么都没干成。

配置文件经常炸。 OpenClaw 重启后，JSON 配置有时会被自动修改甚至损坏。浏览器的默认 profile 设置也容易出问题，明明配了独立浏览器模式，结果它偷偷回退到扩展中继模式，然后就挂了。

Token 烧得快。 OpenClaw 操控浏览器时会频繁截屏来理解页面内容，每张截图都要消耗 Token。复杂网页跑几步下来，Token 费用蹭蹭涨。有人专门引入了字节的 OpenViking 记忆方案来减少消耗，说明这个问题确实普遍。

安全事故不是段子。 一个真实案例：有人让 OpenClaw 分析某个页面加载了哪些 API 接口，结果指令不够精确，AI 直接调用了这些接口，其中有几个是删除接口，把评论平台上的评论全删了。还有人让 OpenClaw 登录 Google 账号后，5 分钟内 VNC 就被 139 个外部连接访问，攻击者利用浏览器里的登录状态收验证码、开云服务器。

使用门槛不低。 虽然很多文章说 OpenClaw「开箱即用」，但真要把浏览器操控跑通，你得懂 JSON 配置、会排查 CDP 端口问题、持续调试 skill。对非技术用户来说，门槛真不低。

这些问题的根源其实可以归结为两点：一是 AI 理解网页的方式太原始（截图 + 像素识别），二是浏览器和 AI Agent 之间缺少一个稳定的标准化接口。

02 不只是 OpenClaw：整个行业的老毛病

其实不光 OpenClaw，Anthropic 的 Computer Use、OpenAI 的 Operator（CUA）、Claude Code 操控浏览器，都有类似的问题。

当前主流 AI Agent 操控浏览器基本都是一个路子：截屏，视觉模型分析，模拟点击，再截屏。

Anthropic 的 Computer Use 用的就是这种「翻相册」式的交互方式。官方自己都承认「速度明显慢于人工操作」，还建议「请专注于对速度要求不高的场景」。OpenAI 的 CUA 模型在 WebArena 测试集上成功率 58.1%，差不多一半任务会失败。

这种截图驱动的方案有几个根本缺陷：

• 慢。每一步操作都要走「截屏 → 上传 → 分析 → 返回指令」的完整循环
• 脆弱。网站改个按钮颜色或换个布局，AI 就可能认不出来
• 两次截图之间 AI 是「瞎的」，错过任何动态变化
• 复杂组件（日期选择器、拖拽、下拉菜单）经常搞不定

所以问题的本质是：浏览器和 AI Agent 之间，一直缺一种让双方直接对话的方式。 AI 只能通过「看图猜意思」来理解网页，网站也没有办法主动告诉 AI 自己能做什么。

03 Chrome 146 带来了什么？

3月10日发布的 Chrome 146 正好解决了这两个核心问题。

浏览器原生 MCP 支持

MCP（Model Context Protocol）是 Anthropic 2024 年底提出的协议，你把它理解成「AI 工具的通用插座」就行。

以前 AI Agent 想操控浏览器，得靠 Puppeteer、Playwright 这些中间层去转接。Chrome 146 把这一步省了，浏览器自己就是 MCP 服务器。在 chrome://inspect/#remote-debugging 里打个开关，AI Agent 就能直接连上你正在用的 Chrome，读页面内容、执行操作、拿调试信息。

下面这张图是 Chrome 官方给出的远程调试连接流程，从开启开关到授权连接再到进入调试状态，一共三步：

对 OpenClaw 用户来说，这意味着不再需要折腾 CDP 中继端口配置、Extension Relay 断连这些烦心事。连接层变得更稳定、更简单。

WebMCP：网站主动告诉 AI 自己能干什么

这个更根本。

WebMCP 是 Google 和 Microsoft 工程师联合搞的 W3C 提案标准，给浏览器加了一个新 API：navigator.modelContext。

以前的逻辑：AI 截图 → 找到「预订航班」按钮 → 模拟点击。
现在的逻辑：网站告诉 AI「我有个 bookFlight() 功能，要出发地、目的地、日期三个参数」，AI 直接调用。

不需要截图，不需要像素识别，不怕网站改版。而且跟用什么模型无关，Claude、GPT、Gemini、开源模型都行。

对 OpenClaw 来说，一旦网站接入了 WebMCP，就不用再靠截屏猜按钮了。Token 消耗降下来，操作准确率也能上去。

04 OpenClaw + Chrome 146 实操教程

下面讲怎么把这些新能力用到 OpenClaw 上。三个方案，按你的情况选：

方案一：用 OpenClaw 内置的 `user` 模式直连 Chrome（推荐）

很多人不知道，OpenClaw 其实已经内置了对 Chrome DevTools MCP 的支持。它有一个叫 user 的内置 profile，底层走的就是 Chrome DevTools MCP 的 --autoConnect 流程，能直接连上你正在用的 Chrome，带着所有登录状态。

不需要手动配 MCP 服务器，不需要装 Chrome 扩展，开箱就能用。

环境要求：

• Chrome 144+（当前 Chrome 146 稳定版完全支持）
• OpenClaw 已安装并运行

第一步：开启 Chrome 远程调试

在 Chrome 地址栏输入 chrome://inspect/#remote-debugging，勾选「Allow remote debugging for this browser instance」：

第二步：在 OpenClaw 中启动 user 模式

终端里依次运行：

# 启动 user profile（自动通过 Chrome DevTools MCP 连接）
openclaw browser --browser-profile user start

# 检查连接状态
openclaw browser --browser-profile user status

这时 Chrome 会弹出授权对话框，问你是否允许远程调试，点「Allow」：

第三步：验证连接是否成功

运行下面的命令，如果能看到你 Chrome 里正在打开的标签页列表，就说明连上了：

# 列出当前 Chrome 所有标签页
openclaw browser --browser-profile user tabs

# 对当前页面做一次快照
openclaw browser --browser-profile user snapshot --format ai

连接成功后 status 会显示 driver: existing-session、transport: chrome-mcp、running: true。

第四步：日常使用

连上之后，你可以在 OpenClaw 对话中让 AI 用 profile="user" 来操控你的真实浏览器。比如让它帮你查看某个已登录网站的数据、填表、做自动化操作，都不需要重新登录。

跟之前的 Extension Relay 模式比，user 模式的好处是：

• 不用装 Chrome 扩展，不用手动点扩展图标 attach
• 连接走 Chrome DevTools MCP，比 CDP 中继更稳定
• 不会出现之前 Extension Relay 动不动断连的问题

需要注意的是，这个模式需要你人在电脑前点授权弹窗，适合有人值守的场景。如果你需要无人值守的自动化，还是用隔离的 openclaw profile 更合适。

方案二：单独配置 Chrome DevTools MCP（适合 Claude Code / Cursor）

如果你不用 OpenClaw，而是用 Claude Code、Cursor 这类编码工具，可以单独配置 Chrome DevTools MCP。

环境要求：

• Node.js v20.19+
• Chrome 146 稳定版

同样先在 Chrome 里开启远程调试（chrome://inspect/#remote-debugging），然后：

Claude Code 用户，终端跑一行：

claude mcp add chrome-devtools -- npx chrome-devtools-mcp@latest --autoConnect

Cursor、Windsurf 等编辑器，在 MCP 配置文件里加：

{
  "mcpServers": {
    "chrome-devtools": {
      "command": "npx",
      "args": ["-y", "chrome-devtools-mcp@latest", "--autoConnect"]
    }
  }
}

配好后让 AI 试试「帮我检查 https://developers.chrome.com 的性能」，能返回 LCP、FCP 等指标就说明成功了。

你可以用它做性能检查、控制台报错排查、网络请求分析、模拟用户操作测试、截图审查样式问题这些事。

方案三：尝鲜 WebMCP

WebMCP 还在早期预览阶段，但值得试试看未来的方向。

1. 下载 Chrome Canary
2. 地址栏输入 chrome://flags，搜「WebMCP for testing」，打开，重启
3. 在 Chrome 应用商店装「Model Context Tool Inspector」扩展
4. 访问 travel-demo.bandarra.me 体验官方 demo

这个 demo 是一个旅行预订网站，通过 WebMCP 向 AI Agent 暴露了搜索航班、预订酒店等工具。你能直观地看到 AI 不再需要「看图找按钮」，而是直接调用网站提供的功能。

05 几点提醒

安全问题必须重视。 AI Agent 连上你的浏览器后，能读取所有标签页内容，包括已登录的网站。用的时候把银行、支付相关的页面关掉。OpenClaw 之前已经出过好几起安全事故，这方面不能大意。

WebMCP 离普及还有段距离。 目前只在 Chrome Canary 的 flag 里能用，而且得网站开发者主动接入才有意义。但方向很明确，Google 和 Microsoft 一起推，W3C 在走标准化。

Chrome DevTools MCP 现在就能用。 不用等 WebMCP 普及，Chrome DevTools MCP 作为补充方案已经很实用了。特别是做 Web 开发的同学，让 AI 帮你查性能、排 bug，体验提升很明显。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业