我要投稿

【开源】98.4K star，OpenCode + Agent Browser：让 AI 帮你完成浏览器自动化测试，会打字就能完成

发布日期：2026-03-08 20:45:52 浏览次数： 2685

作者：开源那些事儿

微信搜一搜，关注“开源那些事儿”

前言：当测试遇上 AI

以前写 UI 自动化测试，流程大概是：

打开页面

等着元素出来

写一堆 click(‘#id-xxx’)、fill(‘.input-xxx’, ‘xxx’)

断言结果

维护那堆脆弱的 CSS 选择器

后来有了 Playwright、Puppeteer，脚本是好写了，但页面一改版，测试照样挂一片。

最近在折腾OpenCode + Agent Browser做自动化测试，发现思路一下变了：与其自己把每一步都写死，不如让 AI 看着页面自己做决策。

这篇文章就聊聊，怎么用OpenCode 作为“大脑”，Agent Browser 作为“手和眼睛”，搭建一套 AI 驱动的自动化测试流程。

主角介绍：OpenCode & Agent Browser

OpenCode：终端里的 AI 编程助手

OpenCode 是一个终端优先的 AI 编程框架，可以在本地或 CI 环境里，通过自然语言让它帮你写代码、生成测试、执行脚本。它支持多种模型，能读取项目上下文，非常适合做“AI 驱动开发”和“AI 生成测试”这类玩法。

Agent Browser：为 AI 代理而生的浏览器 CLI

Agent Browser 是 Vercel Labs 开源的一个基于 Playwright 的浏览器自动化命令行工具。它专为 AI Agent 设计，核心能力包括：

它最大的特点是输出对 AI 友好的“页面快照 (snapshot)”，而不是整棵 DOM 树，这让 AI 理解页面和选择元素的成本变得极低。

简单理解：
OpenCode = 会写代码、会思考的“测试架构师”
Agent Browser = 会操作浏览器、会汇报结果的“自动化测试工程师”

项目由来：为什么是“AI + 浏览器”？

从个人体验来说，这个组合的出现，主要为了解决三个痛点：

传统脚本维护成本高

页面一改版，CSS 选择器大面积失效，测试脚本就要跟着改。

大模型时代，需要“AI 友好”的接口

直接把 HTML 塞给大模型，不仅 Token 消耗巨大，还容易让模型“迷失”在无关信息里。Agent Browser 的 snapshot只输出可交互元素，极大降低了 AI 的理解负担。

OpenCode 需要一个“浏览器执行层”

OpenCode 擅长生成测试逻辑，但本身不操作浏览器。将它与 Agent Browser 结合，就补齐了从“生成测试思路”到“在真实浏览器里执行”的完整链路。

所以，这个组合的出现，不是偶然，而是“AI 生成测试”和“AI 操作浏览器”两个趋势的自然结合。

核心工作流程：AI 如何完成一次测试？

以“在百度搜索并验证结果”为例，整个流程如下：

打开网页

agent-browser open https://www.baidu.com

获取页面快照

agent-browser snapshot

这一步会生成一份带 @e1、@e2引用的元素清单，AI 只看这份清单来做决策。

识别元素

AI 分析快照，确定搜索框和“搜索”按钮对应的引用 ID（如 @e3和 @e4）。

执行操作

AI 生成并执行操作命令：

bash

在搜索框输入内容

agent-browser fill @e3 "Agent Browser"

点击搜索按钮

agent-browser click @e4

等待结果加载

agent-browser wait --text "Agent Browser"

验证结果

AI 通过 agent-browser get text获取页面文本，或用 screenshot截图，判断测试是否通过。

对 AI 来说，它并不关心底层的 DOM 结构，它只负责三件事：看快照、决定下一步、执行命令。

五、优点分析：这套组合强在哪？

上手门槛低

Agent Browser 安装简单，一条命令即可。OpenCode 在终端里就能用自然语言驱动，对开发者非常友好。

AI 理解成本低

快照模式让 AI 不再面对海量 HTML，而是聚焦在少量可交互元素上，决策更快、更准。

脚本更稳定

操作基于元素的语义和引用 ID，而非易变的 CSS 类名，使测试脚本更能抵抗前端改版。

高度可编排

测试逻辑由 OpenCode 生成，可在本地、CI、Git Hook 中运行，轻松融入现有开发流程。

成本可控

快照比完整 HTML 小得多，显著降低了大模型的 Token 消耗，对需要频繁运行测试的场景很友好。

六、横向对比：它和别家有什么不同？

工具/平台	定位与形态	核心优势	适用场景
OpenCode + Agent Browser	AI 编程助手 + 浏览器 CLI	AI 友好，上下文成本低，可深度集成到本地/CI 环境	需要 AI 生成和维护测试、对隐私和可控性要求高的团队
传统 Playwright/Puppeteer	通用浏览器自动化库	功能强大，控制粒度细，生态成熟	需要精细控制和高稳定性的复杂自动化测试、爬虫
Agent 浏览器产品 (如 Browserbase)	云端托管浏览器服务	无需自行维护基础设施，开箱即用	不想折腾环境，希望快速将浏览器能力集成到产品中的团队
AI 增强浏览器 (如 Dia)	集成 AI 助手的浏览器	在日常浏览中提供 AI 辅助，体验平滑	个人用户上网、资料查询、内容创作辅助

简单来说，如果你想“用 AI 来生成和维护自动化测试”，而不是自己手写脚本，那么 OpenCode + Agent Browser 是一个非常值得尝试的组合。

七、实战小例子：百度搜索测试

以下是一个简化的实战流程，假设你在 OpenCode 环境中：

安装 Agent Browser

npm install -g agent-browseragent-browser install

让 OpenCode 生成测试步骤

你可以直接对它说：

帮我写一个测试：打开百度，搜索“Agent Browser”，等待结果加载，然后截图保存为 result.png。用 agent-browser 的命令实现。

OpenCode 可能会生成类似下面的脚本：

@echo offecho === Baidu Search Test: "Agent Browser" ===:: 1. 打开百度echo Opening Baidu...agent-browser open https://www.baidu.com:: 2. 获取页面快照，查看元素引用echo Getting page snapshot...agent-browser snapshot -i:: 3. 在搜索框中输入 "Agent Browser" (通常搜索框的 ref 是 @e1 或类似)echo Typing search query...agent-browser fill "#kw" "Agent Browser":: 4. 按下回车键或点击搜索按钮echo Pressing Enter to search...agent-browser press Enter:: 5. 等待页面加载echo Waiting for results to load...timeout /t 3 /nobreak >nul:: 6. 截图保存为 result.pngecho Taking screenshot...agent-browser screenshot result.png:: 7. 关闭浏览器echo Closing browser...agent-browser closeecho === Test completed! Screenshot saved as result.png ===

运行并观察

运行脚本，观察 AI 是否正确完成了所有步骤。你可以在过程中随时让它调整策略，比如“加个判断，如果没找到结果就多等两秒再截图”。

AI 提示词案例

5.1 基础提示词模板

模板 1：简单表单填写

请帮我自动化测试一个注册表单：
1. 打开 https://example.com/register
2. 填写用户名：testuser123
3. 填写邮箱：test@example.com  
4. 填写密码：Test123456
5. 点击注册按钮
6. 验证是否成功跳转到欢迎页面

模板 2：数据提取

请帮我从 https://example.com/products 页面提取所有商品信息：
1. 打开产品列表页面
2. 提取每个商品的名称、价格和描述
3. 将结果整理成表格格式
4. 截图保存页面

模板 3：登录流程测试

测试用户登录功能：
1. 打开 https://example.com/login
2. 输入用户名：demo_user
3. 输入密码：demo_pass
4. 点击登录按钮
5. 验证登录成功后是否显示"欢迎回来"
6. 检查用户头像是否可见

5.2 高级提示词案例

案例 1：完整的电商购买流程

帮我测试完整的购买流程：
1. 访问 https://shop.example.com
2. 搜索"笔记本电脑"
3. 选择价格范围 5000-8000 元的商品
4. 点击评分最高的商品
5. 查看商品详情和用户评价
6. 选择配置（内存：16GB，硬盘：512GB）
7. 点击立即购买
8. 填写收货地址：
   - 姓名：张三
   - 电话：13800138000
   - 地址：北京市朝阳区xxx街道xxx号
9. 选择支付方式：支付宝
10. 验证订单信息正确
11. 截图保存订单确认页面

案例 2：社交媒体自动化测试

测试社交媒体发布功能：
1. 登录 https://social.example.com
   - 用户名：test_social
   - 密码：TestSocial123
2. 点击发布新动态按钮
3. 上传一张测试图片（使用本地路径：/path/to/test.jpg）
4. 输入文字内容："今天天气真不错！#美好生活"
5. 添加位置信息：北京·朝阳公园
6. 设置可见性：仅好友可见
7. 点击发布按钮
8. 验证动态是否成功发布
9. 检查图片是否正常显示
10. 验证标签是否正确显示

5.3 调试提示词

页面元素无法点击，请帮我分析：
1. 获取当前页面的完整快照
2. 检查目标元素是否被其他元素遮挡
3. 分析元素的可见性和可交互状态
4. 提供解决方案

写在最后

对我来说，OpenCode + Agent Browser带来的最大改变是：

我不再把自己当成“写测试脚本的人”，而是更多地去想：“这个页面的测试目标是什么？有哪些关键路径？” 具体怎么点、怎么等，就交给 AI 和 Agent Browser 去协作完成。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2026-04-23

DeepSeek V4发布前，罗福莉亮剑！小米最强大模型MiMo-V2.5深夜突袭

2026-04-23

腾讯开源Cube Sandbox：60毫秒冷启动的AI沙盒运行时

2026-04-22

百度把Nano Banana塞进4090，疯了？

2026-04-21

Kimi K2.6 开源了！还附送了 300 个 Agent 员工？

2026-04-21

Kimi K2.6 发布并开源，全面精进代码和 Agent 集群能力

2026-04-20

借助 Gemma 4，将业界领先的 Agent Skills 引入端侧

2026-04-18

Ollama 本地部署 Gemma 4 完全指南

2026-04-18

Google Gemini CLI 完整使用指南

联系获取

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

重磅开源！Kimi K2.5 本地部署全攻略：手把手教你跑通 1T MoE 巨兽

2026-01-30

Clawdbot 完整安装教学：2026 年最火的开源AI 个人助理

2026-01-27

Clawdbot 深度拆解： 7 个问题看懂它。

2026-01-29

实测Kimi K2.5，这是一款厌丑的开源模型

2026-01-27

ClawdBot 火爆全网，手把手教你如何部署，还能直接用钉钉操作！

2026-01-28

终于来了！首款可视化 Skills 神器开源，Claude/Cursor/Codex 一键同步！

2026-01-26

Hermes Agent 出来了，聊聊它凭什么跟 OpenClaw 掰手腕

2026-03-30

Google Gemma 4 开源｜全面解读

2026-04-03

字节跳动开源 DeerFlow 2.0：下一代超级 Agent 引擎，一键搞定复杂工作流！

2026-03-23

Clawdbot爆火：Karpathy点赞的开源AI助理，到底是什么？

2026-01-26

大家都在问

百度把Nano Banana塞进4090，疯了？

2026-04-22

Kimi K2.6 开源了！还附送了 300 个 Agent 员工？

2026-04-21

Hermes 凭什么两个月接棒 OpenClaw？

2026-04-15

很多人突然不玩小龙虾而用Hermes Agent了。我替你试了，跟小龙虾到底有啥不同？

2026-04-09

震惊！刚刚，Anthropic掀了桌子：OpenClaude横空出世，大模型闭源时代彻底终结？

2026-04-01

英伟达的NemoClaw，能帮AI代理这匹“野马”套上缰绳吗？

2026-03-17

你的 AI Agent 真的在受控运行吗？

2026-03-13

137K 行代码、零 clippy 警告：这个开源项目凭什么让 AI Agent 领域炸锅？

2026-03-02

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS Skill 提示词技巧 AI+电商 AI面试数字员工 ChatBI AI知识库开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB Palantir Glean Openclaw