我要投稿

从搜索、点击、表单填写到复杂网页操作，让 AI 像人一样使用浏览器

发布日期：2026-06-08 12:19:02 浏览次数： 1523

作者：知识发电机

微信搜一搜，关注“知识发电机”

浏览器自动化工具不再是脚本员专属，AI代理也能直接上手真实网页

你有没有想过，那些AI聊天机器人为什么总在“访问网页”时卡住？它们要么被验证码挡住，要么一开多个任务就互相干扰，要么干脆告诉你“我只能模拟，不能真正操作”。而现在，一个叫BrowserAct的开源CLI工具，正在把浏览器变成AI代理的可靠双手。

它不是简单包装Selenium那种老工具，而是专门为大模型代理设计的：能穿透反爬墙、卡住时无缝交给真人接管、多任务并行却互不污染，还支持不同账号独立隔离运行。BrowserAct让AI代理真正“活”在互联网上，而不是停在对话框里。我之前用其他工具写过自动化脚本，踩过太多坑——指纹被识别、会话冲突、人类干预不顺畅——这个项目把这些痛点系统性解决了。

为什么AI代理需要这样一款“专属浏览器”？

想象一下，你让AI帮你批量查竞品价格。它打开几十个页面，结果一半被网站的反机器人机制拦住，另一半因为共用同一个浏览器实例，cookies互相串了，数据全乱。普通读者用微信支付或小区门禁的体验就能类比：如果门禁系统把所有访客当成同一个“人”处理，那进出记录肯定一塌糊涂。BrowserAct就是把每个代理任务当成独立“访客”，给它自己的指纹、代理IP和会话空间。

这很重要。因为当前大多数AI代理在面对真实网站时，成功率低得让人头疼。网站的反爬技术越来越狠，简单模拟已经不够。BrowserAct分三层突破：环境层做指纹伪装和TLS/代理切换，大多数封锁根本触发不了；执行层自动处理验证码和提取受保护页面；人类层生成远程链接，任何设备都能接管，代理等你操作完继续跑。理论上，这大大降低了代理“卡死”的概率，让自动化从“偶尔能用”变成“日常可靠”。

技术上，它支持三种浏览器模式，针对不同场景优化。chrome模式直接复用本地Chrome登录状态，适合需要已有账号的场景；stealth privacy模式每次用全新指纹和空profile，适合无登录批量抓取，完事零残留；stealth fixed identity模式则保持稳定身份，适合多浏览器并行操作已登录账号，却不被当成bot。并发设计更讲究：跨浏览器完全独立，同浏览器多会话共享登录但执行隔离。每个会话都有语义描述（desc），代理能按意义匹配任务，避免命名冲突。

之前些项目，总是纠结在DOM解析和token消耗上。BrowserAct的输出是索引化的紧凑文本，比JSON或HTML省好几倍token，交互直接用“click 3”或“input 2 '内容'”——代理不需要自己解析页面结构。这点对大模型推理特别友好。安全上还有确认门控，敏感操作如创建浏览器、导入profile、改代理都要用户明确批准，不会偷偷执行。这些细节叠加起来，让它不只是工具，而是代理能真正依赖的执行层。

Skill Forge：代理自己造工具的“工厂”

另一个亮点是配套的Skill Forge。它不是让你手动写爬虫，而是代理先探索一次网站，找出API和数据模式，生成可重复部署的Skill包。之后跑几百上千条记录，都走同一条稳定路径，不用每次重探。

先花一次功夫“学会”某个站的规律，后面批量任务就高效多了。假设你需要从LinkedIn拉职位信息（标题、公司、薪资、链接），描述需求后，Forge就能生成专用Skill，后续跑300个关键词时稳定可靠。

技术细节上，Skill Forge生成的包是生产就绪的，包含完整命令和逻辑。仓库里还有30+现成解决方案，覆盖Amazon、Google Maps、YouTube、Reddit、微信、知乎等常见站点。同行注意，它的探索过程结合了BrowserAct的stealth能力，所以即使目标站反爬，也能较好完成初始mapping。边界条件是，复杂交互或高度动态的页面可能还需要人工微调，但比从零手写爬虫省力太多。

之前总觉得“让AI自己生成工具”听起来美好，实际落地容易崩——生成的代码不稳定、路径易变。后来看到Skill Forge的思路，才意识到关键在于“一次探索、多次稳定执行”的分离设计。这纠正了我之前的认知：以前我以为自动化工具生成必须全自动且完美，现在发现“半人工指导+稳定复用”在当前技术下更务实，尤其对中大型批量任务。

无关但有意思的一点：仓库用Python实现，兼容Windows/macOS/Linux，几乎所有能跑shell命令的代理环境都支持，包括Claude Code、Cursor、VS Code等。

快速上手：从零到跑通一个任务

安装很简单。告诉你的AI代理：

Install browser-act. Skill source: https://github.com/browser-act/skills/tree/main/browser-act

验证通过后就能用。零配置提取受保护页面直接一条命令：

# 目的：快速拉取页面内容，绕过基础反爬
browser-act stealth-extract https://example.com

完整自动化流程示例（用session隔离任务）：

# 先打开浏览器会话
browser-act --session my-task browser open

# 查看当前页面可点击元素索引列表
browser-act --session my-task state

# 直接按索引操作，无需解析DOM
browser-act --session my-task click 3
browser-act --session my-task input 2 "搜索关键词"

⚠️ 注意：敏感操作如代理切换、浏览器创建等会要求确认。

跑完这些命令后，你会看到索引化的页面状态或提取结果。容易出错的地方主要是session命名冲突——建议每个任务用明确唯一名，避免多代理并行时混淆。更多工作流和get-skills命令用法在官方docs里。

BrowserAct把AI代理的网页能力从“能聊”推向“能干”。它不解决所有问题——高度定制的复杂业务逻辑可能仍需补充，但对大部分数据提取、账号操作、多任务场景，已经提供了实用且开源的底座。我原来以为这类工具要么太重依赖商业服务，要么稳定性差，现在看开源版已经覆盖了核心免费功能（前5个stealth浏览器等），付费只在大量代理或托管代理时需要。

关键还是结合具体代理环境多测边界：并发时指纹隔离是否够彻底、人类接管后状态同步是否顺畅。这些地方不同站点表现会有差异，建议从简单任务开始迭代。你最近让AI代理帮你干过什么网页活，它卡在哪一步了？ 💬