2026年6月11日 周四晚上19:30,报名腾讯会议了解“业务抓夹如何成为前线部署工程师(FDE)”(限30人)
免费POC, 零成本试错
FDE知识库

FDE知识库

学习大模型的前沿技术与行业落地应用


我要投稿

从搜索、点击、表单填写到复杂网页操作,让 AI 像人一样使用浏览器

发布日期:2026-06-08 12:19:02 浏览次数: 1523
作者:知识发电机

微信搜一搜,关注“知识发电机”

推荐语

BrowserAct让AI代理真正“活”在互联网上,解决真实网页操作中的反爬、会话冲突等痛点,将自动化从“偶尔能用”变为“日常可靠”。

核心内容:
1. 传统AI代理操作网页的痛点与BrowserAct的解决方案
2. BrowserAct三层技术架构如何突破网站反爬机制
3. 工具在并发、安全及大模型友好性上的设计细节

杨芳贤
53AI创始人/腾讯云(TVP)最具价值专家

 

浏览器自动化工具不再是脚本员专属,AI代理也能直接上手真实网页

你有没有想过,那些AI聊天机器人为什么总在“访问网页”时卡住?它们要么被验证码挡住,要么一开多个任务就互相干扰,要么干脆告诉你“我只能模拟,不能真正操作”。而现在,一个叫BrowserAct的开源CLI工具,正在把浏览器变成AI代理的可靠双手。

它不是简单包装Selenium那种老工具,而是专门为大模型代理设计的:能穿透反爬墙、卡住时无缝交给真人接管、多任务并行却互不污染,还支持不同账号独立隔离运行。BrowserAct让AI代理真正“活”在互联网上,而不是停在对话框里。我之前用其他工具写过自动化脚本,踩过太多坑——指纹被识别、会话冲突、人类干预不顺畅——这个项目把这些痛点系统性解决了。

为什么AI代理需要这样一款“专属浏览器”?

想象一下,你让AI帮你批量查竞品价格。它打开几十个页面,结果一半被网站的反机器人机制拦住,另一半因为共用同一个浏览器实例,cookies互相串了,数据全乱。普通读者用微信支付或小区门禁的体验就能类比:如果门禁系统把所有访客当成同一个“人”处理,那进出记录肯定一塌糊涂。BrowserAct就是把每个代理任务当成独立“访客”,给它自己的指纹、代理IP和会话空间。

这很重要。因为当前大多数AI代理在面对真实网站时,成功率低得让人头疼。网站的反爬技术越来越狠,简单模拟已经不够。BrowserAct分三层突破:环境层做指纹伪装和TLS/代理切换,大多数封锁根本触发不了;执行层自动处理验证码和提取受保护页面;人类层生成远程链接,任何设备都能接管,代理等你操作完继续跑。理论上,这大大降低了代理“卡死”的概率,让自动化从“偶尔能用”变成“日常可靠”。

技术上,它支持三种浏览器模式,针对不同场景优化。chrome模式直接复用本地Chrome登录状态,适合需要已有账号的场景;stealth privacy模式每次用全新指纹和空profile,适合无登录批量抓取,完事零残留;stealth fixed identity模式则保持稳定身份,适合多浏览器并行操作已登录账号,却不被当成bot。并发设计更讲究:跨浏览器完全独立,同浏览器多会话共享登录但执行隔离。每个会话都有语义描述(desc),代理能按意义匹配任务,避免命名冲突。

之前些项目,总是纠结在DOM解析和token消耗上。BrowserAct的输出是索引化的紧凑文本,比JSON或HTML省好几倍token,交互直接用“click 3”或“input 2 '内容'”——代理不需要自己解析页面结构。这点对大模型推理特别友好。安全上还有确认门控,敏感操作如创建浏览器、导入profile、改代理都要用户明确批准,不会偷偷执行。这些细节叠加起来,让它不只是工具,而是代理能真正依赖的执行层

Skill Forge:代理自己造工具的“工厂”

另一个亮点是配套的Skill Forge。它不是让你手动写爬虫,而是代理先探索一次网站,找出API和数据模式,生成可重复部署的Skill包。之后跑几百上千条记录,都走同一条稳定路径,不用每次重探。

先花一次功夫“学会”某个站的规律,后面批量任务就高效多了。假设你需要从LinkedIn拉职位信息(标题、公司、薪资、链接),描述需求后,Forge就能生成专用Skill,后续跑300个关键词时稳定可靠。

技术细节上,Skill Forge生成的包是生产就绪的,包含完整命令和逻辑。仓库里还有30+现成解决方案,覆盖Amazon、Google Maps、YouTube、Reddit、微信、知乎等常见站点。同行注意,它的探索过程结合了BrowserAct的stealth能力,所以即使目标站反爬,也能较好完成初始mapping。边界条件是,复杂交互或高度动态的页面可能还需要人工微调,但比从零手写爬虫省力太多。

之前总觉得“让AI自己生成工具”听起来美好,实际落地容易崩——生成的代码不稳定、路径易变。后来看到Skill Forge的思路,才意识到关键在于“一次探索、多次稳定执行”的分离设计。这纠正了我之前的认知:以前我以为自动化工具生成必须全自动且完美,现在发现“半人工指导+稳定复用”在当前技术下更务实,尤其对中大型批量任务。

无关但有意思的一点:仓库用Python实现,兼容Windows/macOS/Linux,几乎所有能跑shell命令的代理环境都支持,包括Claude Code、Cursor、VS Code等。

快速上手:从零到跑通一个任务

安装很简单。告诉你的AI代理:

Install browser-act. Skill source: https://github.com/browser-act/skills/tree/main/browser-act

验证通过后就能用。零配置提取受保护页面直接一条命令:

# 目的:快速拉取页面内容,绕过基础反爬
browser-act stealth-extract https://example.com

完整自动化流程示例(用session隔离任务):

# 先打开浏览器会话
browser-act --session my-task browser open

# 查看当前页面可点击元素索引列表

browser-act --session my-task state

# 直接按索引操作,无需解析DOM

browser-act --session my-task click 3
browser-act --session my-task input 2 "搜索关键词"

⚠️ 注意:敏感操作如代理切换、浏览器创建等会要求确认。

跑完这些命令后,你会看到索引化的页面状态或提取结果。容易出错的地方主要是session命名冲突——建议每个任务用明确唯一名,避免多代理并行时混淆。更多工作流和get-skills命令用法在官方docs里。

BrowserAct把AI代理的网页能力从“能聊”推向“能干”。它不解决所有问题——高度定制的复杂业务逻辑可能仍需补充,但对大部分数据提取、账号操作、多任务场景,已经提供了实用且开源的底座。我原来以为这类工具要么太重依赖商业服务,要么稳定性差,现在看开源版已经覆盖了核心免费功能(前5个stealth浏览器等),付费只在大量代理或托管代理时需要。

关键还是结合具体代理环境多测边界:并发时指纹隔离是否够彻底、人类接管后状态同步是否顺畅。这些地方不同站点表现会有差异,建议从简单任务开始迭代。你最近让AI代理帮你干过什么网页活,它卡在哪一步了? 💬

 

 

 

53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询