微信扫码
添加专属顾问
我要投稿
谷歌开源革命性工具,让AI像人一样操作浏览器,告别繁琐的脚本维护! 核心内容: 1. Gemini模型如何通过视觉识别实现智能网页操作 2. 在跨网站数据搬运和视觉交互等场景的惊艳表现 3. 两种快速体验方式:在线演示和本地部署指南
做过爬虫或者自动化测试的朋友,应该都体会过被 Selenium 和 Puppeteer 支配的恐惧。
为了点一个按钮,我们得去扒网页源码,找 ID,找 Class。一旦网页改版,精心写好的脚本瞬间报错,维护起来既耗时又耗力。
那个时候我就在想,要是 AI 能像人一样,看一眼屏幕就知道点哪里,该多好。
如今,Google 把这个想法变成了现实。在 GitHub 上开源了一个名为 Computer Use Preview 的项目,直接让 Gemini 模型接管了浏览器。
简单来说,以前的自动化是“盲人摸象”,靠代码定位;现在的自动化是“睁眼看世界”,靠视觉识别。
这个工具背后的逻辑其实很符合直觉,就是模拟人的操作流程:截图 → 分析 → 行动。
它会先给网页截个图,通过 Gemini 2.5 Pro 模型强大的视觉能力,分析出页面上有哪些输入框、按钮和下拉菜单,然后决定下一步该干什么。
口说无凭,数据最直观。
在官方给出的网页任务完成测试里,Gemini 拿到了 69% 的高分。
这个成绩相当能打,直接超过了 Claude Sonnet 4.5 的 55% 和 OpenAI Operator 的 61.3%。
这意味着在处理复杂任务时,它更不容易“翻车”。
官方演示了几个非常实用的场景,让我印象很深。
一个是跨网站数据搬运。
以前我们要把一个宠物登记网站的信息,录入到另一个 CRM 系统里,得写复杂的脚本来处理数据接口。
现在直接告诉 AI:“把这上面的加州宠物信息填到那个系统里,顺便预约个时间。”
它就能自己切换页面,复制粘贴,一气呵成。
另一个是视觉交互。
面对一个贴满乱七八糟便签的网页,给它一个指令,它就能精准地识别出每一张便签的内容,并把它们拖拽到分类区域。
这种涉及到空间理解和精细操作的任务,传统脚本很难搞定。
如果想上手体验,目前有两个选择。
第一种是懒人模式:
不想折腾环境的同学,Browserbase 提供了一个在线演示环境,直接打开网页就能试用,感受一下指挥 AI 上网的快乐。
在线体验:https://gemini.browserbase.com/
第二种是开发者模式:
如果想把数据掌握在自己手里,可以在本地部署。Google 提供了详细的部署教程,几行命令就能跑起来。
# 1. 创建虚拟环境python3 -m venv .venvsource .venv/bin/activate# 2. 安装依赖和浏览器内核pip install -r requirements.txtplaywright install chrome# 3. 开始运行python main.py --query "去 Google 搜索一下 GitHubDaily"
不过安装前得提个醒,虽然它很强,但目前毕竟是 Preview(预览版)。
官方文档里很明确地指出了一个 Bug:在某些系统上,底层的 Playwright 抓取不到系统原生的下拉菜单(<select> 元素)。
所以如果发现它对着下拉框发呆,选不中选项,别怀疑,这是目前的已知限制。
总的来说,Google 这一波开源,让我们看到浏览器自动化的水准又迈上了一个新台阶。
它不再是机械地执行死板的代码,而是开始具备了“看懂”和“思考”的能力。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2025-12-28
谷歌重磅开源A2UI:让AI开口“说”UI,彻底革新界面生成方式!
2025-12-27
Minion Skills: Claude Skills的开源实现
2025-12-27
MiniMax M2.1 正式开源并全面上线 AtomGit
2025-12-27
用完刚开源的MiniMax,我们决定给它发个工牌
2025-12-27
比MinIO快2.3倍!这个用Rust打造的对象存储,重新定义“高性能”
2025-12-27
硅基流动上线高速版 GLM-4.7
2025-12-26
NotebookLM 的最强开源替代品来了!不仅免费、能离线运行,还能接入 GPT-4 和 Claude!
2025-12-25
Claude技能天花板来了!Anthropic 官方开源 16 个生产级技能库
2025-11-19
2025-10-20
2025-10-27
2025-10-27
2025-10-03
2025-11-17
2025-10-29
2025-12-10
2025-11-07
2025-10-24
2025-12-24
2025-12-22
2025-11-12
2025-11-10
2025-11-03
2025-10-29
2025-10-28
2025-10-13