我要投稿

谷歌又一强大工具开源，Selenium 慌了！

发布日期：2025-12-29 17:32:23 浏览次数： 1759

作者：GitHubDaily

微信搜一搜，关注“GitHubDaily”

做过爬虫或者自动化测试的朋友，应该都体会过被 Selenium 和 Puppeteer 支配的恐惧。

为了点一个按钮，我们得去扒网页源码，找 ID，找 Class。一旦网页改版，精心写好的脚本瞬间报错，维护起来既耗时又耗力。

那个时候我就在想，要是 AI 能像人一样，看一眼屏幕就知道点哪里，该多好。

如今，Google 把这个想法变成了现实。在 GitHub 上开源了一个名为 Computer Use Preview 的项目，直接让 Gemini 模型接管了浏览器。

简单来说，以前的自动化是“盲人摸象”，靠代码定位；现在的自动化是“睁眼看世界”，靠视觉识别。

这个工具背后的逻辑其实很符合直觉，就是模拟人的操作流程：截图 → 分析 → 行动。

Agent loop: Initial task leads to a screenshot/context, which is sent to the Model, which returns a response to the computer environment to execute an action." class="rich_pages wxw-img" data-imgfileid="310507874" data-ratio="0.564" src="https://api.ibos.cn/v4/weapparticle/accesswximg?aid=130949&url=aHR0cHM6Ly9tbWJpei5xcGljLmNuL21tYml6X2pwZy91RFJrTVdMaWEyOGlhczRDczRNaWNnMHl3MkVYeWNCMURPNmI1cDgybVU3bXpUVWRyMzBRMFZDSFNIQ2NlWUZHeWtrTWljanJXU2VnWXNOYm5XZnZuVUt1NkEvNjQwP3d4X2ZtdD1vdGhlciZhbXA=;from=appmsg" data-type="other" data-w="1000" style="box-sizing: border-box;max-width: 100%;vertical-align: middle;image-orientation: from-image;display: block;margin: auto;">

它会先给网页截个图，通过 Gemini 2.5 Pro 模型强大的视觉能力，分析出页面上有哪些输入框、按钮和下拉菜单，然后决定下一步该干什么。

口说无凭，数据最直观。

在官方给出的网页任务完成测试里，Gemini 拿到了 69% 的高分。

这个成绩相当能打，直接超过了 Claude Sonnet 4.5 的 55% 和 OpenAI Operator 的 61.3%。

这意味着在处理复杂任务时，它更不容易“翻车”。

官方演示了几个非常实用的场景，让我印象很深。

一个是跨网站数据搬运。

以前我们要把一个宠物登记网站的信息，录入到另一个 CRM 系统里，得写复杂的脚本来处理数据接口。

现在直接告诉 AI：“把这上面的加州宠物信息填到那个系统里，顺便预约个时间。”

它就能自己切换页面，复制粘贴，一气呵成。

另一个是视觉交互。

面对一个贴满乱七八糟便签的网页，给它一个指令，它就能精准地识别出每一张便签的内容，并把它们拖拽到分类区域。

这种涉及到空间理解和精细操作的任务，传统脚本很难搞定。

如果想上手体验，目前有两个选择。

第一种是懒人模式：

不想折腾环境的同学，Browserbase 提供了一个在线演示环境，直接打开网页就能试用，感受一下指挥 AI 上网的快乐。

在线体验：https://gemini.browserbase.com/

第二种是开发者模式：

如果想把数据掌握在自己手里，可以在本地部署。Google 提供了详细的部署教程，几行命令就能跑起来。

# 1. 创建虚拟环境python3 -m venv .venvsource .venv/bin/activate
# 2. 安装依赖和浏览器内核pip install -r requirements.txtplaywright install chrome
# 3. 开始运行python main.py --query "去 Google 搜索一下 GitHubDaily"