支持私有化部署
AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


Browser-Use:AI解锁浏览器的无限可能

发布日期:2025-06-19 06:39:22 浏览次数: 1786
作者:AIGCWorld

微信搜一搜,关注“AIGCWorld”

推荐语

用自然语言指挥浏览器,AI帮你搞定数据抓取和竞品分析,零代码实现网页自动化!

核心内容:
1. Browser-use的核心功能:对话式网页操控与多模型切换
2. 两种部署方式满足不同需求:本地运行与云端版
3. 安装指南:从零基础小白到进阶用户的操作路径

杨芳贤
53AI创始人/腾讯云(TVP)最具价值专家

AI浏览器革命!Browser-use让你秒变"效率达人",无代码、零门槛,对话式控制浏览器,数据抓取、竞品分析一键搞定。

又是一个被数据和报表包围的深夜,你是否还在为这些场景发愁:

  • 反复切换网页查价格,一个个手动记录竞品数据;
  • 不断复制粘贴表单信息,重复操作到手腕酸痛;
  • 想学爬虫自动化,却被Python代码和各种库配置劝退;
  • 辛苦写好的爬虫脚本,网站一更新就全部失效...

如果这些痛点让你感同身受,那么今天介绍的这款开源神器绝对能让你眼前一亮!它正在颠覆传统的网页操作方式,让无数数据分析师、市场研究员和效率控欢呼雀跃。下面是我触发的一个任务的执行过程和结果。

一、认识Browser-use

Browser-use是GitHub上一款热度爆表的开源项目,狂揽61.5k星。它彻底革新了传统的网页自动化方式,无需编写一行代码,只需用自然语言对话,就能指挥AI完成各种复杂的网页操作任务。

Enable AI to control your browser 🤖

https://github.com/browser-use/browser-use

想象一下,你只需输入"帮我查找某某商品全网最低的价格",AI就能自动打开浏览器,依次访问各平台,提取价格信息,最后生成一份完整的比价报告。这不是科幻,而是Browser-use已经实现的功能。核心亮点如下:

1.1 对话式网页操控

告别繁琐的编程学习,用你最熟悉的语言直接"指挥"浏览器。无论是网页导航、表单填写、数据提取还是跨平台比价,只需一句话描述需求,AI就能理解并执行。这种交互方式极大降低了技术门槛,让网页自动化真正走向大众化。

1.2 多模型自由切换

Browser-use支持对接20多种主流大模型,包括GPT-4、Claude、DeepSeek等。你可以根据不同任务特点和个人偏好,灵活切换不同的"AI大脑"。这种开放架构确保了工具的持续进化能力,让你始终能用上最适合的AI能力。

1.3 数据安全

针对不同用户需求,Browser-use提供了两种部署方式,这种灵活设计满足了从个人用户到企业级应用的多样化需求:

  • 本地运行版确保敏感数据不出本机,为数据安全筑起坚实防线;
  • 云端版则免去复杂配置,让小白用户也能轻松上手。

1.4 AI辅助与人工干预的智能结合

Browser-use不是完全的"黑盒"操作,它支持人工随时干预,让你保持对浏览过程的掌控权,比如在运行时登录各个APP的账号,当然也支持你使用自己的浏览器,里面保存着你常用的网站token。更贴心的是,整个操作过程可以录屏保存,方便后续复盘和优化。这种人机协作模式既发挥了AI的效率优势,又保留了人类的判断能力,堪称智能化的最佳实践。

二、安装

2.1 零基础小白

零基础的小白可以体验云端或者使用其Web UI,当然云端是需要收费的。

这里介绍一下使用Web UI白嫖的方法。Web UI的项目地址,按照其提示来进行安装部署,不会的直接将下面的命令在终端中粘贴运行。

web-ui

https://github.com/browser-use/web-ui

克隆项目到本地

注意后面的每个命令执行均需要在web-ui的目录下

git clone https://github.com/browser-use/web-ui.gitcd web-ui

设置python的环境

使用uv来管理python的环境,uv如果没有下载,使用下面的命令下载

curl -LsSf https://astral.sh/uv/install.sh | sh
uv venv --python 3.11

启动虚拟的环境

根据不同的平台选择不同的方式

.venv\Scripts\activate #Windows (Command Prompt)
source .venv/bin/activate #macOS/Linux

安装相关的依赖

uv pip install -r requirements.txt
playwright install chromium --with-deps #安装浏览器

设置配置文件

copy .env.example .env #Windows (Command Prompt)
cp .env.example .env #macOS/Linux

启动Web-ui

注意后面每次执行的时候,需要先启动虚拟的环境。执行完命令后,在浏览器中输入地址来使用http://127.0.0.1:7788

source .venv/bin/activate
python webui.py --ip 127.0.0.1 --port 7788
  • 可选的项是使用自己的浏览器,通过配置BROWSER_PATH/BROWSER_USER_DATA环境变量,使用自己的浏览器在web-ui执行任务之前必须将当前的浏览器关闭掉,不然会失败,而且chrome需要科学上网。
 #Windows BROWSER_PATH="C:\Program Files\Google\Chrome\Application\chrome.exe"  BROWSER_USER_DATA="C:\Users\YourUsername\AppData\Local\Google\Chrome\User Data"
 #Mac BROWSER_PATH="/Applications/Google Chrome.app/Contents/MacOS/Google Chrome"  BROWSER_USER_DATA="/Users/YourUsername/Library/Application Support/Google/Chrome"

白嫖模型API

使用魔塔社区的免费API调用,注册一个魔塔社区的账号,每天可以白嫖2000次API的调用,亲测执行简单的任务一天用不完。

然后在.env文件中添加下面两个配置,记得更改默认模型,MODELSCOPE_API_KEY的值在魔塔社区,点击个人头像->“账号设置”->“访问令牌”->“SDK/API 令牌”,记得先绑定阿里云账号。

MODELSCOPE_ENDPOINT=https://api-inference.modelscope.cn/v1MODELSCOPE_API_KEY=xxxxxxxxxxx#set default LLMDEFAULT_LLM=modelscope

页面操作

因为公司电脑有管控,无法录屏,页面操作就参考一下官方的视频,主要分为五个模块

  • Agent Settings:设置模型相关的参数,主要设置你使用的大模型即可,这里我们白嫖魔塔社区的就选择这个。
  • Browser Settings:设置在使用时的浏览器选择,这里可以默认,也可以选择使用自己的浏览器,前提是web-ui在运行时需要关闭你自己的浏览器,通过另一个浏览器来访问http://127.0.0.1:7788
  • Run Agent:在这里创建你的任务,执行过程会有录像和过程展示;
  • Agent Marketplace 和 Load&Save Config不用太关注;

2.2 开发者的Python库集成

有python基础的可以直接通过pip安装,步骤如下:

pip install browser-use
playwright install chromium --with-deps --no-shell #浏览器下载
#大模块的api调用,需要自己到不同的模型官网注册OPENAI_API_KEY=ANTHROPIC_API_KEY=AZURE_OPENAI_ENDPOINT=AZURE_OPENAI_KEY=GOOGLE_API_KEY=DEEPSEEK_API_KEY=GROK_API_KEY=NOVITA_API_KEY=
import asynciofrom dotenv import load_dotenvload_dotenv()from browser_use import Agentfrom langchain_openai import ChatOpenAIasync def main():      agent = Agent(        task="Compare the price of gpt-4o and DeepSeek-V3",            llm=ChatOpenAI(model="gpt-4o"),)      await agent.run()asyncio.run(main())

三、后记

其实还有一个类似的AI浏览器工具Nanobrowser,产品形态是开源Chrome扩展程序,基于多智能体协作系统(Planner/Navigator/Validator)的LLM驱动架构,浏览器本地运行,注重隐私安全,与现有浏览器无缝集成,保留用户熟悉的浏览器环境和插件生态。有兴趣的同学可以尝试玩玩。对于新手用户而言,Browser-use的Web UI方案可能更容易上手;而对于已经习惯使用Chrome的用户,Nanobrowser的扩展形式可能更加便捷。

当AI浏览器助手已经成为现实,你还在坚持手动重复那些机械性工作吗?Browser-use不仅是一个工具,更是工作方式的革新。它让我们从繁琐的重复劳动中解放出来,将时间和精力投入到真正需要创造力的工作中。随着大模型技术的不断进步,Browser-use这类AI浏览器助手的能力还将持续提升,让AI成为你的专属"浏览器管家",一起拥抱更高效、更智能的工作方式!


53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询