微信扫码
添加专属顾问
我要投稿
用自然语言指挥浏览器,AI帮你搞定数据抓取和竞品分析,零代码实现网页自动化! 核心内容: 1. Browser-use的核心功能:对话式网页操控与多模型切换 2. 两种部署方式满足不同需求:本地运行与云端版 3. 安装指南:从零基础小白到进阶用户的操作路径
AI浏览器革命!Browser-use让你秒变"效率达人",无代码、零门槛,对话式控制浏览器,数据抓取、竞品分析一键搞定。
又是一个被数据和报表包围的深夜,你是否还在为这些场景发愁:
如果这些痛点让你感同身受,那么今天介绍的这款开源神器绝对能让你眼前一亮!它正在颠覆传统的网页操作方式,让无数数据分析师、市场研究员和效率控欢呼雀跃。下面是我触发的一个任务的执行过程和结果。
Browser-use是GitHub上一款热度爆表的开源项目,狂揽61.5k星。它彻底革新了传统的网页自动化方式,无需编写一行代码,只需用自然语言对话,就能指挥AI完成各种复杂的网页操作任务。
Enable AI to control your browser 🤖
https://github.com/browser-use/browser-use
想象一下,你只需输入"帮我查找某某商品全网最低的价格",AI就能自动打开浏览器,依次访问各平台,提取价格信息,最后生成一份完整的比价报告。这不是科幻,而是Browser-use已经实现的功能。核心亮点如下:
告别繁琐的编程学习,用你最熟悉的语言直接"指挥"浏览器。无论是网页导航、表单填写、数据提取还是跨平台比价,只需一句话描述需求,AI就能理解并执行。这种交互方式极大降低了技术门槛,让网页自动化真正走向大众化。
Browser-use支持对接20多种主流大模型,包括GPT-4、Claude、DeepSeek等。你可以根据不同任务特点和个人偏好,灵活切换不同的"AI大脑"。这种开放架构确保了工具的持续进化能力,让你始终能用上最适合的AI能力。
针对不同用户需求,Browser-use提供了两种部署方式,这种灵活设计满足了从个人用户到企业级应用的多样化需求:
Browser-use不是完全的"黑盒"操作,它支持人工随时干预,让你保持对浏览过程的掌控权,比如在运行时登录各个APP的账号,当然也支持你使用自己的浏览器,里面保存着你常用的网站token。更贴心的是,整个操作过程可以录屏保存,方便后续复盘和优化。这种人机协作模式既发挥了AI的效率优势,又保留了人类的判断能力,堪称智能化的最佳实践。
零基础的小白可以体验云端或者使用其Web UI,当然云端是需要收费的。
这里介绍一下使用Web UI白嫖的方法。Web UI的项目地址,按照其提示来进行安装部署,不会的直接将下面的命令在终端中粘贴运行。
web-ui
https://github.com/browser-use/web-ui
注意后面的每个命令执行均需要在web-ui的目录下
git clone https://github.com/browser-use/web-ui.gitcd web-ui
使用uv来管理python的环境,uv如果没有下载,使用下面的命令下载
curl -LsSf https://astral.sh/uv/install.sh | sh
uv venv --python 3.11
根据不同的平台选择不同的方式
.venv\Scripts\activate #Windows (Command Prompt)
source .venv/bin/activate #macOS/Linux
uv pip install -r requirements.txt
playwright install chromium --with-deps #安装浏览器
copy .env.example .env #Windows (Command Prompt)
cp .env.example .env #macOS/Linux
注意后面每次执行的时候,需要先启动虚拟的环境。执行完命令后,在浏览器中输入地址来使用http://127.0.0.1:7788
source .venv/bin/activate
python webui.py --ip 127.0.0.1 --port 7788
#Windows BROWSER_PATH="C:\Program Files\Google\Chrome\Application\chrome.exe" BROWSER_USER_DATA="C:\Users\YourUsername\AppData\Local\Google\Chrome\User Data"
#Mac BROWSER_PATH="/Applications/Google Chrome.app/Contents/MacOS/Google Chrome" BROWSER_USER_DATA="/Users/YourUsername/Library/Application Support/Google/Chrome"
使用魔塔社区的免费API调用,注册一个魔塔社区的账号,每天可以白嫖2000次API的调用,亲测执行简单的任务一天用不完。
然后在.env文件中添加下面两个配置,记得更改默认模型,MODELSCOPE_API_KEY
的值在魔塔社区,点击个人头像->“账号设置”->“访问令牌”->“SDK/API 令牌”,记得先绑定阿里云账号。
MODELSCOPE_ENDPOINT=https://api-inference.modelscope.cn/v1MODELSCOPE_API_KEY=xxxxxxxxxxx#set default LLMDEFAULT_LLM=modelscope
因为公司电脑有管控,无法录屏,页面操作就参考一下官方的视频,主要分为五个模块
http://127.0.0.1:7788
;有python基础的可以直接通过pip安装,步骤如下:
pip install browser-use
playwright install chromium --with-deps --no-shell #浏览器下载
#大模块的api调用,需要自己到不同的模型官网注册OPENAI_API_KEY=ANTHROPIC_API_KEY=AZURE_OPENAI_ENDPOINT=AZURE_OPENAI_KEY=GOOGLE_API_KEY=DEEPSEEK_API_KEY=GROK_API_KEY=NOVITA_API_KEY=
import asynciofrom dotenv import load_dotenvload_dotenv()from browser_use import Agentfrom langchain_openai import ChatOpenAIasync def main(): agent = Agent( task="Compare the price of gpt-4o and DeepSeek-V3", llm=ChatOpenAI(model="gpt-4o"),) await agent.run()asyncio.run(main())
其实还有一个类似的AI浏览器工具Nanobrowser,产品形态是开源Chrome扩展程序,基于多智能体协作系统(Planner/Navigator/Validator)
的LLM驱动架构,浏览器本地运行,注重隐私安全,与现有浏览器无缝集成,保留用户熟悉的浏览器环境和插件生态。有兴趣的同学可以尝试玩玩。对于新手用户而言,Browser-use的Web UI方案可能更容易上手;而对于已经习惯使用Chrome的用户,Nanobrowser的扩展形式可能更加便捷。
当AI浏览器助手已经成为现实,你还在坚持手动重复那些机械性工作吗?Browser-use不仅是一个工具,更是工作方式的革新。它让我们从繁琐的重复劳动中解放出来,将时间和精力投入到真正需要创造力的工作中。随着大模型技术的不断进步,Browser-use这类AI浏览器助手的能力还将持续提升,让AI成为你的专属"浏览器管家",一起拥抱更高效、更智能的工作方式!
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2025-08-03
为什么有AI Agent经验的产品经理更抢手?
2025-08-02
扣子要做 Agent 时代的 Infra,附开源版搭建全流程
2025-08-02
浪费我一上午!你们真的实测了 GLM-4.5 吗?
2025-08-02
不再纠结,Dify VS 开源Coze 真实对比,一文看懂差异与选择
2025-08-02
用开源版Coze,做个市场调研分析助手
2025-08-02
扣子coze开源了,又仿佛没开,像素级对比开源版扣子到底少了啥?
2025-08-02
CodeBuddy解读开源项目源代码与框架
2025-08-02
牛掰!一键云部属开源 Coze Studio,让企业服务智能体24小时不停歇
2025-07-23
2025-06-17
2025-06-17
2025-07-23
2025-07-14
2025-07-27
2025-07-12
2025-05-29
2025-07-29
2025-05-12
2025-08-03
2025-08-02
2025-08-02
2025-07-31
2025-07-31
2025-07-31
2025-07-30
2025-07-30