微信扫码
添加专属顾问
我要投稿
探索AI如何革新浏览器交互体验,Browser Use带你迈向自动化网页操作的新纪元。 核心内容: 1. AI与浏览器的连接:Browser Use的创新融合及其趋势 2. Browser Use的核心功能:自动化、视觉感知、多标签页管理等 3. 快速上手指南:安装、设置及与大语言模型的集成
在科技飞速发展的当下,人工智能(AI)已经渗透到我们生活的方方面面,而AI智能体与浏览器的连接,正逐渐成为互联网发展的全新趋势,引发了大众对上网体验变革的无限期待。这种创新的融合,就像是为传统浏览器插上了智能的翅膀,将为我们带来前所未有的互联网交互感受。
功能特点:
强大的浏览器自动化功能:Browser Use将先进的AI能力与强大的浏览器自动化技术相结合,为AI智能体实现流畅无缝的网页交互体验。
视觉感知与HTML结构提取:将视觉理解能力与HTML结构提取功能相结合,以实现全面的网页交互。
多标签页管理:可自动处理多个浏览器标签页,以适应复杂的工作流程和并行处理需求。
元素追踪:提取被点击元素的 XPath(路径表达式),并重复完全相同的大语言模型(LLM)操作,以实现连贯一致的自动化操作。
自定义操作:添加你自己的操作,比如保存到文件、数据库操作、发送通知,或者处理人工输入等。
自我纠错:具备智能的错误处理机制和自动恢复功能,以保障自动化工作流程的稳健运行。
支持任意大语言模型:与所有基于LangChain的大语言模型兼容,包括GPT-4、Claude 3以及Llama 2。
官网地址:
https://browser-use.com/
1、Browser Use需要Python 3.11或更高版本。
pip install browser-use
2、安装Playwright。
playwright install
3、创建一个智能体。
然后你可以按如下方式使用该智能体:
from langchain_openai import ChatOpenAI
from browser_use import Agent
import asyncio
from dotenv import load_dotenv
load_dotenv()
async def main():
agent = Agent(
task="Compare the price of gpt-4o and DeepSeek-V3",
llm=ChatOpenAI(model="gpt-4o"),
)
await agent.run()
asyncio.run(main())
4、设置你的大语言模型(LLM)API密钥。
ChatOpenAI以及其他基于Langchain的聊天模型都需要API密钥。你可以将这些密钥存储在你的.env文件中。
OPENAI_API_KEY=
二、Browser Use + DeepSeek-R1
本篇示例,作者使用DeepSeek-R1模型。
访问DeepSeek的API开放平台,购买流量,并创建API key。
https://platform.deepseek.com/
示例脚本:
将引入的智能体(DeepSeek-R1)与API密钥放在同一个脚本文件里。
操作步骤为打开购物网站,输入账户密码登录,查看商品详情,添加购物车,关闭浏览器。
import asyncio
import os
from dotenv import load_dotenv
from langchain_openai import ChatOpenAI
from pydantic import SecretStr
from browser_use import Agent
# dotenv
load_dotenv()
api_key = os.getenv('DEEPSEEK_API_KEY', 'sk-……)
if not api_key:
raise ValueError('DEEPSEEK_API_KEY is not set')
async def run_search():
agent = Agent(
task=(
'1. 访问 https://www.saucedemo.com/'
'2. 输入用户名 standard_user, 密码 secret_sauce, 进行登录'
'3. 点击黑色T-Shirt, 查看详情'
'4. 将黑色T-Shirt添加到购物车'
'5. 关闭浏览器'
),
llm=ChatOpenAI(
base_url='https://api.deepseek.com/v1',
model='deepseek-chat',
api_key=SecretStr(api_key),
),
use_vision=False,
)
await agent.run()
if __name__ == '__main__':
asyncio.run(run_search())
运行时,AI识别页面元素:
控制台日志信息:
完整运行过程:
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2025-04-30
手搓完字节AI硬件,我做了个五一智能旅行小装置(附万字沉浸式教程)
2025-04-30
Deepseek时代,智能硬件能带来新的“GPT时刻”吗?
2025-04-30
什么?动动嘴就能让大模型帮你整理电脑桌面?!
2025-04-28
EdgeLLM:数据并行、端到端编译器与混合精度的 CPU-FPGA 加速架构
2025-04-28
Nacos 3.0 正式发布:MCP Registry、安全零信任、链接更多生态
2025-04-28
理想汽车AI新技术曝光,人工智能企业真不是李想说说而已。
2025-04-28
我见过最聪明的浏览器 Dia,别争论什么是AI Native产品了,这个就是!
2025-04-28
实测通过!这款云电脑 MCP,真的可以平替 Manus
2024-03-30
2024-05-09
2024-07-23
2024-07-07
2025-02-12
2024-07-01
2024-06-24
2024-06-23
2024-10-20
2024-06-08