支持私有化部署
AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


midscene-browser:让AI化身浏览器“小助手”

发布日期:2025-05-07 13:46:12 浏览次数: 1554 作者:当你凝视AIAI也在凝视你
推荐语

AI智能体在浏览器领域的全新突破,让自动化操作变得触手可及。

核心内容:
1. AI智能体在浏览器自动化领域的发展趋势
2. midscene-browser插件及其背后技术Midscene.js的介绍
3. AI大模型如何通过自然语言接口实现浏览器任务编排

杨芳贤
53A创始人/腾讯云(TVP)最具价值专家

近段时间来,AI 智能体浪潮风靡,从 OpenAI 的 Operator 到 Manus,再到字节跳动的扣子空间,人工智能正在主动走向桌面和浏览器。甚至最近有新闻说,OpenAI 准备上线一个 AI 带货的功能。

从输入命令到自动执行,一切似乎都在悄然发生变化:想象一下,如果 AI 能自己掌握鼠标和键盘,在网页上“手脚并用”,完成搜索、登录、数据抓取等工作,会是怎样一番场景?浏览网页不再需要人苦苦点击、输入,而是交给 AI 当“浏览器小秘书”来完成——这正是 AI 任务自动化的诱人前景。


插件简介:midscene-browser 背后的故事

midscene-browser 是一个基于开源项目 Midscene.js 开发的 Chrome 浏览器插件,其目标就是让大型语言模型(LLM)“读懂”页面并自己动手操作浏览器。Midscene.js 由字节跳动 Web Infra 团队推出,是一个 AI 驱动的 UI 自动化框架。正如其官方介绍所说:“Midscene.js 让人工智能成为你的浏览器操作助手,只需用自然语言描述你想做的事情,它就会帮助你操作网页、验证内容以及提取数据” 。

midscene-browser 可以看作是 Midscene.js 的一把“遥控器”,安装在 Chrome 中后,它会将各种浏览器操作——如查询、提取,断言等操作——封装为工具,供 AI 按需调用,实现零代码的自动化体验。

关于 AI 如何识别网页的 UI 元素,可以看我另外一篇文章Manus, 你再不出道你就 Out 了!AI 智能体的生死竞速与未来突围。

原理解析:AI 大模型如何“编排”浏览器任务

midscene-browser 的核心机制是把浏览器上的各种操作当作“工具”让 AI 调用。具体来说,Midscene.js 提供了三大自然语言接口:

  • Action(交互操作):通过 
    .aiAction 接口告诉 AI 执行一系列动作,比如“在搜索框输入‘Midscene’,按下回车”或者“点击登录按钮”。

  • Query(数据提取):通过 .aiQuery 接口让 AI 从页面中提取数据,并以指定的 JSON 格式返回结果。

  • Assert(断言验证):通过 .aiAssert 接口让 AI 验证某种页面状态或内容是否正确,例如“页面标题包含‘用户管理’”或“弹窗已关闭”等 


上述操作都接受纯文本提示,由 AI 理解用户意图并执行相应的页面动作。换言之,midscene-browser 会根据用户需求先“思考”执行策略(任务编排),再调用这些工具一步步操作,完成整个任务。

这种模式类似于赋予 AI “遥控浏览器”的能力,让它像交互式机器人一样完成浏览器自动化流程:AI 输出工具调用命令,插件执行真实操作并返回结果,AI 根据结果决定下一步行动。

通过这种任务编排(planning)和工具调用(tool-calling)结合的方式,AI 能够自动分解复杂任务、逐步执行。


AI 可以做什么?

midscene-browser 能处理的场景非常丰富,几乎涵盖了我们常见的网页自动化需求,比如:

  • 自动登录并提取信息

  • 关键词搜索与数据采集

  • 页面交互与表单操作

  • 综合多步任务

通过 midscene-browser,许多以前需要人工操作浏览器做的事情都可以自动化。它让 AI 具有了“眼睛”和“手”,能够像真人一样理解页面内容、动手操作。比如打开淘宝网告诉 AI:“购买一个300元以内的蓝牙耳机“。AI 就可以按步骤执行:先找到搜索旁的输入框输入关键词,再点击搜索按钮,再解析结果列表找到低于300元的蓝牙耳机,然后点击进入详情,并加入购物车进行结算。

网站知识库

midscene-browser 还支持添加网站高级知识库,作为 AI 操作网站的指导。比如,让 AI 去使用 DeepSeek,它可能不了解什么是 Search 和 DeepThink 模式,这个时候高级知识库就派上用场了。


对开发者的意义:学习和实践的好玩具

midscene-browser 不仅对最终用户有用,对开发者来说也是一个极好的学习和实践项目。它综合了 AI 与前端自动化的理念,让人直观体会到“大模型+工具”的威力。

随着大模型智能上限不断提升,AI 驱动的自动化将不断进化,未来我们可以期待:

  • 更强大的多模态智能体:新一代视觉语言模型将使 AI 对页面视觉和语义理解更强大。未来,AI 可能像科幻电影里的贾维斯一样,主动规划和完成多步骤操作。

  • 丰富的工具插件生态:随着 AI 工具生态的不断发展,业界已经涌现出许多类似工具,以后的各种 AI 插件和工具,将会和我们手机应用商店里的应用一样繁盛

  • 跨平台协同自动化:AI 自动化不止限于浏览器,它还可拓展到手机、桌面应用乃至智能家居等场景。未来,我们或许可以对 AI 说:“帮我打开电脑和手机上的几个程序,把文档内容同步过来并整理”,AI 就能跨设备协同工作。

  • 个性化智能助理:随着 AI 技术普及,每个用户或开发者都可以拥有一个定制的“自动化助理”。比如,它能学习你的习惯,自动完成那些重复性任务,并提醒你新的问题。midscene-browser 这样的插件,正是朝着让 AI 更好地“理解意图并执行操作”迈出的一步。


midscene-browser 将 AI 强大的自然语言理解能力与浏览器自动化结合,用轻松的方式演示了“大模型+工具”的魔力。

当然现在它只是我的一个学习AI的初步尝试,还有很多提升的空间,项目已经开源,有兴趣的朋友,欢迎多多来助力呀。

53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询