微信扫码
添加专属顾问
我要投稿
AI智能体在浏览器领域的全新突破,让自动化操作变得触手可及。 核心内容: 1. AI智能体在浏览器自动化领域的发展趋势 2. midscene-browser插件及其背后技术Midscene.js的介绍 3. AI大模型如何通过自然语言接口实现浏览器任务编排
近段时间来,AI 智能体浪潮风靡,从 OpenAI 的 Operator 到 Manus,再到字节跳动的扣子空间,人工智能正在主动走向桌面和浏览器。甚至最近有新闻说,OpenAI 准备上线一个 AI 带货的功能。
从输入命令到自动执行,一切似乎都在悄然发生变化:想象一下,如果 AI 能自己掌握鼠标和键盘,在网页上“手脚并用”,完成搜索、登录、数据抓取等工作,会是怎样一番场景?浏览网页不再需要人苦苦点击、输入,而是交给 AI 当“浏览器小秘书”来完成——这正是 AI 任务自动化的诱人前景。
midscene-browser 是一个基于开源项目 Midscene.js 开发的 Chrome 浏览器插件,其目标就是让大型语言模型(LLM)“读懂”页面并自己动手操作浏览器。Midscene.js 由字节跳动 Web Infra 团队推出,是一个 AI 驱动的 UI 自动化框架。正如其官方介绍所说:“Midscene.js 让人工智能成为你的浏览器操作助手,只需用自然语言描述你想做的事情,它就会帮助你操作网页、验证内容以及提取数据” 。
midscene-browser 可以看作是 Midscene.js 的一把“遥控器”,安装在 Chrome 中后,它会将各种浏览器操作——如查询、提取,断言等操作——封装为工具,供 AI 按需调用,实现零代码的自动化体验。
关于 AI 如何识别网页的 UI 元素,可以看我另外一篇文章Manus, 你再不出道你就 Out 了!AI 智能体的生死竞速与未来突围。
midscene-browser 的核心机制是把浏览器上的各种操作当作“工具”让 AI 调用。具体来说,Midscene.js 提供了三大自然语言接口:
Action(交互操作):通过 .aiAction
接口告诉 AI 执行一系列动作,比如“在搜索框输入‘Midscene’,按下回车”或者“点击登录按钮”。
Query(数据提取):通过 .aiQuery
接口让 AI 从页面中提取数据,并以指定的 JSON 格式返回结果。
Assert(断言验证):通过 .aiAssert
接口让 AI 验证某种页面状态或内容是否正确,例如“页面标题包含‘用户管理’”或“弹窗已关闭”等
上述操作都接受纯文本提示,由 AI 理解用户意图并执行相应的页面动作。换言之,midscene-browser 会根据用户需求先“思考”执行策略(任务编排),再调用这些工具一步步操作,完成整个任务。
这种模式类似于赋予 AI “遥控浏览器”的能力,让它像交互式机器人一样完成浏览器自动化流程:AI 输出工具调用命令,插件执行真实操作并返回结果,AI 根据结果决定下一步行动。
通过这种任务编排(planning)和工具调用(tool-calling)结合的方式,AI 能够自动分解复杂任务、逐步执行。
midscene-browser 能处理的场景非常丰富,几乎涵盖了我们常见的网页自动化需求,比如:
自动登录并提取信息
关键词搜索与数据采集
页面交互与表单操作
综合多步任务
通过 midscene-browser,许多以前需要人工操作浏览器做的事情都可以自动化。它让 AI 具有了“眼睛”和“手”,能够像真人一样理解页面内容、动手操作。比如打开淘宝网告诉 AI:“购买一个300元以内的蓝牙耳机“。AI 就可以按步骤执行:先找到搜索旁的输入框输入关键词,再点击搜索按钮,再解析结果列表找到低于300元的蓝牙耳机,然后点击进入详情,并加入购物车进行结算。
网站知识库
midscene-browser 还支持添加网站高级知识库,作为 AI 操作网站的指导。比如,让 AI 去使用 DeepSeek,它可能不了解什么是 Search 和 DeepThink 模式,这个时候高级知识库就派上用场了。
对开发者的意义:学习和实践的好玩具
midscene-browser 不仅对最终用户有用,对开发者来说也是一个极好的学习和实践项目。它综合了 AI 与前端自动化的理念,让人直观体会到“大模型+工具”的威力。
随着大模型智能上限不断提升,AI 驱动的自动化将不断进化,未来我们可以期待:
更强大的多模态智能体:新一代视觉语言模型将使 AI 对页面视觉和语义理解更强大。未来,AI 可能像科幻电影里的贾维斯一样,主动规划和完成多步骤操作。
丰富的工具插件生态:随着 AI 工具生态的不断发展,业界已经涌现出许多类似工具,以后的各种 AI 插件和工具,将会和我们手机应用商店里的应用一样繁盛
跨平台协同自动化:AI 自动化不止限于浏览器,它还可拓展到手机、桌面应用乃至智能家居等场景。未来,我们或许可以对 AI 说:“帮我打开电脑和手机上的几个程序,把文档内容同步过来并整理”,AI 就能跨设备协同工作。
个性化智能助理:随着 AI 技术普及,每个用户或开发者都可以拥有一个定制的“自动化助理”。比如,它能学习你的习惯,自动完成那些重复性任务,并提醒你新的问题。midscene-browser 这样的插件,正是朝着让 AI 更好地“理解意图并执行操作”迈出的一步。
midscene-browser 将 AI 强大的自然语言理解能力与浏览器自动化结合,用轻松的方式演示了“大模型+工具”的魔力。
当然现在它只是我的一个学习AI的初步尝试,还有很多提升的空间,项目已经开源,有兴趣的朋友,欢迎多多来助力呀。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2024-03-30
2024-05-09
2024-07-23
2024-07-07
2025-02-12
2024-07-01
2024-06-24
2024-06-23
2024-10-20
2024-12-29