微信扫码
添加专属顾问
我要投稿
字节跳动Web Infra团队开源AI操作助手Midscene.js,用自然语言轻松操控Web和Android应用,GitHub已获9.9k星! 核心内容: 1. 支持自然语言驱动的自动化操作,兼容多模态大模型 2. 提供查询、断言等核心功能,支持Web和Android平台 3. 包含可视化调试报告和三种API类型,便于开发使用
Midscene.js一款开源的 AI 操作助手,支持通过自然语言(如英文)自动化操作 Web 和 Android 应用。它可集成 Puppeteer、Playwright,或通过 Chrome 扩展、Android Playground 无代码使用。项目支持多模态大模型(LLMs)和视觉语言模型(VL models),能自动规划并执行 UI 操作,适用于自动化测试与交互场景。
• 项目地址:https://github.com/web-infra-dev/midscene
• 开发者:Web Infra 团队 (字节跳动)
• Stars / Forks:9.9k ⭐ / 696 Forks
• License:MIT
• 语言 / 技术栈:TypeScript,集成 Puppeteer、Playwright、YAML 脚本、AI 模型(如 UI-TARS 转换器) npm install @midscene/web
await mid.aiAction('在搜索框输入“天气”,然后回车');
const title = await mid.aiQuery('查询页面标题');
await mid.aiAssert('页面标题包含“天气”');
用 JS 代码驱动编排任务,搜集周杰伦演唱会的信息,并写入 Google Docs。▲
控制地图 App 在 Android 上导航到目的地。▲
使用 midscene mcp 的方法,浏览页面,进行登录,添加商品、下单商品最终根据 mcp 执行的步骤和 playwright example 生成最终的测试用例。▲
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2026-04-09
很多人突然不玩小龙虾而用Hermes Agent了。我替你试了,跟小龙虾到底有啥不同?
2026-04-08
开源模型首超Opus4.6!智谱GLM-5.1登场,14小时后CUDA专家被冲了
2026-04-08
探索Agentic生产力:从“被动问答”到“自主分析”
2026-04-08
GLM-5.1 又是开源 SOTA?直接做个图片改字工具验验真假!
2026-04-08
GLM-5.1 开源:零介入,交付整套的 Linux 桌面系统
2026-04-08
DeepSeek 推出快速模式和专家模式
2026-04-07
vLLM v0.19.0 来了,适配 HuggingFace v5,多模态优化,CPU KV 缓存卸载
2026-04-04
Gemma 4开源!整整一年,谷歌终于想明白了!!!
2026-01-30
2026-01-27
2026-01-12
2026-01-29
2026-01-27
2026-01-21
2026-01-28
2026-01-26
2026-01-23
2026-01-26
2026-04-09
2026-04-01
2026-03-17
2026-03-13
2026-03-02
2026-02-05
2026-01-28
2026-01-26