微信扫码
添加专属顾问
我要投稿
字节跳动Web Infra团队开源AI操作助手Midscene.js,用自然语言轻松操控Web和Android应用,GitHub已获9.9k星! 核心内容: 1. 支持自然语言驱动的自动化操作,兼容多模态大模型 2. 提供查询、断言等核心功能,支持Web和Android平台 3. 包含可视化调试报告和三种API类型,便于开发使用
Midscene.js一款开源的 AI 操作助手,支持通过自然语言(如英文)自动化操作 Web 和 Android 应用。它可集成 Puppeteer、Playwright,或通过 Chrome 扩展、Android Playground 无代码使用。项目支持多模态大模型(LLMs)和视觉语言模型(VL models),能自动规划并执行 UI 操作,适用于自动化测试与交互场景。
• 项目地址:https://github.com/web-infra-dev/midscene
• 开发者:Web Infra 团队 (字节跳动)
• Stars / Forks:9.9k ⭐ / 696 Forks
• License:MIT
• 语言 / 技术栈:TypeScript,集成 Puppeteer、Playwright、YAML 脚本、AI 模型(如 UI-TARS 转换器) npm install @midscene/web
await mid.aiAction('在搜索框输入“天气”,然后回车');
const title = await mid.aiQuery('查询页面标题');
await mid.aiAssert('页面标题包含“天气”');
用 JS 代码驱动编排任务,搜集周杰伦演唱会的信息,并写入 Google Docs。▲
控制地图 App 在 Android 上导航到目的地。▲
使用 midscene mcp 的方法,浏览页面,进行登录,添加商品、下单商品最终根据 mcp 执行的步骤和 playwright example 生成最终的测试用例。▲
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2025-10-05
Dify + RustFS + Milvus,构建文档多语言翻译 AI Workflow
2025-10-03
如愿以偿!Qwen3-VL再开源30B-A3B,附实测!
2025-10-03
开源神器 OpenDataLoader PDF:RAG 数据预处理终结者,告别“垃圾进,垃圾出”!
2025-10-03
告别散装!蚂蚁金服新模型,一个模型搞定图像理解生成与编辑!
2025-09-29
DeepSeek-V3.2背后的国产算子编程语言TileLang是什么?如何保持性能领先的同时减少6倍代码量?
2025-09-29
DeepSeek-V3.2-Exp开源,附论文细节解读!
2025-09-29
独家 | 帆软首次掀起盖头,万字访谈揭密BI巨头的出海之路
2025-09-29
2 分钟搞定官方文档没写的隐藏功能?99%的人还没掌握这种AI学习法!
2025-07-23
2025-08-20
2025-09-07
2025-07-23
2025-08-05
2025-07-14
2025-08-20
2025-07-29
2025-07-12
2025-07-31
2025-09-29
2025-09-17
2025-09-09
2025-09-08
2025-09-07
2025-09-01
2025-08-16
2025-08-13