微信扫码
添加专属顾问
我要投稿
字节跳动Web Infra团队开源AI操作助手Midscene.js,用自然语言轻松操控Web和Android应用,GitHub已获9.9k星! 核心内容: 1. 支持自然语言驱动的自动化操作,兼容多模态大模型 2. 提供查询、断言等核心功能,支持Web和Android平台 3. 包含可视化调试报告和三种API类型,便于开发使用
Midscene.js一款开源的 AI 操作助手,支持通过自然语言(如英文)自动化操作 Web 和 Android 应用。它可集成 Puppeteer、Playwright,或通过 Chrome 扩展、Android Playground 无代码使用。项目支持多模态大模型(LLMs)和视觉语言模型(VL models),能自动规划并执行 UI 操作,适用于自动化测试与交互场景。
• 项目地址:https://github.com/web-infra-dev/midscene
• 开发者:Web Infra 团队 (字节跳动)
• Stars / Forks:9.9k ⭐ / 696 Forks
• License:MIT
• 语言 / 技术栈:TypeScript,集成 Puppeteer、Playwright、YAML 脚本、AI 模型(如 UI-TARS 转换器) npm install @midscene/web
await mid.aiAction('在搜索框输入“天气”,然后回车');
const title = await mid.aiQuery('查询页面标题');
await mid.aiAssert('页面标题包含“天气”');
用 JS 代码驱动编排任务,搜集周杰伦演唱会的信息,并写入 Google Docs。▲
控制地图 App 在 Android 上导航到目的地。▲
使用 midscene mcp 的方法,浏览页面,进行登录,添加商品、下单商品最终根据 mcp 执行的步骤和 playwright example 生成最终的测试用例。▲
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2025-11-22
ollama v0.13.0 发布:DeepSeek-OCR、Cogito-V2.1 全新支持,性能工具 Bench 正式上线
2025-11-19
腾讯云开源DeepSeek量化部署方案:性能最高提升3.9X!
2025-11-19
全新AI编程工具 Google Antigravity 实测,特别适合产品经理
2025-11-19
20M小模型的数学公式OCR,复杂公式截图秒转LaTeX代码!
2025-11-18
高瓴、红杉一起投了一家出海销售Agent
2025-11-18
第一次用 Ollama 跑视觉模型:Qwen2.5-VL 7B 给了我一个意外惊喜
2025-11-18
MiroMind 最新模型发布!深度交互Scaling!模拟人类处理复杂问题的智能体基座模型 MiroThinker v1.0
2025-11-17
4.5K Star!文档管理AI神器Paperless-AI:自动分类打标签,语义搜索秒找文件!
2025-09-07
2025-08-26
2025-09-06
2025-10-20
2025-09-08
2025-10-27
2025-10-27
2025-10-03
2025-09-17
2025-08-28
2025-11-12
2025-11-10
2025-11-03
2025-10-29
2025-10-28
2025-10-13
2025-09-29
2025-09-17