微信扫码
添加专属顾问
我要投稿
阿里重磅开源MAI-UI手机GUI智能体,端云协同设计让手机操作更智能高效,性能直接超越Gemini!核心内容:1. MAI-UI的32B模型视觉能力在屏幕定位测试中超越Gemini-3-Pro2. 创新的端云协同架构:2B小模型处理日常操作,32B大模型应对复杂任务3. 原生集成MCP工具和高情商交互设计,实现更精准高效的手机操作
做 AI Agent(智能体)的都知道,最难啃的骨头不是「大脑」,而是「手脚」。
在大模型理解了你想干什么之后,怎么在手机这个封闭、复杂、弹窗乱飞的屏幕上精准点击、滑动、输入,一直是业界的噩梦。
如果你关注过豆包手机助手、AutoGLM、各类 GUI Agent,你一定知道一个事实:
能演示的很多,能稳定干活的很少。
但 阿里 就很会发现用户痛点,前两天它直接开源了一款通用 GUI 智能体基座模型:MAI-UI。
它可以实现豆包手机助手的效果,自动化操作手机。特色是采用了本地模型+云端模型协作的方式,兼顾性能和准确度,在多项手机操作评分中排名第一。
也是目前少数让我觉得是奔着真实使用去的一个开源 GUI Agent。
以下是一个跨应用协作DEMO:(用户指令:我需要紧急出差上海,帮我去12306查询现在首先从杭州西站去上海虹桥、有二等座票的班次,在钉钉前沿技术研讨群里把到到的时间同步给,再把我和水番的会议日程改到明天同一时间,在群里发消息@他,礼仪解释因为临时出差调整会议时间,询问他明天是否有空)
我仔细研究了 MAI-UI 的技术白皮书,发现它不仅仅是“视觉模型”那么简单,它首次将 用户交互、MCP、端云协同 原生集成在了一起。
在 GUI 智能体领域,最核心的能力是 ScreenSpot(屏幕定位)。
你跟 AI 说“点击红色的购买按钮”,AI 必须能精准算出这个按钮在屏幕的 (x, y) 坐标。
MAI-UI 的 32B 版本在权威基准测试 ScreenSpot-Pro 上,定位能力超越了 Google 的 Gemini-3-Pro。
这意味着它眼疾手快,看得准,点得对,不会出现“手指太粗点错行”的尴尬。
这是 MAI-UI 最天才的设计。
这种架构完美解决了“手机跑不动大模型”和“云端处理延迟太高”的矛盾。
MCP 也是 AI 领域(特别是AI编程、AI-Agent应用中)很火的概念。
MAI-UI 原生支持它。
比如发微信,传统 Agent 需要:解锁 -> 找微信 -> 点击 -> 搜联系人 -> 点击 -> 输入 -> 发送。容易出错。
而通过 MAI-UI(前提:系统支持)它直接调用 MCP 接口,“嗖”的一下就可以把消息发出去了。
既能像人一样点屏幕,又能像程序一样调接口,这就是双重保险。
这是我最喜欢的一个功能点 — 拒绝臆断(Anti-Hallucination)。
以前的 AI 助手如果你指令模糊,它就容易瞎操作。
比如你说:“下载简历并发送给同事。”
傻 AI 可能直接把下载链接发过去了。
MAI-UI 会停下来思考,然后问你:
“老板,是把简历文件作为附件发送,还是直接复制简历里的文本内容发送?”
它会通过主动提问来澄清关键信息,并将你的回答存入任务记忆。这不仅避免了误操作,更让人感觉是在和一个靠谱的助手共事。
真实的手机环境是很糟糕的,比如:突然弹出一个“拼夕夕”的红包弹窗;又或是网络卡顿,页面加载了一半等。
MAI-UI 具备强大的自适应和自我纠正能力。它不会因为多了一个弹窗就程序崩溃,而是会像人一样,先关掉弹窗,再继续执行任务。
这种鲁棒性是它能落地的关键。
目前,MAI-UI 已经把 2B 和 8B 的版本开源出来了。而且模型大小也都不是特别大,本地低显存也可以跑起来。
具体操作:
git clone https://github.com/Tongyi-MAI/MAI-UI.git
cd MAI-UI
pip install -r requirements.txt
从 HuggingFace 下载模型:
2B:https://huggingface.co/Tongyi-MAI/MAI-UI-2B
8B:https://huggingface.co/Tongyi-MAI/MAI-UI-8B
使用 vLLM 部署模型:
# 安装 vLLM
pip install vllm # vllm>=0.11.0 and transformers>=4.57.0
# 启动 vLLM API 服务 (将 MODEL_PATH 替换为本地模型路径或 HuggingFace 模型 ID)
python -m vllm.entrypoints.openai.api_server \
--model <huggingface_model_path> \
--served-model-name MAI-UI-8B \
--host 0.0.0.0 \
--port 8000 \
--tensor-parallel-size 1 \
--trust-remote-code
💡小贴士:
• --tensor-parallel-size根据您的 GPU 数量调整多 GPU 推理 • 该模型将在以下地点提供服务: http://localhost:8000/v1
服务启动后,我们可以先运行项目中提供的两个 cookbook 示例,看能否正常执行起来。
该 grounding.ipynb 示例演示了如何使用 MAI Grounding Agent 来定位 UI 元素:
cd cookbook
jupyter notebook grounding.ipynb
运行前,请更新笔记本中的 API 端点:
agent = MAIGroundingAgent(
llm_base_url="http://localhost:8000/v1", # Update to your vLLM server address
model_name="MAI-UI-8B", # Use the served model name
runtime_conf={
"history_n": 3,
"temperature": 0.0,
"top_k": -1,
"top_p": 1.0,
"max_tokens": 2048,
},
)
还有一个 run_agent.ipynb 演示了完整的用户界面导航代理:
cd cookbook
jupyter notebook run_agent.ipynb
同样运行前,更新节点配置:
agent = MAIUINaivigationAgent(
llm_base_url="http://localhost:8000/v1", # Update to your vLLM server address
model_name="MAI-UI-8B", # Use the served model name
runtime_conf={
"history_n": 3,
"temperature": 0.0,
"top_k": -1,
"top_p": 1.0,
"max_tokens": 2048,
},
)
目前 MAI-UI 在以下高频场景表现都不错:
MAI-UI 是我近期看到最像正经基础设施的手机 GUI Agent 项目之一。
是一个开源的、可复现、可集成的 Agent 基座。
它不再是一个简单的脚本录制工具,而是一个有眼睛、有脑子、还有嘴巴的智能体。
对于普通用户来说,也许不久的将来,你的手机系统升级后,就能体验到这种“动口不动手”的快乐。
GitHub:
https://github.com/Tongyi-MAI/MAI-UI
如果本文对您有帮助,也请帮忙点个 赞👍 + 在看 哈!❤️
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2025-12-31
重塑人机交互:深度解析智谱 Open-AutoGLM 的技术底座与演进之路
2025-12-31
Anthropic 官方开源 Skills:Claude 智能体开发的“标准答案”
2025-12-31
彻底免费平民化!Qwen Code增加了Skills功能
2025-12-30
RDSAI-CLI - 用AI重塑数据库终端CLI体验
2025-12-30
OpenAI开源“稀疏电路”,我们能看懂AI在想什么了
2025-12-30
阶跃星辰深度研究32B媲美Gemini深度研究能力,成本不到1/10
2025-12-29
谷歌又一强大工具开源,Selenium 慌了!
2025-12-28
谷歌重磅开源A2UI:让AI开口“说”UI,彻底革新界面生成方式!
2025-11-19
2025-10-20
2025-10-27
2025-10-27
2025-10-03
2025-11-17
2025-12-10
2025-10-29
2025-11-07
2025-10-24
2025-12-24
2025-12-22
2025-11-12
2025-11-10
2025-11-03
2025-10-29
2025-10-28
2025-10-13