我要投稿

阿里杀疯了！重磅开源 MAI-UI 手机GUI智能体：端云协同，性能吊打 Gemini！

发布日期：2025-12-31 18:52:11 浏览次数： 2115

作者：开源星探

微信搜一搜，关注“开源星探”

做 AI Agent（智能体）的都知道，最难啃的骨头不是「大脑」，而是「手脚」。

在大模型理解了你想干什么之后，怎么在手机这个封闭、复杂、弹窗乱飞的屏幕上精准点击、滑动、输入，一直是业界的噩梦。

如果你关注过豆包手机助手、AutoGLM、各类 GUI Agent，你一定知道一个事实：

能演示的很多，能稳定干活的很少。

但阿里就很会发现用户痛点，前两天它直接开源了一款通用 GUI 智能体基座模型：MAI-UI。

它可以实现豆包手机助手的效果，自动化操作手机。特色是采用了本地模型+云端模型协作的方式，兼顾性能和准确度，在多项手机操作评分中排名第一。

也是目前少数让我觉得是奔着真实使用去的一个开源 GUI Agent。

以下是一个跨应用协作DEMO：（用户指令：我需要紧急出差上海，帮我去12306查询现在首先从杭州西站去上海虹桥、有二等座票的班次，在钉钉前沿技术研讨群里把到到的时间同步给，再把我和水番的会议日程改到明天同一时间，在群里发消息@他，礼仪解释因为临时出差调整会议时间，询问他明天是否有空）

核心黑科技

我仔细研究了 MAI-UI 的技术白皮书，发现它不仅仅是“视觉模型”那么简单，它首次将 用户交互、MCP、端云协同 原生集成在了一起。

1、32B 模型视觉能力：超越 Gemini-3-Pro

在 GUI 智能体领域，最核心的能力是 ScreenSpot（屏幕定位）。

你跟 AI 说“点击红色的购买按钮”，AI 必须能精准算出这个按钮在屏幕的 (x, y) 坐标。

MAI-UI 的 32B 版本在权威基准测试 ScreenSpot-Pro 上，定位能力超越了 Google 的 Gemini-3-Pro。

这意味着它眼疾手快，看得准，点得对，不会出现“手指太粗点错行”的尴尬。

2、端云协同：小鬼当家，大佬兜底

这是 MAI-UI 最天才的设计。

• 2B 小模型（端侧）：常驻手机内存。处理日常高频操作（如滑动屏幕、点击图标）。反应快、不耗电、隐私数据不出手机。
• 32B 大模型（云端）：当遇到复杂逻辑或 2B 模型搞不定时，才由云端介入。

这种架构完美解决了“手机跑不动大模型”和“云端处理延迟太高”的矛盾。

3、原生 MCP 工具集成：能走捷径绝不绕路

MCP 也是 AI 领域（特别是AI编程、AI-Agent应用中）很火的概念。

MAI-UI 原生支持它。

比如发微信，传统 Agent 需要：解锁 -> 找微信 -> 点击 -> 搜联系人 -> 点击 -> 输入 -> 发送。容易出错。

而通过 MAI-UI（前提：系统支持）它直接调用 MCP 接口，“嗖”的一下就可以把消息发出去了。

既能像人一样点屏幕，又能像程序一样调接口，这就是双重保险。

4、高情商交互理解：它不瞎猜，它会问

这是我最喜欢的一个功能点 — 拒绝臆断（Anti-Hallucination）。

以前的 AI 助手如果你指令模糊，它就容易瞎操作。

比如你说：“下载简历并发送给同事。”

傻 AI 可能直接把下载链接发过去了。

MAI-UI 会停下来思考，然后问你：

“老板，是把简历文件作为附件发送，还是直接复制简历里的文本内容发送？”

它会通过主动提问来澄清关键信息，并将你的回答存入任务记忆。这不仅避免了误操作，更让人感觉是在和一个靠谱的助手共事。

5、抗干扰能力：在混乱中保持优雅

真实的手机环境是很糟糕的，比如：突然弹出一个“拼夕夕”的红包弹窗；又或是网络卡顿，页面加载了一半等。

MAI-UI 具备强大的自适应和自我纠正能力。它不会因为多了一个弹窗就程序崩溃，而是会像人一样，先关掉弹窗，再继续执行任务。

这种鲁棒性是它能落地的关键。

安装指南

目前，MAI-UI 已经把 2B 和 8B 的版本开源出来了。而且模型大小也都不是特别大，本地低显存也可以跑起来。

具体操作：

1、克隆项目并安装依赖

git clone https://github.com/Tongyi-MAI/MAI-UI.git
cd MAI-UI

pip install -r requirements.txt

2、使用 vLLM 启动模型 API 服务

从 HuggingFace 下载模型：

2B：https://huggingface.co/Tongyi-MAI/MAI-UI-2B
8B：https://huggingface.co/Tongyi-MAI/MAI-UI-8B

使用 vLLM 部署模型：

# 安装 vLLM
pip install vllm  # vllm>=0.11.0 and transformers>=4.57.0

# 启动 vLLM API 服务 (将 MODEL_PATH 替换为本地模型路径或 HuggingFace 模型 ID)
python -m vllm.entrypoints.openai.api_server \
    --model <huggingface_model_path> \
    --served-model-name MAI-UI-8B \
    --host 0.0.0.0 \
    --port 8000 \
    --tensor-parallel-size 1 \
    --trust-remote-code

💡小贴士：
• --tensor-parallel-size根据您的 GPU 数量调整多 GPU 推理
• 该模型将在以下地点提供服务：http://localhost:8000/v1

服务启动后，我们可以先运行项目中提供的两个 cookbook 示例，看能否正常执行起来。

该 grounding.ipynb 示例演示了如何使用 MAI Grounding Agent 来定位 UI 元素：

cd cookbook
jupyter notebook grounding.ipynb

运行前，请更新笔记本中的 API 端点：

agent = MAIGroundingAgent(
    llm_base_url="http://localhost:8000/v1",  # Update to your vLLM server address
    model_name="MAI-UI-8B",                   # Use the served model name
    runtime_conf={
        "history_n": 3,
        "temperature": 0.0,
        "top_k": -1,
        "top_p": 1.0,
        "max_tokens": 2048,
    },
)

还有一个 run_agent.ipynb 演示了完整的用户界面导航代理:

cd cookbook
jupyter notebook run_agent.ipynb

同样运行前，更新节点配置：

agent = MAIUINaivigationAgent(
    llm_base_url="http://localhost:8000/v1",  # Update to your vLLM server address
    model_name="MAI-UI-8B",                   # Use the served model name
    runtime_conf={
        "history_n": 3,
        "temperature": 0.0,
        "top_k": -1,
        "top_p": 1.0,
        "max_tokens": 2048,
    },
)