免费POC, 零成本试错
AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


我要投稿

阿里杀疯了!重磅开源 MAI-UI 手机GUI智能体:端云协同,性能吊打 Gemini!

发布日期:2025-12-31 18:52:11 浏览次数: 1525
作者:开源星探

微信搜一搜,关注“开源星探”

推荐语

阿里重磅开源MAI-UI手机GUI智能体,端云协同设计让手机操作更智能高效,性能直接超越Gemini!

核心内容:
1. MAI-UI的32B模型视觉能力在屏幕定位测试中超越Gemini-3-Pro
2. 创新的端云协同架构:2B小模型处理日常操作,32B大模型应对复杂任务
3. 原生集成MCP工具和高情商交互设计,实现更精准高效的手机操作

杨芳贤
53AI创始人/腾讯云(TVP)最具价值专家

 

做 AI Agent(智能体)的都知道,最难啃的骨头不是「大脑」,而是「手脚」。

在大模型理解了你想干什么之后,怎么在手机这个封闭、复杂、弹窗乱飞的屏幕上精准点击、滑动、输入,一直是业界的噩梦。

如果你关注过豆包手机助手、AutoGLM、各类 GUI Agent,你一定知道一个事实:

能演示的很多,能稳定干活的很少。

但 阿里 就很会发现用户痛点,前两天它直接开源了一款通用 GUI 智能体基座模型:MAI-UI

它可以实现豆包手机助手的效果,自动化操作手机。特色是采用了本地模型+云端模型协作的方式,兼顾性能和准确度,在多项手机操作评分中排名第一。

也是目前少数让我觉得是奔着真实使用去的一个开源 GUI Agent。

以下是一个跨应用协作DEMO:(用户指令:我需要紧急出差上海,帮我去12306查询现在首先从杭州西站去上海虹桥、有二等座票的班次,在钉钉前沿技术研讨群里把到到的时间同步给,再把我和水番的会议日程改到明天同一时间,在群里发消息@他,礼仪解释因为临时出差调整会议时间,询问他明天是否有空

核心黑科技

我仔细研究了 MAI-UI 的技术白皮书,发现它不仅仅是“视觉模型”那么简单,它首次将 用户交互、MCP、端云协同 原生集成在了一起。

1、32B 模型视觉能力:超越 Gemini-3-Pro

在 GUI 智能体领域,最核心的能力是 ScreenSpot(屏幕定位)。

你跟 AI 说“点击红色的购买按钮”,AI 必须能精准算出这个按钮在屏幕的 (x, y) 坐标。

MAI-UI 的 32B 版本在权威基准测试 ScreenSpot-Pro 上,定位能力超越了 Google 的 Gemini-3-Pro。

这意味着它眼疾手快,看得准,点得对,不会出现“手指太粗点错行”的尴尬。

2、端云协同:小鬼当家,大佬兜底

这是 MAI-UI 最天才的设计。

  • • 2B 小模型(端侧):常驻手机内存。处理日常高频操作(如滑动屏幕、点击图标)。反应快、不耗电、隐私数据不出手机。
  • • 32B 大模型(云端):当遇到复杂逻辑或 2B 模型搞不定时,才由云端介入。

这种架构完美解决了“手机跑不动大模型”和“云端处理延迟太高”的矛盾。

3、原生 MCP 工具集成:能走捷径绝不绕路

MCP 也是 AI 领域(特别是AI编程、AI-Agent应用中)很火的概念。

MAI-UI 原生支持它。

比如发微信,传统 Agent 需要:解锁 -> 找微信 -> 点击 -> 搜联系人 -> 点击 -> 输入 -> 发送。容易出错。

而通过 MAI-UI(前提:系统支持)它直接调用 MCP 接口,“嗖”的一下就可以把消息发出去了。

既能像人一样点屏幕,又能像程序一样调接口,这就是双重保险。

4、高情商交互理解:它不瞎猜,它会问

这是我最喜欢的一个功能点 — 拒绝臆断(Anti-Hallucination)

以前的 AI 助手如果你指令模糊,它就容易瞎操作。

比如你说:“下载简历并发送给同事。”

傻 AI 可能直接把下载链接发过去了。

MAI-UI 会停下来思考,然后问你:

“老板,是把简历文件作为附件发送,还是直接复制简历里的文本内容发送?”

它会通过主动提问来澄清关键信息,并将你的回答存入任务记忆。这不仅避免了误操作,更让人感觉是在和一个靠谱的助手共事。

5、抗干扰能力:在混乱中保持优雅

真实的手机环境是很糟糕的,比如:突然弹出一个“拼夕夕”的红包弹窗;又或是网络卡顿,页面加载了一半等。

MAI-UI 具备强大的自适应和自我纠正能力。它不会因为多了一个弹窗就程序崩溃,而是会像人一样,先关掉弹窗,再继续执行任务。

这种鲁棒性是它能落地的关键。

安装指南

目前,MAI-UI 已经把 2B 和 8B 的版本开源出来了。而且模型大小也都不是特别大,本地低显存也可以跑起来。

具体操作:

1、克隆项目并安装依赖

git clone https://github.com/Tongyi-MAI/MAI-UI.git
cd
 MAI-UI

pip install -r requirements.txt

2、使用 vLLM 启动模型 API 服务

从 HuggingFace 下载模型:

2B:https://huggingface.co/Tongyi-MAI/MAI-UI-2B
8B:https://huggingface.co/Tongyi-MAI/MAI-UI-8B

使用 vLLM 部署模型:

# 安装 vLLM
pip install vllm  # vllm>=0.11.0 and transformers>=4.57.0

# 启动 vLLM API 服务 (将 MODEL_PATH 替换为本地模型路径或 HuggingFace 模型 ID)

python -m vllm.entrypoints.openai.api_server \
    --model <huggingface_model_path> \
    --served-model-name MAI-UI-8B \
    --host 0.0.0.0 \
    --port 8000 \
    --tensor-parallel-size 1 \
    --trust-remote-code

💡小贴士:

• --tensor-parallel-size根据您的 GPU 数量调整多 GPU 推理
• 该模型将在以下地点提供服务:http://localhost:8000/v1

服务启动后,我们可以先运行项目中提供的两个 cookbook 示例,看能否正常执行起来。

该 grounding.ipynb 示例演示了如何使用 MAI Grounding Agent 来定位 UI 元素:

cd cookbook
jupyter notebook grounding.ipynb

运行前,请更新笔记本中的 API 端点:

agent = MAIGroundingAgent(
    llm_base_url="http://localhost:8000/v1",  # Update to your vLLM server address
    model_name="MAI-UI-8B",                   # Use the served model name
    runtime_conf={
        "history_n"
: 3,
        "temperature"
: 0.0,
        "top_k"
: -1,
        "top_p"
: 1.0,
        "max_tokens"
: 2048,
    },
)

还有一个 run_agent.ipynb 演示了完整的用户界面导航代理:

cd cookbook
jupyter notebook run_agent.ipynb

同样运行前,更新节点配置:

agent = MAIUINaivigationAgent(
    llm_base_url="http://localhost:8000/v1",  # Update to your vLLM server address
    model_name="MAI-UI-8B",                   # Use the served model name
    runtime_conf={
        "history_n"
: 3,
        "temperature"
: 0.0,
        "top_k"
: -1,
        "top_p"
: 1.0,
        "max_tokens"
: 2048,
    },
)

落地场景

目前 MAI-UI 在以下高频场景表现都不错:

  • • 办公自动化(下载、发送、填写)
  • • 购物比价、下单流程
  • • 出行操作(订票、查询)
  • • App 间跨操作流程

写在最后

MAI-UI 是我近期看到最像正经基础设施的手机 GUI Agent 项目之一。

是一个开源的、可复现、可集成的 Agent 基座。

它不再是一个简单的脚本录制工具,而是一个有眼睛、有脑子、还有嘴巴的智能体。

对于普通用户来说,也许不久的将来,你的手机系统升级后,就能体验到这种“动口不动手”的快乐。

GitHub:

https://github.com/Tongyi-MAI/MAI-UI

 







如果本文对您有帮助,也请帮忙点个 赞👍 + 在看 哈!❤️

在看你就赞赞我!

53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询