微信扫码
添加专属顾问
我要投稿
阿里通义开源MAI-UI,这款全尺寸GUI智能体基座模型将彻底改变人机交互方式,带来更智能、更高效的体验。 核心内容: 1. MAI-UI三大核心能力:用户交互、工具调用和端云协同 2. 五大功能亮点:从任务执行到动态环境适应性 3. 四大技术突破:自主进化数据管线与大规模在线强化学习等创新
随着人工智能技术的飞速发展,图形用户界面(GUI)智能体逐渐成为人机交互领域的重要研究方向。MAI-UI作为阿里通义实验室推出的全尺寸GUI智能体基座模型,凭借其卓越的性能和创新的技术架构,为下一代人机交互提供了强大的支持。
MAI-UI是一个覆盖从2B到235B-A22B全尺寸的GUI智能体基座模型家族,具备用户交互、工具调用和端云协同三大核心能力。它通过自主进化数据管线和大规模在线强化学习技术,实现了模型在复杂场景中的持续进化,适用于多种真实世界的应用场景。
MAI-UI能够主动与用户沟通,当指令模糊时,它会提问澄清关键信息,确保任务执行符合用户意图。这种交互能力使它在处理复杂任务时更加精准,避免因指令不清晰而导致的错误,提升用户体验和任务成功率。
通过Model-Callable Protocol(MCP),MAI-UI可以直接调用外部工具,将复杂的UI操作简化为高效的API调用。这不仅提高了任务执行的效率,还扩展了模型的功能范围,使其能够处理更多种类的任务。
MAI-UI设计了端云协同架构,本地轻量模型负责日常任务,复杂任务可无缝切换至云端模型。这种架构在保障用户隐私和数据安全的同时,提升了性能,实现了资源的高效利用。
MAI-UI在多种操作系统中实现高效的GUI任务自动化,支持跨应用操作和复杂场景下的任务规划。它能够根据用户指令,精准地完成一系列复杂的任务操作,大大提高了工作效率。
面对真实环境中的弹窗、广告、UI变化等干扰,MAI-UI能够自主回退或重新定位,确保任务连贯性。这种适应性使它在动态变化的环境中依然能够稳定运行,表现出色。
MAI-UI采用自主进化数据管线,将用户交互、MCP工具调用等多维度数据集成到训练过程中。通过人工标注和模型自动生成高质量的训练数据,数据管线能持续更新,使模型在复杂场景中不断进化,提升对真实任务的理解和执行能力。
模型通过大规模在线强化学习提升泛化性和稳健性。在动态环境中进行训练,支持超长轨迹(最长50步)和动态扰动注入机制(如弹窗、权限、UI偏移),使模型能适应真实GUI任务中的各种干扰,确保任务执行的连贯性和成功率。
MAI-UI设计了端云协同架构,轻量级本地模型作为“轨迹监控器”,实时判断任务执行路径是否偏离用户意图。当任务在端侧卡住且不涉及隐私信息时,系统会触发云端模型接力,确保任务顺利完成。同时,涉及隐私的操作始终在本地执行,保障用户数据安全。
基于多模态大语言模型(如Qwen3-VL),MAI-UI实现对GUI界面的视觉感知和语言理解。模型支持多种操作,如点击、滑动、输入等,能完成复杂的任务序列,从而在多种操作系统(如手机、电脑、网页)上实现高效的GUI任务自动化。
在家庭生活中,MAI-UI能够根据日历中的待办事项,主动提示用户是否需要购买车厘子、洗衣液等物品。它还能帮助用户管理购物清单,确保不会遗漏重要物品,让家庭购物更加便捷高效。
在办公环境中,MAI-UI可以协助用户处理文件,例如查找并发送简历文件给HR同事,同时主动询问关键信息以确保任务顺利完成。它还能帮助用户规划出差行程,同步重要信息到工作群组,提升工作效率。
用户可以要求MAI-UI规划从一个地点到另一个地点的最优路线,并将结果记录在笔记中。它能够快速分析交通状况,选择最合适的出行方式和路线,帮助用户节省时间和精力。
在社交群组中,MAI-UI可以同步重要信息,例如到达时间、在群内@相关人员等。它还能根据用户的日程安排,自动提醒用户参加社交活动,确保信息及时传达。
用户可以要求MAI-UI打开学习平台,找到指定课程,并记录课程中的重点内容。它还能根据用户的学习进度,推荐相关的学习资料,帮助用户更好地复习和巩固知识。
git clone https://github.com/Tongyi-MAI/MAI-UI.gitcd MAI-UIpip install -r requirements.txtpip install vllm transformers
从HuggingFace下载模型(需接受协议):
python -m vllm.entrypoints.openai.api_server \ --model Tongyi-MAI/MAI-UI-8B \ --served-model-name MAI-UI-8B \ --host 0.0.0.0 \ --port 8000 \ --tensor-parallel-size 1 \ --trust-remote-code
from mai_ui import MAIGroundingAgentagent = MAIGroundingAgent( llm_base_url="http://localhost:8000/v1", model_name="MAI-UI-8B", runtime_conf={ "history_n": 3, "temperature": 0.0, "max_tokens": 2048, },)screenshot = "path/to/phone_screen.png"instruction = "点击蓝色的发送按钮"result = agent.ground(screenshot, instruction)print(f"目标坐标: {result.coordinates}")from mai_ui import MAIUINavigationAgent agent = MAIUINavigationAgent( llm_base_url="http://localhost:8000/v1", model_name="MAI-UI-8B", runtime_conf={ "history_n": 3, "temperature": 0.0, "max_tokens": 2048, }, ) task = "打开开发者选项中的USB调试" agent.execute(task, environment="android_emulator")MAI-UI凭借其强大的功能和创新的技术架构,为GUI智能体的发展树立了新的标杆。它不仅在多个权威评测中取得了优异的成绩,还通过端云协同架构和动态强化学习技术,显著提升了模型在真实场景中的实用性和鲁棒性。随着技术的不断进步,MAI-UI有望在未来的人机交互领域发挥更大的作用,为用户提供更加智能、便捷的交互体验。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2026-01-12
SkillsMP:一个聚合了 5 万+ AI Agent 技能的开源社区
2026-01-11
Obsidian CEO 亲自下场!开源 obsidian-skills,4 天狂揽 4.6K Star!
2026-01-10
唐杰、杨植麟、姚顺雨、林俊旸罕见同台分享,这3个小时的信息密度实在太高了。
2026-01-10
阿里巴巴发布全新开源语音交互大模型 :Fun-Audio-Chat
2026-01-10
GitHub 上 2300 人 Star 的 Claude Code 可视化工作流编辑器。
2026-01-10
7.3K Star!港大开源神作,集问答、可视化、出题于一身的 AI 超级导师!
2026-01-10
AI玩法的尽头是Skills!3.6万人收藏的Claude官方SOP,你必须要掌握
2026-01-09
刚刚!Claude Code 官方开源,AI 写的屎山终于有救了!
2025-11-19
2025-10-20
2025-10-27
2025-10-27
2025-12-10
2025-11-17
2025-12-22
2025-11-07
2025-10-29
2025-10-21
2026-01-02
2025-12-24
2025-12-22
2025-11-12
2025-11-10
2025-11-03
2025-10-29
2025-10-28