我要投稿

今天，AutoGLM开源：让人人都可构建手机Agent

发布日期：2025-12-09 10:52:20 浏览次数： 2704

作者：GLM大模型

微信搜一搜，关注“GLM大模型”

我们想做的

到底是一件什么事

过去的很长时间，我们一直在回答同一个问题：

如果 AI 真的是“助手”，它能不能像人一样，自己把手机拿起来，把一件事从头做到尾？

在我们的想象里，AI 不该只停留在聊天框里，而是可以走进用户每天真正要点的那些 App 里：

帮你在外卖 App 里完成从选择到下单；
帮你在云手机里，批量处理通知、点赞评论；
帮你在销售、客服、出勤等场景里，自动做完一堆“你自己也不想点的重复动作”。

AutoGLM 想做的，就是这件事：让 AI 真正学会“使用手机”。

32个月

我们具体做到了什么？

用一句简单的话来说：

我们希望 AutoGLM，不仅能“说”，还能“做”。

为了这一句话，我们从 2023 年 4 月——一个大多数人还不知道大模型是什么的时候，完全从零去探索每一个细节，到今天，已经 32 个月了。

1.“乱点” -> “可控”

在最开始的版本里，基于大模型所构建的系统只知道“点”、“滑”等操作，偶尔能完成一个很短的流程，更多时候会迷失在不知所谓的操作中，甚至陷入死循环。

为了解决这类问题，我们花了近一年的时间，去梳理每一个可能的问题，尝试把这些“乱点的手”变成一只“可控的手”：

建了一整套 Phone Use 能力框架；
把点击、滑动、输入、截图、界面理解这些最基础的动作抽象出来；
让模型学会把一句自然语言拆解为一系列稳定、可回放的操作步骤；
处理掉各种真实世界的“脏信息”：网络波动、弹窗打断、广告遮挡……

2024 年 10 月 25 日，我们发布了第一个能够在真机上稳定完成一条完整操作链路的 AutoGLM，

它被业内视为全球首个具备 Phone Use 能力的 AI Agent。

2.第一个由 AI 发出的红包

2024 年 11 月，AutoGLM 发出了人类历史上第一个由 AI 完成的手机红包：不是脚本录制，不是内嵌 API 调用，而是通过在屏幕上“看见”界面、“理解”含义，一步一步完成点击。

对我们来说，这是一个信号：

从此以后，手机上的很多交互，第一次可以完全由 AI 接手。

3.走向云手机：把能力放到一个更安全的空间

2025 年，我们发布了 AutoGLM 2.0，验证了强化学习的规模扩展定律，提出了 MobileRL、ComputerRL 和 AgentRL 算法，让 AutoGLM 在上千个虚拟设备环境里同时强化学习，极大扩展了 Agent 的准确性和泛化能力。

更关键的是，我们不希望 Agent 直接在用户真实手机、真实微信上肆意操作，于是选择把它放进一台和用户真实世界脱离的虚拟手机里：

这台手机跑在云端；
每一个动作都可以回放、审计、干预；
真正敏感的数据可以严格隔离。

这套设计背后的直觉很简单：

让 AI 会用手机之前，我们要先保证，它不会在不该点的地方胡乱伸手。

除了云手机的选择，我们主动放弃了操作微信等这些离用户隐私较近的 APP。

为什么要开源？

我们真正在意的是什么？

从产品的角度，AutoGLM 已经可以支撑起很多真实场景；从工程的角度，AutoGLM的积累足够写成一大摞技术报告。

那为什么，在这个时间点，我们选择把它开源？

我们想清楚的，大概有三件事。

1.这件事只在一家公司做，是不够的

AI 手机已经是趋势，但如果“会用手机的 AI 能力”只掌握在极少数厂商手里，那意味着：

开发者的创新空间，要看平台愿不愿意开放接口；
用户日常生活中最重要的那台设备，越来越像“别人家的入口”。

AutoGLM 开源的第一层初衷，是把这一层能力变成整个行业可以共同拥有、共同打磨的公共底座。

你可以把它当成一块积木，放进你自己的系统里，也可以把它拆开、重写、改造，那一刻起，它就不再只是“智谱的 AutoGLM”，而是你和你的团队做出来的东西的一部分。

2.让隐私和控制权，真正留在使用方这一侧

我们也很清楚，Phone Use 能力，一旦做大，天然会碰到最敏感的那一部分世界：个人微信、支付、聊天记录、照片相册、企业内部系统。

我们不希望也不应该，把这些东西握在自己手里。

通过开源和私有化部署，企业和开发者可以在自己的合规环境中完整掌控数据、日志和权限。

可以让手机，成为专属自己的 AI 手机。

用一句话概括就是：

技术向整个生态开放，

数据与隐私，永远留在使用方这一侧。

3.把我们走过的路，变成大家在Agent爆发时代的起跑线

AutoGLM是一条很陡的路：我们啃过的技术难题、踩过的坑、重写过的框架，

在很多场景里都可以复用，也值得被复用。

但这还不够，“一花独放不是春”。Agent 的爆发，需要所有人一起参与。

我们更乐见的是：

有团队基于 AutoGLM，做出真正意义上的 AI 原生手机；
有研究者把其中的某个模块拆出来，变成一篇论文、一套新算法；
有个人开发者把一个 Demo 改成自己的项目，在某个小众场景里真正跑起来。

我们希望开源社区：

从今天开始，人人都可以拥有自己的手机 Agent。

你现在能拿到什么

我们开源的，是一整套可以「拿来就用」的能力，而不仅仅是一份概念说明。

具体包括：

训练好的核心模型；
Phone Use 能力框架与工具链；
可直接跑通的 Demo，覆盖 50+ 高频中文 App；
针对 Android 的适配层与示例工程；
文档、快速上手指南。

模型会以 MIT 开源许可证的形式开放，而所有代码会以 Apache-2.0 开源许可证的形式，托管在 GitHub 仓库（示例：github.com/zai-org/Open-AutoGLM）中。

你可以把它当成一套现成的基础设施，也可以单独拆用其中的某一部分，甚至可以把它改得面目全非——只要它帮助你更接近你心目中的「AI 原生手机」。

接下来

现在的 AutoGLM 不是一个完美的答案。真实世界的手机和应用，它还远远没有全部见过。未来的 AI 手机生态，也一定会有比我们今天想象得更惊喜的形态。

我们做的，只是把对“AI 会不会用手机”这个问题的一次完整回答，诚实地、原原本本地，交到你们手里。

在 2025 年尾的这个时刻，正如 Andrej Karpathy 所说，

从今天开始，人人都可以拥有自己的手机 Agent。我们面对的大概不只是“Agent 元年”，而更可能是“Agent 的十年”。

接下来，AutoGLM 团队会继续努力，让我们一起推动 Agent 开源和研究，那个梦想中的“贾维斯”，才会真的在我们人人身边出现。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2026-06-12

当 AI Coding Agent 成为基础设施：我们为什么要开源 LoongSuite Pilot

2026-06-09

CPU 跑得比 Whisper GPU还快的开源语音识别，本地部署

2026-06-09

别再问我什么是爱马仕！

2026-06-09

Open Design：开源界的 Claude Design 替代品，61.7K Star，21+ Agent 都能跑，本地第一

2026-06-08

我开源了 PPT-Library：让历史 PPT 变成 AI 可复用资产

2026-06-08

knowledge-work-plugins：Anthropic 官方开源的知识工作插件集，19,000+Star

2026-06-08

从搜索、点击、表单填写到复杂网页操作，让 AI 像人一样使用浏览器

2026-06-08

比Codex快4倍！终于有开源模型卷本地Agent执行效率了～

联系获取

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

Hermes Agent 出来了，聊聊它凭什么跟 OpenClaw 掰手腕

2026-03-30

很多人突然不玩小龙虾而用Hermes Agent了。我替你试了，跟小龙虾到底有啥不同？

2026-04-09

Google Gemma 4 开源｜全面解读

2026-04-03

字节跳动开源 DeerFlow 2.0：下一代超级 Agent 引擎，一键搞定复杂工作流！

2026-03-23

震惊！刚刚，Anthropic掀了桌子：OpenClaude横空出世，大模型闭源时代彻底终结？

2026-04-01

刚刚，Claude Code开源了！51万行代码，全网狂欢

2026-03-31

龙虾绝配：Qwen 3.5 27B！跑在家里，成本为 0

2026-03-30

Ollama 本地部署 Gemma 4 完全指南

2026-04-18

Google Gemini CLI 完整使用指南

2026-04-18

ollama v0.18.2 发布！OpenClaw 安装优化、Claude 加速、MLX 量化全面升级

2026-03-20

大家都在问

企业级 AI Agent 为什么集体转向“基座 + Skills”？

2026-05-30

Hermes Agent 深度解析：为什么它能“越用越懂你”？

2026-05-16

百度把Nano Banana塞进4090，疯了？

2026-04-22

Kimi K2.6 开源了！还附送了 300 个 Agent 员工？

2026-04-21

Hermes 凭什么两个月接棒 OpenClaw？

2026-04-15

很多人突然不玩小龙虾而用Hermes Agent了。我替你试了，跟小龙虾到底有啥不同？

2026-04-09

震惊！刚刚，Anthropic掀了桌子：OpenClaude横空出世，大模型闭源时代彻底终结？

2026-04-01

英伟达的NemoClaw，能帮AI代理这匹“野马”套上缰绳吗？

2026-03-17

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS Skill 提示词技巧 AI+电商 AI面试数字员工 ChatBI AI知识库开源大模型智能营销智能硬件 FDE AI+医疗 MaxKB Palantir Glean Openclaw