微信扫码
添加专属顾问
我要投稿
AutoGLM开源了!让AI真正学会使用手机,从点外卖到处理工作,解放你的双手。核心内容: 1. AutoGLM如何从"乱点"到"可控",实现稳定操作 2. 首个由AI完成的手机红包发送案例 3. 云手机方案确保AI操作的安全性与可审计性
我们想做的
到底是一件什么事
过去的很长时间,我们一直在回答同一个问题:
如果 AI 真的是“助手”,它能不能像人一样,自己把手机拿起来,把一件事从头做到尾?
在我们的想象里,AI 不该只停留在聊天框里,而是可以走进用户每天真正要点的那些 App 里:
AutoGLM 想做的,就是这件事:让 AI 真正学会“使用手机”。
32个月
我们具体做到了什么?
用一句简单的话来说:
我们希望 AutoGLM,不仅能“说”,还能“做”。
为了这一句话,我们从 2023 年 4 月——一个大多数人还不知道大模型是什么的时候,完全从零去探索每一个细节,到今天,已经 32 个月了。
在最开始的版本里,基于大模型所构建的系统只知道“点”、“滑”等操作,偶尔能完成一个很短的流程,更多时候会迷失在不知所谓的操作中,甚至陷入死循环。
为了解决这类问题,我们花了近一年的时间,去梳理每一个可能的问题,尝试把这些“乱点的手”变成一只“可控的手”:
2024 年 10 月 25 日,我们发布了第一个能够在真机上稳定完成一条完整操作链路的 AutoGLM,
它被业内视为全球首个具备 Phone Use 能力的 AI Agent。
2024 年 11 月,AutoGLM 发出了人类历史上第一个由 AI 完成的手机红包:不是脚本录制,不是内嵌 API 调用,而是通过在屏幕上“看见”界面、“理解”含义,一步一步完成点击。
对我们来说,这是一个信号:
从此以后,手机上的很多交互,第一次可以完全由 AI 接手。
2025 年,我们发布了 AutoGLM 2.0,验证了强化学习的规模扩展定律,提出了 MobileRL、ComputerRL 和 AgentRL 算法,让 AutoGLM 在上千个虚拟设备环境里同时强化学习,极大扩展了 Agent 的准确性和泛化能力。
更关键的是,我们不希望 Agent 直接在用户真实手机、真实微信上肆意操作,于是选择把它放进一台和用户真实世界脱离的虚拟手机里:
这套设计背后的直觉很简单:
让 AI 会用手机之前,我们要先保证,它不会在不该点的地方胡乱伸手。
除了云手机的选择,我们主动放弃了操作微信等这些离用户隐私较近的 APP。
为什么要开源?
我们真正在意的是什么?
从产品的角度,AutoGLM 已经可以支撑起很多真实场景;从工程的角度,AutoGLM的积累足够写成一大摞技术报告。
那为什么,在这个时间点,我们选择把它开源?
我们想清楚的,大概有三件事。
AI 手机已经是趋势,但如果“会用手机的 AI 能力”只掌握在极少数厂商手里,那意味着:
AutoGLM 开源的第一层初衷,是把这一层能力变成整个行业可以共同拥有、共同打磨的公共底座。
你可以把它当成一块积木,放进你自己的系统里,也可以把它拆开、重写、改造,那一刻起,它就不再只是“智谱的 AutoGLM”,而是你和你的团队做出来的东西的一部分。
我们也很清楚,Phone Use 能力,一旦做大,天然会碰到最敏感的那一部分世界:个人微信、支付、聊天记录、照片相册、企业内部系统。
我们不希望也不应该,把这些东西握在自己手里。
通过开源和私有化部署,企业和开发者可以在自己的合规环境中完整掌控数据、日志和权限。
可以让手机,成为专属自己的 AI 手机。
用一句话概括就是:
技术向整个生态开放,
数据与隐私,永远留在使用方这一侧。
在很多场景里都可以复用,也值得被复用。
但这还不够,“一花独放不是春”。Agent 的爆发,需要所有人一起参与。
我们更乐见的是:
我们希望开源社区:
从今天开始,人人都可以拥有自己的手机 Agent。
你现在能拿到什么
我们开源的,是一整套可以「拿来就用」的能力,而不仅仅是一份概念说明。
具体包括:
模型会以 MIT 开源许可证的形式开放,而所有代码会以 Apache-2.0 开源许可证的形式,托管在 GitHub 仓库(示例:github.com/zai-org/Open-AutoGLM)中。
你可以把它当成一套现成的基础设施,也可以单独拆用其中的某一部分,甚至可以把它改得面目全非——只要它帮助你更接近你心目中的「AI 原生手机」。
接下来
现在的 AutoGLM 不是一个完美的答案。真实世界的手机和应用,它还远远没有全部见过。未来的 AI 手机生态,也一定会有比我们今天想象得更惊喜的形态。
我们做的,只是把对“AI 会不会用手机”这个问题的一次完整回答,诚实地、原原本本地,交到你们手里。
在 2025 年尾的这个时刻,正如 Andrej Karpathy 所说,
从今天开始,人人都可以拥有自己的手机 Agent。我们面对的大概不只是“Agent 元年”,而更可能是“Agent 的十年”。
接下来,AutoGLM 团队会继续努力,让我们一起推动 Agent 开源和研究,那个梦想中的“贾维斯”,才会真的在我们人人身边出现。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2025-12-09
豆包手机不用买了?能操作手机的AutoGLM开源
2025-12-09
多模态文档智能解析模型进展-英伟达开源NVIDIA-Nemotron-Parse-v1.1
2025-12-09
11K+ Star!NotebookLM 最强开源平替来了,支持私有化部署!
2025-12-08
Docker+vLLM内网离线部署Qwen3教程
2025-12-08
Claude Code的最强记忆外挂来了!
2025-12-08
微软开源轻量级实时TTS模型!VibeVoice-Realtime-0.5B:实现多角色自然对话!
2025-12-06
100万亿Token画出AI版图|Claude吃掉编程60%,DeepSeek吃掉开源一半
2025-12-05
FluidMarkdown 正式发布 HarmonyOS 开源 Markdown 渲染引擎,为 AI 流式交互而生
2025-10-20
2025-11-19
2025-10-27
2025-10-27
2025-10-03
2025-09-17
2025-09-29
2025-10-29
2025-09-29
2025-11-17
2025-11-12
2025-11-10
2025-11-03
2025-10-29
2025-10-28
2025-10-13
2025-09-29
2025-09-17