免费POC, 零成本试错
AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


我要投稿

重塑人机交互:深度解析智谱 Open-AutoGLM 的技术底座与演进之路

发布日期:2025-12-31 18:13:44 浏览次数: 1525
作者:智见AGI

微信搜一搜,关注“智见AGI”

推荐语

智谱科技开源手机Agent系统OpenAutoGLM,带你了解从"对话"到"行动"的技术跃迁。

核心内容:
1. OpenAutoGLM的技术架构与运行机制解析
2. AutoGLM演进历程中的三大关键里程碑
3. 手机Agent面临的现实挑战与未来发展方向

杨芳贤
53AI创始人/腾讯云(TVP)最具价值专家

过去一年,Agent 成为大模型领域最活跃的研究方向之一。从代码 Agent、数据分析 Agent,到 Web Agent 与多模态 Agent,模型正逐步“跳出 Chat 对话框”转向“做事情”。在这一趋势下,手机 Agent 作为一个更贴近真实用户场景的方向,开始受到越来越多关注。


2025 年 12 月 1 日,字节跳动旗下豆包团队发布了“豆包手机助手技术预览版”,并配合努比亚 M153 工程样机展示了基于自然语言完成搜索、下单、支付等跨 App 任务的能力。然而在随后的使用中,微信和银行类应用陆续对该助手的访问进行限制,字节跳动也宣布限制豆包手机在刷分、刷激励、金融类应用使用和部分游戏场景的使用。


仅在豆包手机发布 约一周后(12 月 9 日),智谱科技宣布将其核心手机 Agent 系统 AutoGLM 正式开源(OpenAutoGLM),把完整的 Phone Agent 技术体系开放给开发者。这一时间点上的连续事件,使手机 Agent 的技术路径与工程实现第一次以开源形式完整呈现在公众面前。



下面,我们从技术角度深入走进 OpenAutoGLM。



Open-AutoGLM 简介



Open-AutoGLM 是一款基于 AutoGLM 构建的开源手机端智能助理框架,其使用的 AutoGLM-Phone-9B 模型已经随代码同时开源,现已支持安卓、鸿蒙和 iOS 设备运行。


其连接与运行逻辑为:需通过一台 PC 设备运行 Agent 程序,搭配远程或本地部署的模型服务,借助 ADB (Android Debug Bridge) /HDC (HarmonyOS Device Connector) 工具实现对手机的控制,也就是说,当前OpenAutoGLM的使用还不能在手机上离线运行。


作为一个 AI 智能体,该框架的核心 Phone Agent 会以 “截图感知 - 意图解析 - 动作规划 - 操作执行” 的闭环机制响应自然语言指令。目前已兼容 50 余款主流中文应用和多款外国应用。



在操作执行阶段,OpenAutoGLM可以执行例如点击屏幕、输入文本、滑动、返回、长按和双击等操作。系统还内置敏感操作确认机制,并支持在登录或验证码场景下进行人工接管。




AutoGLM 技术演进



从2023年4月的初步探索到如今的全面开源,AutoGLM 的历程是一场从“让AI学会说话”到“让AI学会行动”的范式转移。以下是 AutoGLM 演进过程中的三个关键里程碑:


1.AutoGLM 1.0:从GUI感知到“首个数字红包”


2024年10月,AutoGLM 1.0 正式发布并提交奠基性论文《AutoGLM: Autonomous Foundation Agents for GUIs》,解决了 Agent 在真实设备上运行不稳定的难题。这一阶段标志着项目从 “演示级” 向 “工程级” 跨越,核心策略包括能力解耦与自进化强化学习:


  • 能力解耦(Intermediate Interface)将 规划(Planning) 与 落地执行(Grounding) 拆分,提升系统稳定性并在 WebArena-Lite 等复杂任务带来超 17% 的性能增益;


  • 自进化强化学习(WebRL):引入 WebRL 策略,让模型从失败中持续进化,在真实交互环境中表现领先。


11 月,AutoGLM 完成人类历史上首个由 AI 自动发送的 “数字红包”,通过像人一样观察屏幕、理解界面并逐步操作,证明了其在真实动态 App 环境中的生存能力。



2.AutoGLM 2.0:强化学习的质变与云端沙箱


2025年8月20日,AutoGLM 2.0 以规模化学习为核心,验证了强化学习在 Agent 领域的 Scaling Laws,推出 MobileRL、ComputerRL 等算法,让 Agent 能在数千个虚拟环境中同步进化,泛化能力与操作精度显著提升。同时引入 “云端虚拟手机” 架构,Agent 在沙箱中运行,操作可审计回溯,既解决隐私泄露问题,也为大规模部署提供安全底座。


3.Open-AutoGLM:走向公共基础设施


2025年12月9日,AutoGLM 全面开源,不仅公开核心模型(如 9B 参数手机端专用模型),还开放包含 50 多个高频 App 适配层的工具链。基于 MIT/Apache-2.0 协议,开发者可将其 “Phone Use” 能力集成到自有系统,使 AutoGLM 从研究项目转变为 “AI Native Phone” 时代的公共底座,加速 Agent 技术发展进程。



Phone Agent 的工作流程:从“看屏幕”到“完成任务”的一次完整闭环



下面是我用Open-AutoGLM,在小红书中解读了一篇笔记的全过程。Agent 先打开小红书APP,然后点击搜索,键入内容,选择推荐的搜索选项,点开帖子,滑动屏幕浏览,最终生成总结,准确地完成了我想要的操作。全过程花费了不到2分钟,决策与执行的过程也比较顺畅和自然。



OpenAutoGLM 的 Phone Agent 是一个围绕 感知 → 决策 → 执行 → 反馈 构建的稳定自治闭环系统。其整体运行逻辑集中在 PhoneAgent.run() 与 _execute_step() 所组成的主循环中 。


1.环境感知:实时获取真实手机状态


每一轮决策的起点,Agent 都会从真实设备采集当前状态,包括对当前屏幕进行屏幕截图、获取前台应用信息:


screenshot = device_factory.get_screenshot(self.agent_config.device_id)current_app = device_factory.get_current_app(self.agent_config.device_id)


这一步构成 Agent 的“环境观测”,同时提供视觉输入与结构化状态描述,为后续推理提供真实世界上下文 。


2.多模态上下文构建:将任务与环境统一输入模型


采集完状态后,Agent会先对截图进行初步解析,然后汇总系统提示词、用户目标、采集到的截图、截图信息以及之前的操作结果,给大模型构建上下文。构建好的上下文会作为大模型的输入。


if is_first:    self._context.append(MessageBuilder.create_system_message(self.agent_config.system_prompt))
screen_info = MessageBuilder.build_screen_info(current_app)text_content = f"** Screen Info **\n\n{screen_info}"self._context.append(    MessageBuilder.create_user_message(text=text_content, image_base64=screenshot.base64_data))


3.决策生成与动作解析:规划与执行解耦


模型返回后,系统并不直接执行自然语言,而是先强制解析为结构化 action:


response = self.model_client.request(self._context)...action = parse_action(response.action)


这一层即工程化的“中间接口”,实现了 模型只负责“想什么”,系统负责“怎么做” 的稳定分工 。


4.动作执行与风险控制


解析后的动作交由 ActionHandler 在真实设备上执行:


result = self.action_handler.execute(action, screenshot.width, screenshot.height)


如果动作执行中包含需要人工确认或接管的步骤,系统会通过 ActionHandler 接口将操作权交给人工处理。这一过程从系统层面为复杂操作提供风险控制机制 。


ActionHandler(..., confirmation_callback, takeover_callback)


5.反馈写回与上下文瘦身


执行完成后,Agent 将模型思考与动作结果写回上下文:


self._context.append(    MessageBuilder.create_assistant_message(        f"<think>{response.thinking}</think><answer>{response.action}</answer>"    ))


同时删除历史消息中的图片,仅保留语义信息以控制上下文规模:


self._context[-1] = MessageBuilder.remove_images_from_message(self._context[-1])


这一设计使 Agent 能在长任务中保持稳定运行而不发生上下文膨胀 。


至此,一次从真实屏幕感知 → 自主决策 → 稳定执行 → 反馈修正的完整 Phone Agent 工作闭环完成。



个人观察与思考:手机 Agent 还在长坡厚雪上



技术层面,AutoGLM 堪称当前手机 Agent 领域完整且成熟的系统实践。其核心优势在于无需改造 App 接口、无需依托平台合作,而是通过多模态视觉理解与操作规划,直接模拟人类手机操作流程,得以在不打通应用生态的前提下执行复杂任务,从工程上有效绕开了早期手机 Agent 面临的 “大厂围墙” 难题。


AutoGLM 绝非临时拼接的方案,而是长期技术积累近一年多模态模型能力跃迁的双重成果。过去一年,模型在屏幕理解、UI 定位、视觉语义对齐等方面实现质的提升,叠加智谱两年前布局的视觉理解、任务规划、错误恢复等能力的深度整合,首次让模型具备在真实手机环境中稳定执行长链路复杂任务的能力,打破了演示级操作的局限。从系统完整度与技术深度来看,AutoGLM 已跻身手机 Agent 技术第一梯队。


智谱开源 OpenAutoGLM,在开发者体验与技术探索层面成效显著,为社区提供了可复现、可扩展的技术基座。但迈向生产级应用仍存明显瓶颈:对未知 App 及系统版本适配不足、依赖外部设备与云端协同、手势操作类型有限,这些问题共同构成了从 “技术可用” 到 “产品可用” 的现实鸿沟。


关于端侧 AI:三大能力与现实约束


从长期演进视角看,端侧 AI 的价值可以概括为三点:隐私、断网可用与个性化


  • 隐私层面,手机 Agent 面临突出挑战:其需持续读取含高密度敏感信息的屏幕,且当前 AutoGLM 推理多依赖云端,即便私有化部署,网络传输链路也会扩大隐私风险。这是现阶段技术架构的客观状态,随着模型端侧迁移与隐私前置处理能力增强,隐私保护有明确的工程演进方向。


  • 断网可用的实现同样存在瓶颈:真正的离线能力需模型稳定运行于本地,而当前 9B 全精度模型已逼近手机算力极限;未来即便推出量化版本,也需直面精度下降与工具调用能力退化的风险。可见,离线能力并非单点突破,而是端侧算力提升与模型压缩技术长期协同演进的结果。


  • 个性化是端侧 AI 最具潜力也最具挑战的维度。理论上,个性化依托持续学习或长期记忆机制,但前者缺乏成熟方案,后者受限于 AutoGLM 的现有设计 —— 系统为控制上下文规模与推理成本,每轮循环后会清理截图信息,削弱了长期可追溯性,甚至用户每个指令执行结束都会清除所有操作记录,这限制了用户画像与行为偏好的稳定建模。这一问题并非无解,只是仍需时间与技术积累逐步攻克。


综合来看,端侧 AI 的演进路径正在逐步清晰:


  • 一方面通过模型压缩推动本地闭环能力;

  • 另一方面通过端云协同在保护隐私的前提下利用云端算力扩展能力边界。


而在产品化上,真正的难题不在于“能不能跑”,而在于是否能够在当前算力的边界和用户使用习惯下,以长期、低干扰、稳定的方式运行模型。对于用户来说,手机本身承载了一部分应用程序的使用,留给大模型的算力和内存也只有APP使用的冗余部分了。这不仅是模型问题,更是系统工程问题,也将是手机 Agent 走向成熟必须跨越的长期门槛。



人机交互范式的长期重构


手机 Agent 的发展最终触及一个更深层的问题:人机交互范式本身正在发生变化。


今天的大多数 APP,交互主体默认是“人”。功能设计、激励机制与权限体系均围绕人类行为构建。当 AI 以“外挂”的方式直接模拟点击、滑动与输入时,应用系统往往将其视为异常使用并加以限制。这并非单纯的技术对抗,而是交互主体变化带来的规则错位:当“机器用户”进入系统,原本仅为人类设计的规则体系需要被重新审视。


因此,明确 AI 的操作边界 变得尤为关键。以购物 APP 为例,AI 帮忙比价、计算优惠、筛选折扣,本质是信息处理与决策辅助,人类手动也可完成,未触及 APP 功能设计边界,属于合理智能辅助。但若让 AI 自动 “看视频领红包”,则会绕过该功能提升用户停留时长、促进转化的商业初衷,破坏应用生态规则,自然会被当作外挂阻止。


AI Agent 的普及并非简单地“替人点屏幕”,而是需要在应用、平台与 Agent 之间逐步形成新的交互契约。哪些行为属于合理辅助,哪些行为触及应用边界,这一界线只能通过长期磨合逐步形成,并最终塑造新的交互范式。



可能的未来走向



OpenAutoGLM 的开源是手机 Agent 领域的重要里程碑,而非终点。它提供了完整可复现的技术起点,标志着该方向进入更开放、密集的探索阶段,将加速相关研究与产品实践,催生更多基于开源生态的手机端 AI 产品。


技术层面,短期内核心演进聚焦三大方向:模型压缩与端侧算力协同优化、本地与云端能力分工、个性化机制构建。多模态模型能力提升将推动复杂界面理解与跨应用规划成功率升级,端侧算力与系统调度进步则决定能力落地形态。


交互层面,AI 不会长期作为 “外挂” 存在,应用、平台与 Agent 将形成新交互契约,明确操作边界与协作方式,让 AI 成为人机交互体系的自然参与者。


长远来看,手机 Agent 的成熟是模型、算力、系统工程与人机交互范式的协同演进过程,虽漫长复杂、充满试错,但终将指向更自然高效的人机协作形态,发展方向愈发清晰。


53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询