免费POC,零成本试错

AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


AutoGLM 2.0 发布:给AI配个手机,自己点|附API

发布日期:2025-08-20 13:08:50 浏览次数: 1608
作者:赛博禅心

微信搜一搜,关注“赛博禅心”

推荐语

AutoGLM 2.0让AI拥有"手机操作能力",彻底打通物理与数字世界的壁垒,实现真正的智能生活助手。

核心内容:
1. AutoGLM 2.0的创新方案:为AI配备云手机解决APP互联难题
2. 中国特色的超级APP生态与AI破局之道
3. 3A原则下的全时智能服务与多场景应用案例

杨芳贤
53AI创始人/腾讯云(TVP)最具价值专家

长话短说:

智谱发布了 AutoGLM 2.0,给 AI 配了部手机,物理破壁互联网


让我们从一个简单的任务开始:查看我的自动续费项目

AutoGLM 打开了云端的支付宝,依次点击「我的」-「设置」-「支付设置」,再点「免密支付/自动扣款」,几秒钟后,它列出了所有的自动续费项目



中国特色的 APP 生态

兼容 APP 这件事,在中国有特殊意义,我们跨越了 PC 时代,跑步进入移动互联网,习惯了在 APP 里完成一切


Image

上线一个网站,需要进行很多备案

同时,网站需要备案,接入支付需要资质,小程序/公众号/平台网店反而更方便——于是所有服务都向超级平台聚集

最终形成了中国特色的互联网生态:全特么是大而全的超级 APP

我们的生活被深度绑定在这些 APP 里。电子发票在购物平台,审批流程在飞书,流水在微信/支付宝/银行 APP,公积金社保各有各的入口。这些 APP 的网页版要么功能残缺,要么根本不存在


Image

12306 电子发票

以出差报销为例,需要从航司 APP 下载行程单、发票,在 12306 查询火车票,切换到飞书提交审批,最后可能还要到财务系统查看进度,每个环节都需要人工操作

理论上,我们可以等待所有 APP 开放 API,实现互联互通。

但...我们都知道:这不现实

AutoGLM 选择了另一条路:既然 APP 不愿意为 AI 开门,那就让 AI 学会敲门


AI 解法:云手机

AutoGLM 的方案很巧妙:给 AI 配一部它自己的手机,让它操作

戴着智能眼镜,说一句「帮我点杯拿铁」,AI 就会在云端打开外卖 APP,定位到你的位置,下单,支付

打印机墨水快用完了?它能自动在京东下单新墨盒

车载系统里说一句话,就能预订今晚的酒店,查询沿途餐厅评价并下单,生成会议 PPT 并同步到邮箱。你无需分心操作手机,AutoGLM 在云端自动执行。智谱将这种能力封装成 API,任何设备都能接入

从 AI 眼镜到传统家电,它们首次具备了完整的「手机操作能力」

AutoGLM 让 AI 成为所有设备的「手」


云手机:巧妙的设计

AutoGLM 弄了一个云手机,以解决关键问题:

  • 不占屏幕:你可以一边让 AI 干活,一边继续刷抖音
  • 全天候运行:即使你睡着了,它也能继续执行任务
  • 跨设备接入:通过 API,任何设备都能调用这个能力

具体上,还有很多小巧思,比如需要扫码时,他会调用你的摄像头


Image

扫描登陆公众号后台

执行任务时,在云端独立运行


Image

吩咐他就好

然后...这里有个细节:云手机会模拟真实的系统状态,包括电池电量和充电状态。有些 APP 会检测运行环境,这种「拟真」让一切更顺畅。


Image

Image

你可以看到电量的降低

这里补充说一下,AutoGLM 的背后,是智谱「从 Agent 到 AGI 的 3A 原则」:

  • Around-the-clock(全时): 24 小时运行,即使用户离线,Agent 依然在执行任务
  • Autonomy without interference(自主零干扰): 独立运行,不占用用户屏幕与算力,平行世界的搭子
  • Affinity(全域连接): 跳出浏览器对话框,跨越手机、电脑、手表、眼镜、家电等设备,操作物理世界

在 Device Use 基准测试(涵盖手机、电脑和网页操作)中,AutoGLM 整体表现优于 ChatGPT Agent、UI-TARS-1.5 和 Claude 4 Sonnet


Image


现在能做什么

目前 AutoGLM 支持 40 多个高频应用,最擅长的是那些路径明确的任务


Image

Image

它能帮你完成日常琐事:比如“帮我在美团点杯瑞幸咖啡”、“查查明天北京到上海最早的航班”、“在贝壳找北京朝阳区 2500-3500 的合租房”,这些任务有明确的操作路径,AI 执行起来得心应手

但涉及复杂判断就会卡壳。比如「导出近三个月京东购物发票」这种需要精确筛选的任务,它还做不到。测试中还会遇到卡在登录页、理解错指令、重复执行同一操作的情况

这是早期产品的正常状态,很有突破,但不稳定


最后

被迫的,我们在手机上处理越来越多的任务:报销、填表、查账...


Image

Image

Image

上图都是体验最好的了,但还是很复杂

老年人会更难过,银行要求用 APP,医院要求线上挂号,政务要求扫码办理,然后各种 app 交互设计的良莠不齐(甚至说绝大多数一塌糊涂),让人抓狂

在这里,AutoGLM 把「人必须适应 APP」变成了「AI 帮人操作 APP」,让我不用戳来戳去找功能,真的很对

「万物互联」还遥遥无期时,让 AI 学会敲门,比等 APP 主动开门更现实


再最后,对于开发者来说,AutoGLM 移动端 API 申请渠道现已正式开放,支持在云端设备上完成复杂操作,允许多步任务与定制化智能工作流的构建

53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询