微信扫码
添加专属顾问
我要投稿
轻松打造你的AI手机助手,解放双手告别低效重复劳动!核心内容: 1. AI手机部署的三大关键步骤与环境搭建 2. 所需模型工具清单与配置要求详解 3. 从Python安装到完整运行的保姆级图文教程
大家好,我是已经摆烂了好几天的冷逸。
今天上号了,给大家带来一篇 AI手机 的部署教程,手把手教学,教不会退网。
最近我开始琢磨 ROI 的事情,不知道是在哪个地方看到了这样一句话:提高自己高 ROI 的付出,减少自己低 ROI 的内耗。
ROI 是什么?投资回报率。在一些低价值的地方内耗自己、禁锢自己,不值当。比如,预定会议发给领导,全网搜同款商品比价,规划行程并同步到社交账户。
我就想,这些事为什么不能交给 AI 呢?
于是我折腾了好几天,今天给大家带来了答案,先看效果。
我让 AI 给我预定今天的会议,并把会议链接发到工作室群里。左边是真机的执行效果,右边是AI跑的全过程。
所有过程,0接管,全自动。
为了防止有人杠,我还录了几段视频。
这种看着手机自己干活的感觉,像极了当初老板在办公室看我干活的样子,有一种莫名的爽感
。
对了,这里面的所有数据都是在本地跑的,不上网,非常安全。
一手教程
怎么做的?先简单说一下要用到的模型、环境、工具以及关键步骤。
跟大象装进冰箱一样,这个 AI手机 的部署也是分为三步:
需要用到的模型和工具有:
看到这里,先别方。接下来,我会逐字逐句的详细讲解,并全程配有演示截图。
0)安装Python环境
首先,要确保自己安装得有3.12以上版本的 Python 。
可以先在命令行里输入这段命令,查看你的Python版本号。
python --version什么?你不知道什么是命令行界面(CLI),也不知道在哪里调用?
行,我今天就教你一个 coding 秘籍,在任意文件夹的地址栏里输入 cmd ,可以快捷调用命令行(这点记住了,后面要考),然后在这个“黑底代码框”里输入 python --version 就可以查看版本号了。
当然,高手是按Win+R键直接调出运行框,输入cmd进入。
对了,本文大部分我都是以 Windows 视角来讲的,苹果电脑也基本差不多,把一些关键按键替换一下就好了。
如果已安装了 Python(已装过Trae、VS code、Claude Code的,大概率都装过Python),命令行会这样显示。
如果没有安装 Python,推荐使用 miniforge 来安装。安装过程需要注意勾选,并将 conda 加入 path 的选项(后面会讲如何设置变量),以确保 conda 能够被正确激活。
详细过程见Install部分:
https://github.com/conda-forge/miniforge
安装后需要激活 conda,在 powershell (按Win+R输入powershell)输入:
conda init powershellSet-ExecutionPolicy -ExecutionPolicy RemoteSigned -Scope CurrentUser
注意!别把#里面的内容一起复制了
,那是解释这段命令的。
Mac 和 Linux 用户,则用这个命令下载并安装 miniforge:
curl -L -O "https://github.com/conda-forge/miniforge/releases/latest/download/Miniforge3-$(uname)-$(uname -m).sh"bash Miniforge3-$(uname)-$(uname -m).sh
安装完成后,新建并激活一个 Python 环境:
conda create -n gelab-zero python=3.12 -yconda activate gelab-zero
1)搭建大模型推理环境
安装好 Python 环境后,接下来就是在你的电脑里装一个大模型,让它能够对手机的 GUI 界面进行识别、推理。
一般,本地大模型的部署主要通过 Ollama 和 vllm。Ollama 适合个人,vllm 适合企业或有一定技术背景的人。
我知道,你肯定只想了解 Ollama。
跟大象装进冰箱一样,Ollama 就是大模型的冰箱,它把大模型分配到 GPU/CPU 里进行运算、干活。
记得,一定要让Ollama开着,不能关掉。别问为什么,因为我吃过亏——我把 Ollama 从后台关掉了,然后 CLI 那边就拼命报错……
安装 Ollama,非常简单。直接前往ollama.com,下载安装,就可以了。
装好后,记得设置一下Ollama的本地模型文件夹,别让它默认放在C盘。不然你C盘要爆的。
然后,下载并部署 gelab-zero-4b-preview 模型,建议通过 huggingface cli的方式下载。
如果没有安装过huggingface cli,先执行这个命令:
pip install huggingface_hub然后,从huggingface下载gelab-zero-4b-preview 模型权重,命令是:
hf download --no-force-download stepfun-ai/GELab-Zero-4B-preview --local-dir gelab-zero-4b-preview模型下载好了,是这样的页面。
接着,将模型导入到Ollama。先输入这个命令。
cd gelab-zero-4b-preview再输这个命令:
ollama create gelab-zero-4b-preview -f Modelfile这里,可能大部分人都会报错,这是因为Ollama.exe地址不对。
建议自己在C盘找或者搜一下Ollama.exe这个文件,一般在AppData文件夹下的Local文件夹里。
找到后,复制这段路径。
然后重新输入命令:
C:\Users\Administrator\AppData\Local\Programs\Ollama\Ollama.exe create gelab-zero-4b-preview -f Modelfile模型数据就开始往Ollama导了。
4B模型,建议GPU在12GB以上,跑得比较顺畅。当然,8G也能跑,就是会有点慢。
如果GPU算力不够,建议你做一些量化处理。
# 使用int8 精度量化模型(精度损失较小,模型尺寸变为4.4G ):ollama create -q q8_0 gelab-zero-4b-preview# 使用int4 精度量化模型(精度损失较大,模型尺寸变为2.2G ):ollama create -q Q4_K_M gelab-zero-4b-preview# 换回原始精度:ollama create -q f16 gelab-zero-4b-preview
等它导入完成后,模型就安装好了。已经可以在Ollama里用了。
打开Ollama,可以看到模型里多了一个“gelab-zero-4b-preview”,你可以随便问几个问题测试一下。
它能正常吐token,那就代表gelab-zero-4b-preview模型已部署成功。
u1s1,阶跃这个GUI模型是真滴强,在多个GUI bench上拿到SOTA表现。
而且,才4B,非常实用,非常平民了。
2)搭建安卓设备执行环境
有了Python环境,也有了本地模型,接下来就是给手机和电脑牵线搭桥了,这一步很关键。
简单来说就是,一在手机里打开开发者模式,二在电脑里安装ABD工具。这样,就能够通过电脑直接操作手机/模拟器。
首先,打开一台任意的安卓机,进入「设置」页面。
找到「我的设备」或「关于手机」选项,狂点版本号5次以上,直到出现“您已处于开发者模式”为止。
然后返回「设置」页面,找到或搜索「开发者选项」,点击进入。
在「开发者选项」中,找到并开启「USB调试」功能。接下来,屏幕会出现一些重要提示,全部同意。
接下来,给电脑安装ABD(Android Debug Bridge,安卓调试桥)工具,它是链接电脑与 Android 设备的通信渠道。
Windows用户,直接下载ABD工具压缩包,然后解压并加入系统环境变量即可。
下载地址:
https://dl.google.com/android/repository/platform-tools-latest-windows.zip
如何设置环境变量呢?跟大象装进冰箱一样还是分为三步。
首先,找到电脑的「高级系统设置」。
其次,点「环境变量」,找到「Path」变量。
然后,编辑Path变量,点「新建」创建一个新变量,把你的ABD工具压缩包地址添加进来就可以了。
之后,陆续点「确定」,保存更改,关闭页面。
Mac或Linux用户的话,则建议通过 Homebrew(Mac)或系统自带包管理器(Linux)来安装 ADB 工具。
如果没有安装 Homebrew,可以先执行:
ruby -e $(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/master/install)然后,输入命令安装 ADB 工具:
brew cask install android-platform-tools到这里,手机的开发者模式和电脑的ADB工具都搞定了。
接下来,用USB数据线将手机链接到电脑,然后在命令行里输入:
adb devices如果链接成功,你会看到这样的提示。
首次链接,手机上会出现这样一段提示,点「确定」即可。
3)搭建GELab-Zero Agent 运行环境
模型配好了,电脑与手机的连接器也弄好了,接下来就是搭建模型的运行环境,也就是GUI Agent。
阶跃已经把这个GUI智能体封装好了,并且还做了开源,我们只需要克隆过来就可以了。
打开CLI输入命令:
git clone https://github.com/stepfun-ai/gelab-zero这一步可能会比较慢(GitHub比较考验上网环境),耐心等一下。
克隆完成后,输入命令进入gelab-zero agent。
cd gelab-zero安装一下依赖。
pip install -r requirements.txt安装完成后,它会这样显示。
到此,就可以正常使用了。使用命令参考:
python examples/run_single_task.py 你的任务比如,我们让它预定一个会议,并把会议链接分享到微信群。
python examples/run_single_task.py 打开腾讯会议,预定12月31日0点0分的会议,然后把会议链接分享到微信群“冷逸工作室”。AI就开始自己在手机上跑起来了。
它会识别手机的每个界面,然后一步步地往下走。
这个任务一共执行了14步,我把完整的工作记录放在这里了。
(可上下滑动,查看全图)
4)搭建轨迹可视化环境(可选)
所有的任务轨迹,都会默认保存在 running_log/server_log/os-copilot-local-eval-logs/ 目录下。
如果你想查看任务轨迹,可以使用 streamlit 来对轨迹进行可视化。
先输入命令:
cd gelab-zero然后输入命令:
# 如果想让局域网内其他设备也能访问,输入这段命令:streamlit run --server.address 0.0.0.0 visualization/main_page.py --server.port 33503# 如果只想在本机访问,使用以下命令:streamlit run --server.address 127.0.0.1 visualization/main_page.py --server.port 33503
然后,在浏览器中访问http://localhost:33503,输入session ID即可查看任务的工作过程。
每次任务执行都会生成唯一的 session ID,在任务结束后可以得到。
5)llama部署(可选)
阶跃的Step GUI,也支持llama.cpp部署。
详细参考阶跃在Github上的教程:
https://github.com/stepfun-ai/gelab-zero/blob/main/README_CN.md
llama部署后,可以在Jan等任意支持llama的本地客户端里拉起API服务。
6)MCP配置(可选)
如果你嫌本地模型慢,想用云端模型,也可以把GELab-Zero Agent封装成MCP server,在其他客户端里调用MCP进行使用。
先启动gelab-zero。
cd gelab-zero然后打开MCP服务。
python mcp_server/detailed_gelab_mcp_server.py你如果看到了这样的界面,就代表MCP Server配置好了。
接下来,在Chabot等客户端中直接调用MCP Server就行。
比如,MCP用Gelab-MCP-Server,模型用GPT-5.1,这速度、质量简直起飞。
这种端云协同带来的好处是,它可以在保障隐私安全的同时,极大程度地拓展 GUI Agent 的能力边界。
云端大模型专注高级规划和复杂意图理解,本地模型负责具体GUI执行和原子操作,以确保所有具体操作和执行轨迹都留在本地。
这对于企业来说,非常重要。
更多用例
阶跃的Step GUI系列模型,既包括端侧模型Step-GUI Edge(原GELab-Zero-4B)、云侧模型(Step-GUI ),也包含MCP协议,支持的场景非常丰富,可在200个APP中顺利执行,是同类模型的4倍。
给大家看一些其他开发者搓的用例。
在多个电商平台搜同款比价。
规划周末的旅行计划,并同步到社交账户。
自动发公众号文章(by好友@Brad强)。
最有意思的是,有个叫@图图 的开发者给机械手接上Step-GUI模型,让它自己边玩手机边刷抖音,这是GUI直接进入物理世界了。
这种通过外接具身智能的方式,可以跳过很多终端的权限,有着更高的自由度。
是不是还挺有趣的,现在就想手搓一个?建议你立即行动起来!
不到半小时,就能搓出一部自己的AI手机。
如果你觉得步骤麻烦,不想自己动手,也可以直接调用他们的Step-GUI Chat API接口。
API Key: xxxxxxxxBase URL: https://api.stepfun.com/v1Model Name: step-gui
目前,API正限时免费体验中。
API接入指引:
https://ai.feishu.cn/wiki/BfVHwghPdiyp2ckS3HfcJZAmnsc
写在最后
今天,Manus作价数10亿美元卖给Meta,创下了Meta第三大收购的纪录。
大半个AI圈都在庆祝,这验证了Agent领域有着极大的市场,而且是一个全新的蓝海市场。GUI Agent作为消费终端Agent的重要形态,同样有着不可估量的市场空间。
而且,它是AI Agent能否真正实现“智能代理”的关键。
阶跃星辰这次开源的Step-GUI系列模型,既有GUI基模,也有GUI Agent,还支持MCP、API(限时免费中)。我感觉它是接入门槛最低的,也是生态最全的,拉起了GUI从“模型-应用”的整个流程。
这波开源真的很赞,值得大家的Star。
开源地址:
https://github.com/stepfun-ai/gelab-zero
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2025-12-28
GELab-Zero ,4B 小模型,轻松把你手机变成 AI 手机,实在太强了
2025-12-28
从豆包手机助手看GUI Agent发展:从实验室到手机,AI开始真正“动手”操作世界
2025-12-25
强强联手!MinerU携手沐曦完成适配,曦云C500推理性能加速60%
2025-12-23
AI 操控手机,在极空间NAS部署类“豆包手机助手”... 支持安卓/IOS/模拟器
2025-12-23
钉钉A1,摸到了语音AI 的“命门”:一个开放平台正在形成
2025-12-22
京东金融鸿蒙端部署AI超分模型实践
2025-12-22
基于 GPU 及 vLLM 加速大模型推理实用技术分享(实践+案例)
2025-12-21
小智AI 如何自定义唤醒词+背景图:原理+流程拆解
2025-12-05
2025-11-09
2025-10-13
2025-10-27
2025-12-09
2025-10-24
2025-12-01
2025-12-08
2025-11-17
2025-12-01