免费POC, 零成本试错
AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


我要投稿

只需3步,教你部署自己的AI手机 | 保姆级教程

发布日期:2025-12-31 12:07:19 浏览次数: 1515
作者:沃垠AI

微信搜一搜,关注“沃垠AI”

推荐语

轻松打造你的AI手机助手,解放双手告别低效重复劳动!

核心内容:
1. AI手机部署的三大关键步骤与环境搭建
2. 所需模型工具清单与配置要求详解
3. 从Python安装到完整运行的保姆级图文教程

杨芳贤
53AI创始人/腾讯云(TVP)最具价值专家

大家好,我是已经摆烂了好几天的冷逸。

今天上号了,给大家带来一篇 AI手机 的部署教程,手把手教学,教不会退网。

最近我开始琢磨 ROI 的事情,不知道是在哪个地方看到了这样一句话:提高自己高 ROI 的付出,减少自己低 ROI 的内耗。

ROI 是什么?投资回报率。在一些低价值的地方内耗自己、禁锢自己,不值当。比如,预定会议发给领导,全网搜同款商品比价,规划行程并同步到社交账户。

我就想,这些事为什么不能交给 AI 呢?

于是我折腾了好几天,今天给大家带来了答案,先看效果。

我让 AI 给我预定今天的会议,并把会议链接发到工作室群里。左边是真机的执行效果,右边是AI跑的全过程。

所有过程,0接管,全自动

为了防止有人杠,我还录了几段视频。

这种看着手机自己干活的感觉,像极了当初老板在办公室看我干活的样子,有一种莫名的爽感

对了,这里面的所有数据都是在本地跑的,不上网,非常安全。

一手教程

怎么做的?先简单说一下要用到的模型、环境、工具以及关键步骤。

跟大象装进冰箱一样,这个 AI手机 的部署也是分为三步:

  • 1、搭建大模型推理环境(小白建议用Ollama,高手用vllm)。

  • 2、搭建安卓执行环境(抱歉,尊贵的iOS用户暂时还不能体验)。

  • 3、搭建GUI Agent运行环境

需要用到的模型和工具有:

  • 0、前置环境:Python。

  • 1、推理模型:GELab-Zero-4B-preview,来自阶跃星辰,非常能打的GUI模型。

  • 2、模型运行:Ollama。

  • 3、安卓连电脑的工具:ADB。

  • 4、运行Agent:GELab-Zero Agent(支持MCP),也是阶跃出品。

  • 5、电脑配置:GPU≥8GB。

  • 6、一根USB数据线。

看到这里,先别方。接下来,我会逐字逐句的详细讲解,并全程配有演示截图。

0)安装Python环境

首先,要确保自己安装得有3.12以上版本的 Python 

可以先在命令行里输入这段命令,查看你的Python版本号。

python --version

什么?你不知道什么是命令行界面(CLI),也不知道在哪里调用?

行,我今天就教你一个 coding 秘籍,在任意文件夹的地址栏里输入 cmd ,可以快捷调用命令行(这点记住了,后面要考),然后在这个“黑底代码框”里输入 python --version 就可以查看版本号了。

当然,高手是按Win+R键直接调出运行框,输入cmd进入。

对了,本文大部分我都是以 Windows 视角来讲的,苹果电脑也基本差不多,把一些关键按键替换一下就好了。

如果已安装了 Python(已装过Trae、VS code、Claude Code的,大概率都装过Python),命令行会这样显示。

如果没有安装 Python,推荐使用 miniforge 来安装。安装过程需要注意勾选,并将 conda 加入 path 的选项(后面会讲如何设置变量),以确保 conda  能够被正确激活。

详细过程见Install部分:

https://github.com/conda-forge/miniforge

安装后需要激活 conda,在 powershell (按Win+R输入powershell)输入:

# 在 powershell 中激活condaconda init powershell
# 允许conda 脚本随powershell 启动Set-ExecutionPolicy -ExecutionPolicy RemoteSigned -Scope CurrentUser

注意!别把#里面的内容一起复制了,那是解释这段命令的。

Mac 和 Linux 用户,则用这个命令下载并安装 miniforge:

curl -L -O "https://github.com/conda-forge/miniforge/releases/latest/download/Miniforge3-$(uname)-$(uname -m).sh"bash Miniforge3-$(uname)-$(uname -m).sh

安装完成后,新建并激活一个 Python 环境:

conda create -n gelab-zero python=3.12 -yconda activate gelab-zero

1)搭建大模型推理环境

安装好 Python 环境后,接下来就是在你的电脑里装一个大模型,让它能够对手机的 GUI 界面进行识别、推理。

一般,本地大模型的部署主要通过 Ollama 和 vllm。Ollama 适合个人,vllm 适合企业或有一定技术背景的人。

我知道,你肯定只想了解 Ollama。

跟大象装进冰箱一样,Ollama 就是大模型的冰箱,它把大模型分配到 GPU/CPU 里进行运算、干活。

记得,一定要让Ollama开着,不能关掉。别问为什么,因为我吃过亏——我把 Ollama 从后台关掉了,然后 CLI 那边就拼命报错……

安装 Ollama,非常简单。直接前往ollama.com,下载安装,就可以了。

装好后,记得设置一下Ollama的本地模型文件夹,别让它默认放在C盘。不然你C盘要爆的。

然后,下载并部署 gelab-zero-4b-preview 模型,建议通过 huggingface cli的方式下载。

如果没有安装过huggingface cli,先执行这个命令:

pip install huggingface_hub

然后,从huggingface下载gelab-zero-4b-preview 模型权重,命令是:

hf download --no-force-download stepfun-ai/GELab-Zero-4B-preview --local-dir gelab-zero-4b-preview

模型下载好了,是这样的页面。

接着,将模型导入到Ollama。先输入这个命令。

cd gelab-zero-4b-preview

再输这个命令:

ollama create gelab-zero-4b-preview -f Modelfile

这里,可能大部分人都会报错,这是因为Ollama.exe地址不对。

建议自己在C盘找或者搜一下Ollama.exe这个文件,一般在AppData文件夹下的Local文件夹里。

找到后,复制这段路径。

然后重新输入命令:

C:\Users\Administrator\AppData\Local\Programs\Ollama\Ollama.exe create gelab-zero-4b-preview -f Modelfile

模型数据就开始往Ollama导了。

4B模型,建议GPU在12GB以上,跑得比较顺畅。当然,8G也能跑,就是会有点慢。

如果GPU算力不够,建议你做一些量化处理。

# 使用int8 精度量化模型(精度损失较小,模型尺寸变为4.4G ):ollama create -q q8_0 gelab-zero-4b-preview 
# 使用int4 精度量化模型(精度损失较大,模型尺寸变为2.2G ):ollama create -q Q4_K_M gelab-zero-4b-preview
# 换回原始精度:ollama create -q f16 gelab-zero-4b-preview

等它导入完成后,模型就安装好了。已经可以在Ollama里用了。

打开Ollama,可以看到模型里多了一个“gelab-zero-4b-preview”,你可以随便问几个问题测试一下。

它能正常吐token,那就代表gelab-zero-4b-preview模型已部署成功。

u1s1,阶跃这个GUI模型是真滴强,在多个GUI bench上拿到SOTA表现。

而且,才4B,非常实用,非常平民了。

2)搭建安卓设备执行环境

有了Python环境,也有了本地模型,接下来就是给手机和电脑牵线搭桥了,这一步很关键。

简单来说就是,一在手机里打开开发者模式,二在电脑里安装ABD工具。这样,就能够通过电脑直接操作手机/模拟器。

首先,打开一台任意的安卓机,进入「设置」页面。

找到「我的设备」或「关于手机」选项,狂点版本号5次以上,直到出现“您已处于开发者模式”为止。

然后返回「设置」页面,找到或搜索「开发者选项」,点击进入。

在「开发者选项」中,找到并开启「USB调试」功能。接下来,屏幕会出现一些重要提示,全部同意。

接下来,给电脑安装ABD(Android Debug Bridge,安卓调试桥)工具,它是链接电脑与 Android 设备的通信渠道。

Windows用户,直接下载ABD工具压缩包,然后解压并加入系统环境变量即可。

下载地址:

https://dl.google.com/android/repository/platform-tools-latest-windows.zip 

如何设置环境变量呢?跟大象装进冰箱一样还是分为三步。

首先,找到电脑的「高级系统设置」

其次,点「环境变量」,找到「Path」变量。

然后,编辑Path变量,点「新建」创建一个新变量,把你的ABD工具压缩包地址添加进来就可以了。

之后,陆续点「确定」,保存更改,关闭页面。

Mac或Linux用户的话,则建议通过 Homebrew(Mac)或系统自带包管理器(Linux)来安装 ADB 工具。

如果没有安装 Homebrew,可以先执行:

ruby -e $(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/master/install)

然后,输入命令安装 ADB 工具:

brew cask install android-platform-tools

到这里,手机的开发者模式和电脑的ADB工具都搞定了。

接下来,用USB数据线将手机链接到电脑,然后在命令行里输入:

adb devices

如果链接成功,你会看到这样的提示。

首次链接,手机上会出现这样一段提示,点「确定」即可。

3)搭建GELab-Zero Agent 运行环境

模型配好了,电脑与手机的连接器也弄好了,接下来就是搭建模型的运行环境,也就是GUI Agent。

阶跃已经把这个GUI智能体封装好了,并且还做了开源,我们只需要克隆过来就可以了。

打开CLI输入命令:

git clone https://github.com/stepfun-ai/gelab-zero

这一步可能会比较慢(GitHub比较考验上网环境),耐心等一下。

克隆完成后,输入命令进入gelab-zero agent

cd gelab-zero

安装一下依赖。

pip install -r requirements.txt

安装完成后,它会这样显示。

到此,就可以正常使用了。使用命令参考:

python examples/run_single_task.py 你的任务

比如,我们让它预定一个会议,并把会议链接分享到微信群。

python examples/run_single_task.py 打开腾讯会议,预定123100分的会议,然后把会议链接分享到微信群“冷逸工作室”。

AI就开始自己在手机上跑起来了。

它会识别手机的每个界面,然后一步步地往下走。

这个任务一共执行了14步,我把完整的工作记录放在这里了。

(可上下滑动,查看全图)

4)搭建轨迹可视化环境(可选)

所有的任务轨迹,都会默认保存在 running_log/server_log/os-copilot-local-eval-logs/ 目录下。

如果你想查看任务轨迹,可以使用 streamlit 来对轨迹进行可视化。

先输入命令:

cd gelab-zero

然后输入命令:

# 如果想让局域网内其他设备也能访问,输入这段命令:streamlit run --server.address 0.0.0.0 visualization/main_page.py --server.port 33503
# 如果只想在本机访问,使用以下命令:streamlit run --server.address 127.0.0.1 visualization/main_page.py --server.port 33503

然后,在浏览器中访问http://localhost:33503,输入session ID即可查看任务的工作过程。

每次任务执行都会生成唯一的 session ID,在任务结束后可以得到。

5)llama部署(可选)

阶跃的Step GUI,也支持llama.cpp部署。

详细参考阶跃在Github上的教程:

https://github.com/stepfun-ai/gelab-zero/blob/main/README_CN.md

llama部署后,可以在Jan等任意支持llama的本地客户端里拉起API服务。

6)MCP配置(可选)

如果你嫌本地模型慢,想用云端模型,也可以把GELab-Zero Agent封装成MCP server,在其他客户端里调用MCP进行使用。

先启动gelab-zero。

cd gelab-zero

然后打开MCP服务。

python mcp_server/detailed_gelab_mcp_server.py

你如果看到了这样的界面,就代表MCP  Server配置好了。

接下来,在Chabot等客户端中直接调用MCP Server就行。

比如,MCP用Gelab-MCP-Server,模型用GPT-5.1,这速度、质量简直起飞。

这种端云协同带来的好处是,它可以在保障隐私安全的同时,极大程度地拓展 GUI Agent 的能力边界。

云端大模型专注高级规划和复杂意图理解,本地模型负责具体GUI执行和原子操作,以确保所有具体操作和执行轨迹都留在本地。

这对于企业来说,非常重要。

更多用例

阶跃的Step GUI系列模型,既包括端侧模型Step-GUI Edge(原GELab-Zero-4B)、云侧模型(Step-GUI ),也包含MCP协议,支持的场景非常丰富,可在200个APP中顺利执行,是同类模型的4倍。

给大家看一些其他开发者搓的用例。

在多个电商平台搜同款比价。

规划周末的旅行计划,并同步到社交账户。

自动发公众号文章(by好友@Brad强)。

最有意思的是,有个叫@图图 的开发者给机械手接上Step-GUI模型,让它自己边玩手机边刷抖音,这是GUI直接进入物理世界了。

这种通过外接具身智能的方式,可以跳过很多终端的权限,有着更高的自由度。

是不是还挺有趣的,现在就想手搓一个?建议你立即行动起来!

不到半小时,就能搓出一部自己的AI手机。

如果你觉得步骤麻烦,不想自己动手,也可以直接调用他们的Step-GUI Chat API接口。

API Key:  xxxxxxxxBase URL: https://api.stepfun.com/v1Model Name: step-gui

目前,API正限时免费体验中。

API接入指引:

https://ai.feishu.cn/wiki/BfVHwghPdiyp2ckS3HfcJZAmnsc

写在最后

今天,Manus作价数10亿美元卖给Meta,创下了Meta第三大收购的纪录。

大半个AI圈都在庆祝,这验证了Agent领域有着极大的市场,而且是一个全新的蓝海市场。GUI Agent作为消费终端Agent的重要形态,同样有着不可估量的市场空间。

而且,它是AI Agent能否真正实现“智能代理”的关键。

阶跃星辰这次开源的Step-GUI系列模型,既有GUI基模,也有GUI Agent,还支持MCP、API(限时免费中)。我感觉它是接入门槛最低的,也是生态最全的,拉起了GUI从“模型-应用”的整个流程。

这波开源真的很赞,值得大家的Star。

开源地址:

https://github.com/stepfun-ai/gelab-zero

53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询