我要投稿

万字拆解UI-TARS 2.0，看懂豆包手机背后的核心技术

发布日期：2025-12-15 08:28:53 浏览次数： 3451

作者：走向AI

微信搜一搜，关注“走向AI”

导读

近期，##豆包AI手机的亮相引发了科技圈的广泛热议。许多数码博主发布的实测视频显示，其能够流畅执行跨应用复杂任务，效果令人惊艳。根据公开信息推测，其工作原理可能是：设备端大约每3秒向云端发送一帧当前屏幕图像；云端部署的强大多模态视觉语言模型（VLM）会对画面进行解析，理解界面元素与用户指令，进而生成具体的操作指令（Action）回传至手机端执行。尽管我们尚不清楚其背后VLM模型的确切参数规模，但字节跳动此前发布的多篇关于##GUI智能体（GUI Agent）的学术论文，为我们理解如何训练一个强大的GUI操作模型提供了重要线索。那么，支撑此类“真机版”智能体核心技术究竟是什么？其技术演进到了何种程度？让我们一起深入解读其核心模型UI-TARS 2.0技术报告，揭开其中的关键技术与设计哲学。

开发功能强大的通用GUI智能体，主要面临四重核心挑战：

(1) 数据稀缺：高质量轨迹获取难
大规模、富含详细推理与状态反馈的GUI交互轨迹数据，其采集与标注成本极高，远甚于文本或代码语料库，构成了长周期GUI学习规模化的重要瓶颈。

(2) 算法优化：长周期强化学习不稳定
在多轮次、交互式环境中进行强化学习时，普遍存在奖励稀疏、延迟、优化过程震荡以及长序列功劳分配困难等问题，导致智能体难以在复杂任务中获得稳定、持续的改进。

(3) 能力边界：纯GUI交互局限大
仅依赖模拟点击与键盘输入，无法高效处理涉及文件系统、终端命令或外部工具调用的现实工作流（如数据分析、软件开发），限制了智能体解决实际问题的范围。

(4) 工程部署：大规模环境脆弱且难扩展
支撑数百万次交互的强化学习环境需兼具高并发、可复现与容错能力。然而，跨平台（浏览器、虚拟机）环境通常脆弱、资源消耗大，其稳定性与可扩展性成为工程化训练的主要障碍。

为系统性地应对上述挑战，作者团队提出了一套整合数据、算法、环境与工程的全栈解决方案：

首先，构建自我进化的数据飞轮。通过融合持续预训练、监督微调、拒绝采样与多轮强化学习的迭代循环，实现了模型能力与训练数据质量的协同进化与持续提升。

其次，设计稳定的长周期强化学习框架。该框架集成了状态化异步交互采样以保持任务上下文，采用流式更新避免长尾延迟，并应用了融合奖励塑造、自适应优势估计与价值预训练的增强型PPO算法，有效提升了训练稳定性与效率。

再次，打造以GUI为中心的混合执行环境。通过赋予智能体直接操作文件系统、调用终端命令及外部工具的能力，突破了纯图形界面交互的局限，使其能够胜任更广泛的跨领域现实任务。

最后，奠基统一的异构沙盒平台。该平台通过一致的API，灵活编排从云虚拟机到浏览器沙盒的各类异构环境，专为高吞吐、可复现与稳定的大规模训练而设计，为前述技术创新提供了坚实的工程基础。

这套“数据驱动-算法优化-环境扩展-工程支撑”四位一体的方法论，为构建下一代通用GUI智能体提供了清晰且可行的技术路径。

论文名称：UI-TARS-2 Technical Report: Advancing GUI Agent
with Multi-Turn Reinforcement Learning
论文地址：https://arxiv.org/abs/2509.02544
代码地址：不开源

形式化表示

作者团队构建的智能体，其核心是一个参数化策略，负责将历史上下文、记忆状态与当前环境整合，并映射为具体的行为输出。智能体在每个时间步严格遵循ReAct范式，循环执行推理、行动、观察三个核心环节：

推理（Rt）：指智能体内部的认知处理过程，包括上下文分析、记忆提取、任务规划及自我反思。
行动（At）：指智能体与外部环境进行交互的行为，如操作图形界面、执行系统命令或调用外部工具。
观察（Ot）：指智能体接收来自环境的反馈信息，并据此更新自身状态。

其动作空间覆盖了多类操作：

GUI界面操作：遵循UI-TARS框架的直接界面操控，例如通过点击选择元素、键入进行文本输入、滑动实现页面导航。游戏交互也复用这些基础操作原语。
预定义SDK函数调用：用于扩展纯GUI操作能力的补充操作，包括用于文件管理与软件开发的直接终端命令，以及用于编排外部服务与进行多工具推理的MCP工具调用。

一个完整的ReAct循环（Rt, At, Ot）为一个步骤。一个长度为T的交互轨迹可表示为T个ReAct步骤。在这一构想中，一个关键组成部分是分层记忆状态：

Mt = (Wt, Et)

其中，工作记忆 Wt 以高保真度存储近期的步骤，用于支持短期推理；而情景记忆 Et 则对过往的经历进行语义压缩，保留关键意图与结果。为平衡效率与长程依赖，策略模型的直接上下文被限制为工作记忆的最后N步，同时以情景记忆为条件进行更长期的记忆回溯。具体决策由 P(tn, an | 指令, Wn, on, En) 公式驱动。

一体化GUI沙盒

图2. 浏览器沙盒（容器）架构

通用计算机智能体的训练要求环境具备前所未有的通用性、稳定性和可扩展性。这种环境必须能够支撑多样化的任务类型，无缝集成异构工具，并在复杂、多步骤的交互中保持持久、一致的状态。

为应对这一系统性挑战，作者团队设计并实现了一个创新的通用沙盒平台。该平台的核心是将GUI操作与底层系统功能深度融合，其关键创新在于共享文件系统，使得智能体能在单一容器化实例内，实现跨GUI、命令行及工具调用的状态无缝衔接与数据共享。这一设计在保障高稳定性与强可复现性的同时，为分布式高吞吐训练及全流程（标注、评估、推理）提供了统一、一致的基础环境。在此，我们重点介绍GUI与游戏沙盒的设计。

GUI环境：高并发、可扩展的云虚拟机集群

为满足GUI智能体大规模训练与评估的需求，平台构建了分布式云虚拟机环境，原生支持多桌面及移动操作系统。通过集成PyAutoGUI与ADB接口，实现了低开销、高精度的跨平台控制。一个统一的SDK将整个交互流程标准化，覆盖从资源动态分配、智能体交互、观察数据采集到任务自动化评估的全链路，使其能灵活支撑人工标注、基准测试及在线强化学习等多种任务。

在基础设施层面，数千个虚拟机实例由中央管理器统一调度，支撑每秒数千次查询的高并发吞吐。基于会话ID的全生命周期跟踪和基于租约的自动资源回收机制，确保了多轮交互的状态一致性与资源高效利用。

平台还通过集成工具调用与代码执行能力，拓展了智能体解决网页浏览、文件处理、软件开发等跨域现实任务的范围。预置服务端点与代理暴露机制，提供了开箱即用的开发与调试环境，有效支持了高效的人机协同交互。

游戏环境：高吞吐、强确定性的浏览器沙盒

为满足网页小游戏多轮强化学习对高吞吐、确定性采样的需求，平台构建了专用的浏览器沙盒。该沙盒暴露统一的“页面管理+交互”API，使智能体可通过编程方式发送输入指令并同步接收游戏状态（截图、分数等），形成完整的“动作-观察”闭环。

通过容器化弹性调度实现高并发，并结合系统级的进程监控与自动崩溃恢复机制保障长时稳定运行。沙盒兼容Chrome DevTools协议及Playwright等主流驱动，支持可编程、可审计的自动化交互。利用GPU加速截图与可操控的时间API（加速/暂停），在不影响游戏逻辑的前提下，大幅提升了采样效率与实验的可复现性。

该沙盒在功能上对标标准强化学习环境，并针对Web技术栈进行了深度工程优化，在高并发、强确定性与可复现性之间取得了卓越平衡，为智能体在复杂环境中的训练与评估提供了坚实可靠的工程基础设施。

数据飞轮

图3. 作者团队为UI-TARS-2设计并运营着一个数据飞轮，构建了一个能够持续提升数据质量与模型能力的自我强化循环

如图3所示，作者团队引入了数据飞轮，通过重复的训练周期持续改进模型能力和数据质量。在每个周期中，最新模型生成新的智能体交互轨迹，这些轨迹经过筛选后被重新分配到最合适的训练阶段：高质量输出被提升至后期阶段（e.g. SFT），而较低质量的输出则被回收到早期阶段（e.g. CT）。经过多次迭代，这种动态重新分配确保了每个阶段都能基于最优匹配的数据运行，从而形成了一个自我强化的循环：更好的模型产生更好的数据，更好的数据又训练出更好的模型。

训练阶段: 以Seed1.6的预训练检查点为起点，数据飞轮运作包含三个阶段：持续预训练(CT)——从大规模、多样化的数据中进行广泛知识获取；监督微调(SFT)——基于高质量、任务特定的指令进行调优；强化学习(RL)——在可验证的交互任务上进行端到端优化。在每次迭代中，当前的强化学习模型会生成新的交互轨迹。其中高质量输出被加入SFT数据集，低质量输出则被引导至CT阶段。随后，模型会依据更新后的CT、SFT和RL数据集按顺序进行再训练。

冷启动与迭代进化：系统启动依赖于双源数据：CT阶段融合了互联网上的任务教程、教学视频、演示以及内部专有数据以构建知识广度；SFT阶段则基于合成与人工标注数据确保任务精度。训练中，通用数据与智能体数据按比例混合，以平衡通用能力与领域专长：在CT中仅占一小部分，这强调了广泛知识获取；在侧重于高质量、任务特定轨迹的SFT中，智能体数据的构成比例则大得多。

在RL模型就绪后，其自身即成为核心数据生成器。在迭代t中，模型通过拒绝采样（RFT）或交互式标注产生新轨迹，每条轨迹由验证函数V(s)→{0,1}评估。高质量样本(V(s)=1)注入SFT集，推动任务性能精进；低质量样本(V(s)=0)汇入CT集，持续扩展知识边界而不污染监督信号。SFT与RL的执行频率高于CT，有效促进了从通用能力到智能体专有能力的知识迁移。随着迭代进行，模型产出高质量数据的比例不断提升，形成数据零浪费的可持续增长循环，驱动性能持续突破。

##用于持续预训练的原位标注

为构建高质量CT数据集（以GUI领域为例），作者团队首先整合了UI-TARS系列的全部历史数据，但仍面临公开数据稀缺易耗尽（尤其缺乏中文内容），且大多缺失底层推理过程，仅以此类资源训练的模型倾向于模仿表面动作而非内化逻辑，导致产生虚假或不稳定的推理链。最终，持续预训练的核心挑战在于如何系统性地扩展高质量、富含认知信息的数据，以支持智能体的长期改进。

一项早期的尝试性研究表明，试图事后为已记录的操作添加推理轨迹是无效的，因为几乎无法重建标注者最初的思维过程。为系统性获取富含认知信息的训练数据，团队开发了原位标注系统。其核心是有声思维协议：标注者在执行日常任务时，通过语音实时口述其思考过程，系统自动将音频转录的推理文本与对应的UI操作精确对齐，从而捕获“思考-行动”的完整链条。为丰富数据谱系，标注者分为专家（演示复杂任务）与新手（记录探索与试错过程）。

在任务设计上，依据行业覆盖、用户参与、市场渗透三大维度筛选主流应用，构建分层任务图并计算任务重要性分数。通过人机协作生成覆盖多技能水平与应用场景的查询集，并设立难度评分准则，确保数据集的多样性与平衡性。

所有收集的原始数据均经过严格的质量控制流水线，包括可执行性验证、去重与双人审核。通过ASR转录与LLM润色获得高质量推理文本，再经过程序化的语言增强与推理链扩充，最终产出适用于CT的高保真“推理-动作”轨迹对。

##用于监督微调的交互式标注

图4：交互式标注平台的四层架构。

基于人工生成的SFT数据训练智能体面临的一个关键挑战是：此类数据通常是离线策略（Off-policy）的——它无法反映模型在与环境交互时会实际采取的动作分布。因此，仅基于此类数据训练的模型可能难以泛化，因为在交互采样过程中，它们从未遇到或纠正过自身的错误。先前的方法通过要求标注员修正预先收集轨迹中的错误来缓解此问题。然而，这一过程从根本上说仍是离线的、低效的：它只在任务失败后才暴露模型弱点，而无法在交互过程中进行实时干预或修正。由于智能体训练发生在交互式环境中，其中动作会直接影响后续状态，这种在线策略监督的缺失造成了显著差距。为弥合这一差距，作者团队提出了一种新颖的人在环路框架，用于在线的交互式数据标注。该平台采用四层架构（交互层-服务层-平台层-存储层），其核心工作流程（图5）允许标注员在智能体实时交互采样的过程中直接进行在线监督。

图5. 交互式标注工作流

在由云虚拟机或浏览器沙盒提供的受控环境中，最新的UI-TARS-2模型会在每个决策点给出带有推理的候选动作。标注员可以采纳建议，或直接以更好的思考与操作进行覆盖，从而实现人类专家对任务轨迹的实时引导。得益于令自动补全、实时视频流、坐标可视化等优化工具，标注效率与准确性显著提升。

这一设计确保了所有监督数据严格保持在线策略（On-policy），真实反映了当前模型的行为分布。通过定期更新标注模型与任务池，系统能持续针对智能体的最新弱点进行高效的数据收集与能力强化。

多轮强化学习

为训练具备长周期推理与决策能力的智能体，作者团队构建了基于可验证奖励的强化学习（RLVR） 的多轮次强化学习框架。该框架通过自动化流水线，跨领域合成大规模、可验证的训练任务，使模型能够在与环境的实时交互中优化其决策轨迹。下文以三个核心领域为例进行说明：(1) GUI-浏览：专注于基于屏幕截图的信息查找任务；(2) GUI-通用：涵盖广泛的网页操作任务；(3) 游戏：针对基于浏览器沙盒的轻量级网页游戏。

任务设计：构建高质量的挑战性基准

针对训练数据稀缺的问题，团队为每个领域设计了独特的任务合成与验证方法。

GUI-浏览：为模拟复杂推理，设计了两种自动化任务构建方法。一是多条件混淆，即从知识源（如维基百科）提取实体特征，经大语言模型重写以去除明显线索，生成依赖多间接约束的模糊查询。二是多跳链式条件，通过跟踪网页超链递归生成任务，将前序答案嵌入后续问题，形成需要多步推理的连贯链条。所有合成任务均经过过滤，仅保留无法通过常识或简单搜索直接解决的真正挑战。
GUI-通用：为评估通用交互能力，构建了一个涵盖690个网站的数据集。通过视觉语言模型识别网站核心功能，并经过结构化流程（如移除简单功能、合并子任务、精炼描述）合成单页面的可执行、可验证任务，确保任务指令清晰、客观。
游戏：数据集来自真实HTML5/WebGL游戏与由大语言模型合成的轻量级游戏。为每款游戏创建JavaScript验证脚本，以编程方式查询分数、关卡等运行时状态，建立起从智能体动作到环境反馈的可靠映射，并将所有交互记录标准化为统一的JSON格式。

奖励设计：确保稳定优化的可信信号

奖励系统根据任务的可验证性分为两类：

可验证任务：对于可直接通过函数（游戏）或与标准答案匹配（GUI浏览）来判定结果的任务，使用二元正确性信号或LLM-as-Judge作为奖励。
不可验证任务：对于开放式任务（如GUI通用操作），创新性地将UI-TARS-2模型本身微调为生成式结果奖励模型（ORM)。该ORM以智能体的完整交互轨迹和最近屏幕截图作为输入，直接预测任务成功的标量分数。通过专门的数据标注与训练，确保ORM的奖励预测准确、稳健，能有效指导下游强化学习。

基于状态化环境的异步智能体交互采样

图6：UI-TARS-2的多轮次强化学习训练基础设施。（根据论文描述，图中的Sync应该是Async）

为突破传统批处理采样在长周期任务中效率低下且易导致策略偏移的限制，作者团队设计了UI-TARS-2的多轮强化学习基础设施（图6），其核心在于提升训练稳定性与交互采样效率。该基础设施实现了三大关键技术：

1. 服务器化异步推理：通过将策略推理封装为异步服务，实现了智能体框架与推理执行层的解耦，显著提升了系统可扩展性和开发灵活性。

2. 动态流式训练池：系统维护一个动态交互采样池。当已完成轨迹达到最小批次阈值时即触发参数更新，同时允许未完成的“长尾”轨迹继续执行并保留在池中，实现了训练的连续流式更新，避免了传统批处理中因等待最慢轨迹而产生的阻塞。此特性在概念上类似于Kimi-Researcher。

3. 状态化环境集成：构建了能跨工具调用持久保持状态的环境，确保了复杂、多步骤推理任务中上下文的连续性，为长周期决策提供了必要支撑。

算法创新：面向长周期任务的稳定PPO优化

在PPO算法基础上，UI-TARS-2集成了多项专门针对长周期任务稳定性的增强技术：

奖励塑造：奖励主要基于任务最终成败，并辅以格式奖励与长度惩罚，以引导智能体产生高效、正确的行为。
解耦广义优势估计：将策略与价值函数计算优势时使用的衰减系数（λ）解耦，设置为不同值，以缓解长序列中价值估计的偏差衰减问题。
长度自适应GAE：根据序列长度动态调整策略的λ值（公式：λ_策略 = 1 - 1/(0.05 * l)），使优势估计在不同长度的轨迹间更具一致性。
价值预训练：在强化学习开始前，先用一个固定策略（如SFT模型）采集数据，以λ=1.0（蒙特卡洛回报）离线训练价值模型至收敛。此预训练模型为后续强化学习提供了准确稳定的价值估计起点。
非对称裁剪边界：采用独立的上、下裁剪边界（ε_high, ε_low）。较高的上界鼓励对低概率动作的探索，较低的下界则保护策略多样性免于过早坍缩，从而在稳定优化与充分探索之间取得平衡。

通过参数插值实现垂直领域智能体的融合

UI-TARS-2 的核心愿景是构建一个能够统一操作结构化界面与动态环境的数字智能体。直接在所有领域进行联合强化学习虽看似理想，但因不同领域在状态空间、任务复杂度上差异悬殊，会导致优化极不稳定且计算开销巨大。

作者团队采用了一种更巧妙高效的策略。其基础是一项关键发现：从同一预训练检查点微调出的不同领域模型，在参数空间中保持着近似线性的连接。利用这一特性，我们可以先为GUI浏览、GUI通用、游戏等不同领域独立训练出多个专用模型，再通过简单的参数插值将它们融合成一个统一模型。

这种方法避免了复杂的联合训练，却能将各领域专家的能力无缝整合。实验证明，融合后的模型不仅保留了各专用模型在原领域的性能，更获得了强大的跨领域泛化能力。在面对需要组合多领域技能的复合任务时，其表现可与各领域最佳专家模型相媲美，且无需任何额外的训练成本。这为实现通用智能体提供了一条高效的路径。

消融实验发现

VLM作为验证器的可行性。关键发现是，尽管使用了生成式奖励模型或GPT-4o等不同奖励来源，但人工检查未发现明显的奖励作弊迹象。这表明，在智能体强化学习中采用视觉语言模型作为验证器是可行的，这很可能是因为智能体任务的完成状态可以被更具体地定义和客观评估。

为进一步定量评估，作者团队构建了一个包含300条人工标注轨迹的内部ORM评估集。在此基准上，UI-TARS-2作为ORM达到了83.8的F1分数，展现出较强鲁棒性。对误判案例的分析显示，当前ORM的假阳性率相对较高。尽管如此，即便这样一个“不完美”的ORM在强化学习中依然有效。推测这是因为即使在最终结果错误的情况下，智能体也可能执行了许多正确的中间步骤。在假阳性案例中，模型对这些正确步骤给予了奖励，其正面贡献超过了错误步骤的负面奖励。

平均思考长度变化。在GUI任务中，随着强化学习训练的进行，模型的平均步骤级思考长度持续下降。这可能是由于智能体主要通过与环境交互而非延长内部推理来取得进展。一旦能预测出正确的GUI动作，智能体便直接执行以获得奖励，从而减少了对长时间思考的需求。

在游戏领域，思考长度呈现周期性波动，这与作者团队专门设计的难度递增训练课程有关：每当进入新难度级别时，思考长度因挑战增加而上升；随着智能体熟悉该级别，思考长度又逐渐下降，直到下一次难度提升。

环境交互轮数。UI-TARS-2的交互扩展曲线（以环境交互轮数衡量）并不总是与性能正相关。尽管奖励随训练稳步增长，但完成任务所需的步骤数逐渐减少。这表明模型将任务知识内化，减少了不必要的探索，从而能更高效地解决问题。

价值模型预训练的影响。初步实验发现，未经预训练的价值模型估计值与实际奖励常呈负相关。引入价值预训练后，价值模型指导策略学习的能力显著增强，训练过程中的奖励水平也更高、更稳定。

PPO与GRPO对比。尽管GRPO在部分推理任务中表现良好，但在作者的评估中PPO持续以明显优势胜出，在整个训练过程中保持了更高的奖励和更低的波动性，因此被选为主要优化算法。

GUI SDK强化学习分析。在GUI SDK任务上，训练分数整体上升，表明模型逐渐熟练利用外部工具解决复杂问题；同时训练熵持续下降，表明模型预测信心稳步提升，推理路径更加稳定。

混合智能体训练。尝试了混合强化学习这一替代方案，让单一模型同时掌握纯图形界面和GUI-SDK两种交互方式。尽管每个界面分配的训练数据只有一半，但混合模型在纯GUI任务上甚至超越了专门的纯GUI基线模型，展现出更强的交互泛化潜力，说明通过更强大的GUI-SDK界面学到的知识可有效迁移到受限环境中。

此外，混合训练中采用的共享价值模型增强了训练稳定性，其奖励估计的泛化能力优于单一界面基线。相比高效的参数插值策略，混合训练可实现更直接的跨界面知识迁移，但训练成本也更高。二者因此形成互补：插值重在效率，混合训练侧重深度迁移能力。

量化降低延迟。我们评估了W4A8量化（权重4位，激活8位）对部署效率的影响。量化将UI-TARS-2的令牌生成速度从29.6 tok/s提升至47 tok/s，平均每轮交互的端到端延迟从4.0秒降至2.5秒。在OSWorld基准上，准确率从47.5%略微下降至44.4%，表明其在延迟敏感场景中是一种实用且高效的部署策略。