我要投稿

字节开源 GUI Agent 工具：UI-TARS 全解析，又一Manus平替

发布日期：2025-03-22 12:46:40 浏览次数： 6453

作者：未来交互趋势

微信搜一搜，关注“未来交互趋势”

‍

Dev Agent

网传字节内部 Dev Infra 团队开发了一款公司内部使用的 Dev Agent 智能体产品，功能类似 Manus，该 Agent 通过集成内网知识库和多种内部工具实现调研、开发、数据分析等任务。

目前该项目处于实验阶段，仅面向该部门员工进行内测，属于内部工具，不支持外部用户使用。

UI-TARS

今天来说一下字节开源的另外一个项目 UI-TARS

UI-TARS 是由字节推出的一款开源 GUI Agent 模型，能够通过自然语言理解和处理来控制计算机界面。这款工具代表了人工智能与人机交互领域的重大突破，为用户提供了一种全新的、更加自然的方式来操作计算机系统。

什么是 UI-TARS？

UI-TARS 的全称是 User Interface - Task Automation and Reasoning System（用户界面-任务自动化和推理系统）。它是一个创新的原生 GUI 代理模型，设计用于通过先进的 AI 能力增强与图形用户界面的交互。与传统的模块化系统不同，UI-TARS 将感知、推理、接地和记忆等基本元素整合到一个统一的视觉-语言模型 (VLM) 中，实现了无需依赖预先建立的工作流或人工干预的全面任务自动化。

核心特性

感知能力

全面的 GUI 理解：UI-TARS 能解释各种类型的输入，如文本和图像，形成对用户界面的完整理解。
动态交互：模型能够主动观察并实时响应不断变化的 GUI 环境中的变化。
高密度信息处理：有效处理复杂布局和多元素界面，提取精确元数据。

行动能力

统一的行动空间：跨平台（桌面、移动和网络）的标准化动作定义。
精确定位与互动：通过大规模行动轨迹训练，实现对特定 GUI 元素的精确定位和交互。
平台特定动作：支持热键、长按和平台特定手势等额外动作。

Send a twitter with the content "hello world"

推理能力

系统 1 和系统 2 推理：结合快速、直觉的响应与深思熟虑的高级规划，用于处理复杂任务。
任务分解与反思：支持多步规划、反思和错误修正，确保任务执行的稳健性。
基于"思考"的决策：在每个行动前生成明确的"思考"过程，将感知和行动与深思熟虑的决策联系起来。

记忆能力

短期记忆：捕获任务特定上下文，增强情境感知能力。
长期记忆：保留历史交互和知识，改进决策过程。

技术突破

UI-TARS 在多个领域实现了技术突破：

1. 增强的 GUI 截图感知：通过大规模数据集训练，专门用于提取元素类型、边界框和文本内容等元数据。

2. 统一行动建模：标准化跨平台语义等效动作，提高多步执行能力。

3. 系统2推理：注入各种推理模式（如任务分解、长期一致性、里程碑识别、试错和反思）到模型中。

4. 反思性在线痕迹学习：通过自动收集、过滤和反思性精炼新的交互轨迹，解决数据瓶颈问题。

Get the current weather in SF using the web browser

性能表现

在多项评估中，UI-TARS 展现了卓越的性能：

在 OSWorld 基准测试中，UI-TARS-72B 在 50 步中取得了 24.6 的得分，在 15 步中取得了 22.7 的得分，优于 Claude 的 22.0 和 14.9。
在 AndroidWorld 中，UI-TARS 取得了 46.6 的得分，超过了 GPT-4o 的 34.5。
在 VisualWebBench 中，UI-TARS-72B 得分 82.8，高于 GPT-4o 的 78.5。
在 ScreenSpot Pro 上取得了 38.1（SOTA）的成绩。

这些结果证明了 UI-TARS 在感知、接地和 GUI 任务执行方面的卓越能力。

使用 UI-TARS Desktop

字节跳动为用户提供了 UI-TARS Desktop 应用，这是一个基于 UI-TARS（视觉-语言模型）的 GUI 代理应用程序，允许用户使用自然语言控制计算机。

UI-TARS Desktop 使用前可以做一些配置

开源资源

UI-TARS 相关资源全部开源：

GitHub 仓库：

[UI-TARS](https://github.com/bytedance/UI-TARS)

[UI-TARS-desktop](https://github.com/bytedance/UI-TARS-desktop)

虽然 UI-TARS 代表了 GUI 代理领域的重大进步，但未来发展方向指向集成主动和终身学习，让代理能够通过持续的真实世界交互自主驱动自己的学习。这将最小化人类干预，同时最大化泛化能力。

UI-TARS 是字节跳动在 GUI 代理领域的革命性创新，通过整合感知、行动、推理和记忆能力到一个可扩展和自适应的框架中，实现了超越现有系统的性能。它的开源发布不仅推动了 AI 驱动自动化的边界，也使其成为进一步探索和开发的可访问资源。UI-TARS 代表了从基于规则的系统向自适应原生模型的转变，为未来 GUI Agent的发展奠定了坚实基础。

‍