微信扫码
添加专属顾问
我要投稿
字节跳动开源的UI-TARS,开启GUI自动化新纪元,探索AI人机交互新境界。 核心内容: 1. 字节跳动开源GUI Agent模型UI-TARS的背景与意义 2. UI-TARS的核心特性:感知能力、行动能力和推理能力 3. UI-TARS在技术突破上的亮点:增强的GUI截图感知、统一行动建模等
全面的 GUI 理解:UI-TARS 能解释各种类型的输入,如文本和图像,形成对用户界面的完整理解。
动态交互:模型能够主动观察并实时响应不断变化的 GUI 环境中的变化。
高密度信息处理:有效处理复杂布局和多元素界面,提取精确元数据。
统一的行动空间:跨平台(桌面、移动和网络)的标准化动作定义。
精确定位与互动:通过大规模行动轨迹训练,实现对特定 GUI 元素的精确定位和交互。
平台特定动作:支持热键、长按和平台特定手势等额外动作。
系统 1 和系统 2 推理:结合快速、直觉的响应与深思熟虑的高级规划,用于处理复杂任务。
任务分解与反思:支持多步规划、反思和错误修正,确保任务执行的稳健性。
基于"思考"的决策:在每个行动前生成明确的"思考"过程,将感知和行动与深思熟虑的决策联系起来。
短期记忆:捕获任务特定上下文,增强情境感知能力。
长期记忆:保留历史交互和知识,改进决策过程。
在 OSWorld 基准测试中,UI-TARS-72B 在 50 步中取得了 24.6 的得分,在 15 步中取得了 22.7 的得分,优于 Claude 的 22.0 和 14.9。
在 AndroidWorld 中,UI-TARS 取得了 46.6 的得分,超过了 GPT-4o 的 34.5。
在 VisualWebBench 中,UI-TARS-72B 得分 82.8,高于 GPT-4o 的 78.5。
在 ScreenSpot Pro 上取得了 38.1(SOTA)的成绩。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2026-03-17
打造 Claude Code 并行自主开发环境:Auto Claude + GLM 4.7
2026-03-17
又一款开源的LLM生成3D场景的3D编辑器,这次功能更强大了
2026-03-17
英伟达的NemoClaw,能帮AI代理这匹“野马”套上缰绳吗?
2026-03-17
腾讯混元AI Infra核心技术重磅开源:推理吞吐提升30%!
2026-03-17
英伟达重磅开源!Nemotron 3 Super:专为AI智能体打造的"超级大脑
2026-03-16
22.4K Stars,减少 93% 上下文。AI Agents 专用浏览器自动化 CLI 真强!
2026-03-13
你的 AI Agent 真的在受控运行吗?
2026-03-12
Harness Engineering 的防御视角:从 Codex Security 看 AI 生成代码的治理
2026-01-27
2026-01-30
2026-01-12
2026-01-29
2026-01-27
2025-12-22
2026-01-28
2026-01-21
2025-12-23
2026-01-06
2026-03-17
2026-03-13
2026-03-02
2026-02-05
2026-01-28
2026-01-26
2026-01-21
2026-01-21