免费POC, 零成本试错
AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


我要投稿

字节开源了“豆包电脑”:UI-TARS-Destktop

发布日期:2026-01-12 15:28:32 浏览次数: 1537
作者:Kevin改变世界的点滴

微信搜一搜,关注“Kevin改变世界的点滴”

推荐语

字节开源"豆包电脑":用对话驱动办公自动化,白领工作方式将被彻底改变。

核心内容:
1. UI-Tars-desktop系统功能解析:通过视觉化UI实现自动化办公
2. 系统两种使用模式对比:开发者CLI调用与原生桌面GUI操作
3. 未来办公趋势预测:空间计算将取代传统键鼠交互方式

杨芳贤
53AI创始人/腾讯云(TVP)最具价值专家
最近字节开源了自动化桌面办公的项目开源,这就是现在的UI-Tars-desktop,通过这个系统就可以实现桌面自动化办公,可以说这就是“豆包电脑”
如下是系统截图,通过视觉可视化UI完成解读UI来驱动系统自动化操作

目前这个产品到底使用如何,简单来说就是通过对话完成任务命令,就可以完成各类浏览器、与应用程序打开。
目前系统支持Agent形式的CLI调用以及普通桌面形式使用,前者是可以将以及客户端2种方式,第一种是支持Web Ui或者CLI的形式,允许开发者进行调用与兼容,第二周则是原生桌面GUI,只能通过远程桌面完成自动化操作。
也就是官方系统了自动化的平台调用形式,如下是系统的演示,15秒时间完成了对比酒店信息与价格。

目前支持多个工具:从CLI命令行到可视化桌面窗口
现在最新版本在11月份更新了之后,支持结构化输出,查看最后的结果,并且适合系统批量处理。
能够支持自动debug相关任务流程命令
可以查询到AI的沟通记录,以及了解他为什么会这么干,以及了解过去的过程与步骤,从而优化提示词与界面,
从豆包手机再到“豆包”电脑,接下来白领会成为第一批淘汰的人
在最近大火的2025年底马斯克的2个半小时访谈里,就提到在2026年预计Grok就会达到AGI,同时第一批被淘汰的人就是用鼠标和键盘的这群白领。
这些人将首先最容易被AI替代,因为没有涉及到物理世界,使用的数据都是数据信号,没有物理原理,而真实世界会有物理世界,这些会逐步被空间智能与空间感知替代。
带着团队打通vision Pro与AndroidXR 以及空间计算与PC、手机
最近之所以发现这个项目,是因为我带着团队正在打破空间计算与PC电脑的隔阂,要是使用vision Pro的同学应该知道,我们现在都只能够投屏PC或手机,所以使用vision Pro总是感觉是割裂的,就是无法和自己的PC电脑进行交互,虽然你知道都是数字化的屏幕,这就导致体验是割裂的。
但是比较遗憾的,现在vision Pro还没有提供眼球数据,所以开发者不能够获取到精细化的选中,而只有AndroidXR提供了眼球数据。
所以后续这类豆包手机、电脑都会成为大大提升人类与系统交互的工具,就不需要每一次点击鼠标或鼠标键盘打字了,将其通过agent帮忙进行输入

53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询