2026年5月28日 周四晚上19:30,报名腾讯会议了解“如何转型成为前线部署工程师(FDE)”(限30人)
免费POC, 零成本试错
FDE知识库

FDE知识库

学习大模型的前沿技术与行业落地应用


我要投稿

Codex 的 computer use 功能,为什么这么好用?

发布日期:2026-05-23 10:27:39 浏览次数: 1528
作者:真知浩见

微信搜一搜,关注“真知浩见”

推荐语

Codex 的 computer use 功能凭借其独特的底层技术,实现了对计算机的精准操控,效果远超同类产品。

核心内容:
1. 旧方案Operator的视觉识别局限与性能瓶颈
2. Codex采用AX Tree技术实现结构化UI交互
3. 技术变革带来的实际应用效果提升

杨芳贤
53AI创始人/腾讯云(TVP)最具价值专家

是的,各家都发布了自己的 computer use 功能,智谱、perplexity、anthropic、OpenAI,这其中,数 OpenAI 的最好用,不用怀疑。

用户研究同学可以试一下,在 codex 里调用 computer use 功能,让他对一个问卷链接做测试,就是看选项有没有做随机、填空题是不是缺少了横线、跳转逻辑是否正确

他都能做到,因为他真能够操控你的浏览器,去点击选项看实际情况,效果非常经验~

但等等,OpenAI 去年不是就做过这件事了吗?当时的 Operator 不也是让 AI 操作浏览器?怎么那时候效果差那么多,现在感觉像换了个物种?

因为他们为此专门收购了一个专门做Apple Shortcuts(捷径)的团队。

这个问题值得好好说一下。


先说之前的 Operator 是怎么工作的

2025 年 1 月,OpenAI 发布了 Operator——比 Manus 爆火还早了两个月。它的能力听起来很吸引人:自动填表单、订外卖、搜信息,全程不需要你动手。

它的工作方式很直观:截一张屏幕截图,让 AI 看图判断该点哪里,然后模拟鼠标操作。截图、推断、点击,再截图、再推断、再点击,循环往复。

这套路子不是一无是处。但它有一个根本性的天花板:

AI 拿到的信息,只有像素。

屏幕上的 UI 是给人眼看的,没有任何结构化的语义。AI 得靠视觉识别来判断"那个灰色区域大概是个按钮",估算它的位置,然后点。当界面复杂、状态变化,或者按钮位置稍有偏移,就容易出错。

实测数据也印证了这个判断——在 OSWorld 基准测试(测试 AI 完成操作系统级任务的能力)里,Operator 得分 38.1%,而人类的得分是 72.4%。差距不是一点点。

来看它的工作方式:> Operator 的天花板不在于模型够不够聪明,问题在于它拿到的信息根本就不够。

Pasted image 20260522100956.png

Codex 最新的 computer use 做了什么不同的事

这里有个关键背景。

OpenAI 去年秋天悄悄收购了一个叫 Sky 的小团队——就是最早做 Apple Shortcuts(捷径)的那群人。他们带来了一个在 macOS 上打磨了多年的核心技术,让 Codex 的 computer use 彻底不一样。

这个技术叫 AX Tree(无障碍层级树)

它本来是 Apple 给视障用户做的——屏幕阅读器要能"读"出界面上有什么,就需要所有 App 向系统暴露一棵结构化的 UI 树:每个按钮叫什么、是什么类型、在哪个位置、当前状态是否可点击。

Codex 把这个技术重新利用了:不看像素,直接读结构。

Pasted image 20260522101057.png

理解这张图,整件事就说清楚了。

Operator 拿到的是一张截图,它得靠视觉识别来推断"那块灰色区域可能是个按钮",再估算坐标点击。

Codex 直接读取 macOS 暴露的 AX Tree,拿到的是结构化数据——每个元素叫什么、是什么类型、当前是否可点击、精确坐标是多少。两者的信息质量根本不在一个层级。

MacStories 的作者 Federico Viticci 是少数同时深度测试过两者的人,他的判断很直接:Anthropic 和 Perplexity 的 computer use 都还在靠截图操作,而 Codex 能"看到"更多、控制更精准——因为它实际上是在读 UI 的语义结构,截图只是备用手段。

为什么这个技术之前没人用?

有意思的问题。AX Tree 这套接口在 macOS 上存在了将近二十年,不是什么新发明。

答案是:用起来极其复杂。

AX Tree 返回的是 XML 格式的深层嵌套结构,层级可以达到二十层。里面有大量噪声,格式因 App 而异,不同版本的 App 里元素的命名也不一致。要从这里面稳定、准确地找到你想操作的元素,以前需要大量手动调试,根本无法自动化。

Sky 团队在这件事上做了多年,把解析框架打磨到可以稳定运转。OpenAI 收购他们,买的不只是人,是这套在真实 App 上反复验证过的底层能力

证据就藏在 Codex 的配置文件里:computer use 插件的执行文件名叫 SkyComputerUseClient——Sky 的技术被原封不动带了进来。

两种方式的本质差异在于,前者每一步都在做视觉识别,当界面复杂或状态变化时容易出错。后者直接读取 UI 的语义结构,精确知道界面状态,截图只是在语义信息不够时才启用的补充。---


有时候,创新不是发明新东西,从过去的技术里找到新应用,也是一个很好的方式

小伙伴们可以开发一下这个功能,说不定可以有意外发现~

53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询