Codex 的 computer use 功能，为什么这么好用？

发布日期：2026-05-23 10:27:39 浏览次数： 1990

作者：真知浩见

微信搜一搜，关注“真知浩见”

是的，各家都发布了自己的 computer use 功能，智谱、perplexity、anthropic、OpenAI，这其中，数 OpenAI 的最好用，不用怀疑。

用户研究同学可以试一下，在 codex 里调用 computer use 功能，让他对一个问卷链接做测试，就是看选项有没有做随机、填空题是不是缺少了横线、跳转逻辑是否正确

他都能做到，因为他真能够操控你的浏览器，去点击选项看实际情况，效果非常经验～

但等等，OpenAI 去年不是就做过这件事了吗？当时的 Operator 不也是让 AI 操作浏览器？怎么那时候效果差那么多，现在感觉像换了个物种？

因为他们为此专门收购了一个专门做Apple Shortcuts（捷径）的团队。

这个问题值得好好说一下。

先说之前的 Operator 是怎么工作的

2025 年 1 月，OpenAI 发布了 Operator——比 Manus 爆火还早了两个月。它的能力听起来很吸引人：自动填表单、订外卖、搜信息，全程不需要你动手。

它的工作方式很直观：截一张屏幕截图，让 AI 看图判断该点哪里，然后模拟鼠标操作。截图、推断、点击，再截图、再推断、再点击，循环往复。

这套路子不是一无是处。但它有一个根本性的天花板：

AI 拿到的信息，只有像素。

屏幕上的 UI 是给人眼看的，没有任何结构化的语义。AI 得靠视觉识别来判断"那个灰色区域大概是个按钮"，估算它的位置，然后点。当界面复杂、状态变化，或者按钮位置稍有偏移，就容易出错。

实测数据也印证了这个判断——在 OSWorld 基准测试（测试 AI 完成操作系统级任务的能力）里，Operator 得分 38.1%，而人类的得分是 72.4%。差距不是一点点。

来看它的工作方式：> Operator 的天花板不在于模型够不够聪明，问题在于它拿到的信息根本就不够。

Codex 最新的 computer use 做了什么不同的事

这里有个关键背景。

OpenAI 去年秋天悄悄收购了一个叫 Sky 的小团队——就是最早做 Apple Shortcuts（捷径）的那群人。他们带来了一个在 macOS 上打磨了多年的核心技术，让 Codex 的 computer use 彻底不一样。

这个技术叫 AX Tree（无障碍层级树）。

它本来是 Apple 给视障用户做的——屏幕阅读器要能"读"出界面上有什么，就需要所有 App 向系统暴露一棵结构化的 UI 树：每个按钮叫什么、是什么类型、在哪个位置、当前状态是否可点击。

Codex 把这个技术重新利用了：不看像素，直接读结构。

理解这张图，整件事就说清楚了。

Operator 拿到的是一张截图，它得靠视觉识别来推断"那块灰色区域可能是个按钮"，再估算坐标点击。

Codex 直接读取 macOS 暴露的 AX Tree，拿到的是结构化数据——每个元素叫什么、是什么类型、当前是否可点击、精确坐标是多少。两者的信息质量根本不在一个层级。

MacStories 的作者 Federico Viticci 是少数同时深度测试过两者的人，他的判断很直接：Anthropic 和 Perplexity 的 computer use 都还在靠截图操作，而 Codex 能"看到"更多、控制更精准——因为它实际上是在读 UI 的语义结构，截图只是备用手段。