微信扫码
添加专属顾问
我要投稿
Codex 的 computer use 功能凭借其独特的底层技术,实现了对计算机的精准操控,效果远超同类产品。核心内容:1. 旧方案Operator的视觉识别局限与性能瓶颈2. Codex采用AX Tree技术实现结构化UI交互3. 技术变革带来的实际应用效果提升
是的,各家都发布了自己的 computer use 功能,智谱、perplexity、anthropic、OpenAI,这其中,数 OpenAI 的最好用,不用怀疑。
用户研究同学可以试一下,在 codex 里调用 computer use 功能,让他对一个问卷链接做测试,就是看选项有没有做随机、填空题是不是缺少了横线、跳转逻辑是否正确
他都能做到,因为他真能够操控你的浏览器,去点击选项看实际情况,效果非常经验~
但等等,OpenAI 去年不是就做过这件事了吗?当时的 Operator 不也是让 AI 操作浏览器?怎么那时候效果差那么多,现在感觉像换了个物种?
因为他们为此专门收购了一个专门做Apple Shortcuts(捷径)的团队。
这个问题值得好好说一下。
2025 年 1 月,OpenAI 发布了 Operator——比 Manus 爆火还早了两个月。它的能力听起来很吸引人:自动填表单、订外卖、搜信息,全程不需要你动手。
它的工作方式很直观:截一张屏幕截图,让 AI 看图判断该点哪里,然后模拟鼠标操作。截图、推断、点击,再截图、再推断、再点击,循环往复。
这套路子不是一无是处。但它有一个根本性的天花板:
AI 拿到的信息,只有像素。
屏幕上的 UI 是给人眼看的,没有任何结构化的语义。AI 得靠视觉识别来判断"那个灰色区域大概是个按钮",估算它的位置,然后点。当界面复杂、状态变化,或者按钮位置稍有偏移,就容易出错。
实测数据也印证了这个判断——在 OSWorld 基准测试(测试 AI 完成操作系统级任务的能力)里,Operator 得分 38.1%,而人类的得分是 72.4%。差距不是一点点。
来看它的工作方式:> Operator 的天花板不在于模型够不够聪明,问题在于它拿到的信息根本就不够。
这里有个关键背景。
OpenAI 去年秋天悄悄收购了一个叫 Sky 的小团队——就是最早做 Apple Shortcuts(捷径)的那群人。他们带来了一个在 macOS 上打磨了多年的核心技术,让 Codex 的 computer use 彻底不一样。
这个技术叫 AX Tree(无障碍层级树)。
它本来是 Apple 给视障用户做的——屏幕阅读器要能"读"出界面上有什么,就需要所有 App 向系统暴露一棵结构化的 UI 树:每个按钮叫什么、是什么类型、在哪个位置、当前状态是否可点击。
Codex 把这个技术重新利用了:不看像素,直接读结构。
理解这张图,整件事就说清楚了。
Operator 拿到的是一张截图,它得靠视觉识别来推断"那块灰色区域可能是个按钮",再估算坐标点击。
Codex 直接读取 macOS 暴露的 AX Tree,拿到的是结构化数据——每个元素叫什么、是什么类型、当前是否可点击、精确坐标是多少。两者的信息质量根本不在一个层级。
MacStories 的作者 Federico Viticci 是少数同时深度测试过两者的人,他的判断很直接:Anthropic 和 Perplexity 的 computer use 都还在靠截图操作,而 Codex 能"看到"更多、控制更精准——因为它实际上是在读 UI 的语义结构,截图只是备用手段。
有意思的问题。AX Tree 这套接口在 macOS 上存在了将近二十年,不是什么新发明。
答案是:用起来极其复杂。
AX Tree 返回的是 XML 格式的深层嵌套结构,层级可以达到二十层。里面有大量噪声,格式因 App 而异,不同版本的 App 里元素的命名也不一致。要从这里面稳定、准确地找到你想操作的元素,以前需要大量手动调试,根本无法自动化。
Sky 团队在这件事上做了多年,把解析框架打磨到可以稳定运转。OpenAI 收购他们,买的不只是人,是这套在真实 App 上反复验证过的底层能力。
证据就藏在 Codex 的配置文件里:computer use 插件的执行文件名叫 SkyComputerUseClient——Sky 的技术被原封不动带了进来。
两种方式的本质差异在于,前者每一步都在做视觉识别,当界面复杂或状态变化时容易出错。后者直接读取 UI 的语义结构,精确知道界面状态,截图只是在语义信息不够时才启用的补充。---
有时候,创新不是发明新东西,从过去的技术里找到新应用,也是一个很好的方式
小伙伴们可以开发一下这个功能,说不定可以有意外发现~
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2026-05-23
Harness Monitor:当多个 Agent 同时写代码时,如何看住质量
2026-05-23
从 Appshots 到 Goal Mode:Codex 正在变成工作流 Agent
2026-05-23
2小时烧掉9亿token后,我发现了OpenAI和Anthropic在/goal上的本质区别
2026-05-23
我在一天内完成10场用户访谈,领导大受震撼
2026-05-22
我让3个AI吵了一整天架,它们把PRD写完了
2026-05-22
Cursor 把内部代码审查工具放出来了,AI 写代码之后,质量风险变了
2026-05-22
Codex 又又又更新了,这次能拍图带上下文,/goal 也正式上线了
2026-05-22
Codex 这波大更新后,Mac 的含金量再次提升
2026-04-15
2026-04-07
2026-03-31
2026-03-13
2026-03-17
2026-04-07
2026-03-17
2026-03-21
2026-04-24
2026-03-06
2026-05-23
2026-05-21
2026-05-19
2026-05-09
2026-05-09
2026-05-09
2026-05-08
2026-05-07