如何把Codex用到极致? OpenAI官方发布最佳实践

发布日期：2026-05-25 08:15:49 浏览次数： 2202

作者：AI 博物院

微信搜一搜，关注“AI 博物院”

Codex 团队前几天发了一篇博客，讲怎么把它用到极致。

读完之后我感触颇多，不是因为里面讲的功能多炫——8 个模块，持久对话流、语音输入、干预排队、工具触达、自动化、目标设定、侧边栏、共享记忆——而是这些功能合起来，已经不是一个"编程助手"了。

我每天用 Claude Code 的时长远高于 Codex。说实话，我对 Codex 的兴趣，主要是想看看 OpenAI 这家在通用智能上最激进的公司，会把"代码编辑器"这个产品做成什么样。

现在他们给了答案。

写代码只是入口。真正的产品形态是：你买了一个能在你电脑上替你干活的 AI 同事。

这件事我去年写 Agent Teams 那篇的时候提过一句——Scott White 在 Anthropic 的会上说 "We are now transitioning almost into vibe working"。Vibe coding 是让 AI 帮你写代码，vibe working 是让 AI 帮你干活。

Codex 这篇分享，就是 vibe working 的官方说明书。

我把它读完之后，把里面 8 个模块分别对应到我自己的工作流里走了一遍。有些是我已经在用别的工具实现的，有些是我应该做但还没做的，还有些是 Claude Code 目前还没有但 Codex 已经做出来了的。

下面一个一个聊。

Codex 把对话窗口分成两种：聊完就忘的，和长期挂着的。

长期挂着的那种叫持久对话流。你给它起个名字——幕僚长、产品发布、文档审查——按 Cmd-1 到 Cmd-9 随时切回去。它记得你们之前聊到哪、定下了什么、你的偏好是什么。

这件事 Claude Code 里其实也有——每个项目目录就是一个对话上下文，CLAUDE.md 是这个上下文的记忆文件。但 Codex 做了一件更细的事：对话流不依附于代码仓库。

我马上想到一个场景。

我有一个长期跑的"公众号选题"对话流。每天我刷推、看公众号、和朋友聊天的时候，但凡冒出来"这事可以写一篇"的想法，我就丢进去。它累积着所有的待写选题、每个选题的角度、为什么我当时觉得它值得写、后来又为什么放弃了。

现在大多数人的方案是这样：一个笔记软件里的临时清单，加上一个不定期开起来整理的 Claude Code 会话。两个地方，状态不同步，每次切回来都得花几分钟"上下文回灌"。

如果换成 Codex 的持久对话流——它自己记住所有上下文，我直接说"昨天刷到那条 Karpathy 的推，我觉得可以写"，它就接着上次的讨论继续。

Cmd-1 是选题流。Cmd-2 是长文写作流。Cmd-3 是工具迭代流。

这不再是聊天窗口了，是工作空间。

语音输入：在想法变形之前先抓住它

我一直觉得自己说话比写字更接近真实想法。

打字的时候，大脑会自动修整句子——把模糊的想法掐头去尾，变成一个看起来通顺的表达。修整过的东西就丢失了那些没想清楚的部分。但很多时候，正是没想清楚的部分里藏着真东西。

Codex 内置了语音输入。它的核心场景不是替代键盘，是在你还没想清楚的时候，先让你把脑子里的混乱倒出来。

举个例子。

我经常在散步的时候冒出来一些念头，但具体怎么做，第一秒钟我自己也讲不清。如果让我回家坐到电脑前再把它打出来，95% 的概率我会把那个没成型的念头写得看起来很合理——然后就没下文了。

如果当场对着手机说三分钟：

那个让 AI 自己改 prompt 的事，我觉得不能让它自己跑。
得有一个验证器，但验证器自己也会跑偏。
所以验证器得有验证器的验证器吗？
这就死循环了。
但也许不需要无限套娃，只要人在某个层级上有一票否决权就行。

这段东西打出来我自己都不愿意打。但说出来之后，AI Agent 拿着它就能接着往下想——你刚才提到的"人在某个层级上有一票否决权"，这件事在 Mitchell Hashimoto 的 Harness Engineering 那篇里有过类似的说法。

录音转写也是同一个意思。一份未经修剪的会议记录，比一份漂亮的会议总结有用得多。粗糙里有信息，整齐里只有结论。

干预和排队：拿回对正在跑的任务的控制权

这两个词翻译完容易混。我自己习惯这么记：

干预是踩刹车，排队是排下一站。

干预——AI 正在做一件事，你看到它跑偏了，你要它立刻停下来换方向。在 Claude Code 里我经常按 Esc 然后补一句"等等，往左转一点"。这就是干预。

排队——AI 还在做当前这件事，你不想打断它，但你想好了下一步该让它做什么，提前告诉它。它做完手头的就接着做下一件。

Claude Code 现在也有了排队（我用的是 1.x 之后的版本）。但 Codex 把这两个动作做得更直观——侧边栏里你能看到它在做什么、你可以一边在网页上标注一边喊停、做完之后队列里的下一个任务自动接上。

这件事对什么人有用？

对编排者有用。

举个例子。让一个 Agent 帮我调研某个人物，我在旁边刷它的研究结果。我看到它搜的方向不对，得能立刻拽它回来；同时我心里已经想好下一步该让它查什么了，得能提前告诉它"这个查完接着查 X"。

如果只能等它干完一件事我再说一句，整个流程就会卡在我身上。我变成了瓶颈。

干预和排队这两个动作合起来，本质是把"控制权"从"任务结束的那一刻"这个唯一时间点，扩展到了任务执行的全过程。

人的判断什么时候介入？任何时候都能介入。

工具越强，人的判断越重要。我说过太多次了。但这句话有一个前提：人的判断必须能在任何时候介入到正在运行的 AI 任务里，不能只在任务完成后做事后审查。

干预 + 排队就是这个前提的产品化。

工具触达范围：让 AI 的手伸出代码库

Codex 列了三个工具入口：

• $browser:侧边栏里的浏览器，AI 可以看渲染好的网页、做标注
• @chrome:复用你 Chrome 的登录状态，处理需要登录的网页流程
• @computer:操作整个电脑桌面，包括那些只有 GUI 才能完成的任务

再加上 MCP 服务器和各种连接器，AI 的手就从代码仓库伸出去了——伸到 Slack、邮箱、日历、Figma、Notion，伸到任何能用接口或者能被点击的地方。

我做内容创作这条线最深的感受是：真正耗时的不是写作本身，是写作前的准备和写作后的发布。

写作本身可能就一两个小时。

但准备阶段我得：刷推抓信息、读对方原文做笔记、找几个竞品看一眼、看看以前自己写过没。

发布阶段我得：导出 markdown、配封面图、配正文图、压缩图片、转 HTML、贴到公众号后台、改格式、改空格、上传封面。中间任何一步出问题——比如某张图太大上传失败——又得退回来重做。

写作两小时，前后流程三小时。

如果 Codex(或者任何一个能调起浏览器 + 桌面控制 + MCP 的 Agent) 能接管整条流水线——刷推的时候用 chrome 登录状态，发布的时候用 computer 控制公众号后台，中间的图片处理用 MCP 调 sips——那这五个小时里只有写作那两小时是真的需要我的。

剩下三小时，本来就不是创意，本来就是机械操作。

机械操作就该交给机器。

我现在用的就是这套架构，只是工具不是 Codex，是 Claude Code + 一堆我自己写的 skill。但 Codex 这次把这件事做成了开箱即用，门槛低了很多。

在哪里工作都行：任务跑在 Mac 上，人跑在外面

Codex 让你能在 Mac 上启动一个任务，然后离开工位用手机继续跟进。

这件事看起来是个便利功能，其实是个范式转变。

以前 AI Agent 是"我打开电脑，让它干活，我盯着它"。

现在是"我让它干活，我去做自己的事，它有问题手机问我"。

中间差的那个词是：异步。

我自己有过太多次这样的场景：

让 Claude Code 跑一个长任务，比如一批长文档的批量改版，跑要 30 分钟。我盯着屏幕看，30 分钟一动不动。中间它问了我一个选择题，我等了它 30 秒才看到、回了。跑完了我才去喝咖啡。

理论上我可以在它跑的时候去喝咖啡。但现实是——如果手机上没有这条任务的接入口，我喝着咖啡也心里发慌，怕它中间卡住没人理。

Codex 让手机变成了任务的远程办公室。你出门它继续跑，跑到一半遇到决策点手机推一下，你回个"批准"或者"换个思路",它接着跑。

这件事对我这种工作流分散的人来说，省的不是时间，是心智带宽。

我可以让"prompt 优化跑一晚上"这种任务真的跑一晚上，不用整晚每两小时爬起来看一眼。

自动化：让 AI 有自己的心跳

Codex 把自动化分成两种：

定时自动化——每天从零开始跑一次。适合日报、例行扫描、固定的爬数据。

对话流自动化——按时间表回到同一个对话流继续工作。它有记忆、有上下文、有上一次没干完的事。

后者才是真东西。

我马上就想到一个我想做但还没做的东西——一个幕僚长对话流,每 30 分钟跑一次：

过去 30 分钟，检查我的微信、邮箱、X 私信、即刻评论。把需要回复的拉出来，按紧急程度排序。对于那些需要长回复的，去搜一下相关的上下文 (这个人之前问过我什么？我之前回过什么？),起草一份回复，但不要发。把这一切整理成一份待办简报，等我回到电脑前一眼能看完。

这件事不是不能做。Claude Code 也有 hooks 和定时任务的玩法。但 Codex 把它做成了产品级的"对话流自动化",意味着这件事不再需要我搭一整套 cron + script + 状态管理。

更关键的是——它有上下文。

如果是定时自动化，每次跑都得重新告诉它"我是花叔，我在做什么，我关心什么"。

如果是对话流自动化，它接着上次的状态跑——上次它给我起草了一份回复，我看完决定不发，它记得这件事。下次回到对话流，它知道这个人的回复优先级要降下来。

这就是从 AI 工具到 AI 同事的差别。

工具每次都是新的。同事是有连续记忆的。

目标设定：把"做完"变成可被验证的

Codex 给目标设定下了一个非常硬的定义：

目标 = 持续执行 + 验证器

意思是，光说"把这个 markdown 里的计划实现一下"不行，得告诉它怎么算实现完了。

文章里举的例子是把一个 Python 工具迁移到 Rust。糟糕的目标说法："把它迁移完"。好的目标说法："直到所有单元测试全部通过才算完成"。

后者多了一句话：怎么验证。

这件事我从去年开始一直在强调，做"让 AI 自我迭代"的项目时最关键的一条——修改 agent 和评分 agent 必须分离。修改的可以是 AI，评分的也可以是 AI，但不能是同一个。

Codex 把这件事正式化成了一个产品功能：你给它一个目标，再给它一个验证器，它就一直跑到验证器说"过了"为止。

没有验证机制的野心只是许愿。

我对所有想用 AI 做长任务的人都建议过同样一件事——先想好怎么验证。想不清怎么验证，就别让 AI 跑长任务。

短任务可以容忍它跑偏，反正你自己马上能看到。长任务跑偏几个小时之后，损失的不是 token，是你的时间和判断力。

侧边栏：生成结果不再是"导出来才能看"

这件事我必须说一下，因为我等 Claude Code 这个功能等了很久。

Codex 的侧边栏可以直接渲染：

• markdown 文档
• 电子表格、数据表
• 演示文稿 (PPT、Keynote 风格)
• 浏览器中的网页

应用内浏览器还能让你在网页上做标注，AI 直接根据标注修改。

我做公众号写作流水线最痛的环节是：每次让 AI 改一版排版，我得跑命令导出 HTML，打开浏览器看效果，发现哪里不对，回到 AI 对话窗口描述问题，AI 改，再导出，再看。

来回切窗口、来回保存文件、来回对照差异。

如果像 Codex 这样，生成的 HTML 直接在侧边栏渲染，我能在网页上直接圈出来"这段字太大了"——AI 就着我圈的位置改——同一个窗口里我马上能看到改完的效果。

这不是省时间的问题。这是反馈循环长度的问题。

反馈循环越短，迭代效率越高。

我做产品最大的体会，就是把"想法 → 实现 → 看效果 → 调整"这个循环压到几分钟，效率会有一个数量级的跳跃。Codex 的侧边栏，是在 AI 编辑场景里把这个循环又压短了一截。

共享记忆：你的 AI 同事得有工作记忆区

最后一个模块，也是我个人最有感觉的一个。

Codex 的建议非常简单：在一个本地知识库 (说白了就是一个装 markdown 文件的文件夹) 里，放一个 AGENTS.md。这个文件告诉 Codex:哪些事要记下来、记到哪里、什么时候不要瞎改。

这套做法 Claude Code 用户其实早就在用——叫 CLAUDE.md。一个根 CLAUDE.md 告诉 Claude Code:这个项目怎么组织、新想法丢哪个文件夹、做完的工作归到哪、什么时候该自己写笔记、什么时候不要瞎动文件。

Codex 的 AGENTS.md 和 Claude Code 的 CLAUDE.md 是一回事。

它存的不是代码，是工作的滚动上下文——谁参与了、改了什么、卡在哪里、谁跟进、为什么这么决定的、什么时候做的、当时为什么这么想。

这些信息全部锁死在某次聊天里，下次开新窗口就消失了。

锁死的信息没有复利。

写下来的信息有复利——下个月你打开同一个项目，AI 看一眼 CLAUDE.md 就知道整个故事;你自己看一眼也知道。

这件事我想反复强调：

写下来的，会复利;记在脑子里的，会消散;锁在聊天记录里的，会失踪。

Codex 内置了一个叫"记忆"的功能，但官方明确说了——这是辅助你写下来的东西，不是替代它。

对了。这件事真正做过的人都知道——AGENTS.md 或者 CLAUDE.md 写得越用心，AI 越像那个跟你一起干活了很久的同事。

这件事对 Claude Code 用户意味着什么

读完整篇文章，我有个感受要说出来——Codex 已经在产品形态上走在 Claude Code 前面了。

不是模型能力上。模型能力上 Claude Opus 4.7 现在仍然是我用过的最强的写代码模型。

是产品形态。是"AI Agent 怎么和你的工作流融合"这件事的产品化程度。

Claude Code 是个非常优秀的 CLI 工具。CLI 的好处是灵活、可扩展、可写脚本;CLI 的坏处是要求用户能写脚本。

Codex 把这些事——持久对话流、自动化、侧边栏、共享记忆——做成了开箱即用的产品。门槛低了，不会写代码的人也能用。

这是 OpenAI 一直以来最强的地方。技术不一定永远第一，但产品化常常是第一。

我对 Anthropic 的期待是——把 Claude Code 那套硬核灵活性保留下来，同时把这些产品化的体验也补齐。两边各自走得快的部分都吸收过来。

不过有一句话我要补充：

对个人开发者和独立创作者来说，工具的极限不是工具能做什么，而是你能把它用到什么深度。

Codex 把这 8 个模块都做出来了。但能把它们用顺、用透、用出复利的人，仍然是少数。

你要用持久对话流，得先想清楚自己有哪几条工作主线值得长期挂着。

你要用自动化，得先想清楚哪些事每天都在重复、哪些事可以交出去、哪些事必须人来拍板。

你要用共享记忆，得先想清楚自己的笔记库怎么组织、AGENTS.md 怎么写、哪些边界 AI 不能跨。

工具是给有想法的人放大想法的。

没想法的话，给你 Codex 你也用不出来。

总结

Codex 这篇文章我反复读了三遍。

第一遍读的是功能。第二遍读的是结构——8 个模块怎么组合成一个工作流。第三遍读的是态度。

OpenAI 在告诉所有人：写代码只是入口，AI Agent 真正的产品形态，是你买了一个能在你电脑上替你干活的同事。

这个同事有记忆、能被中途纠正、能在你不在的时候继续干、能拿着明确的目标自己往前冲、能把工作结果直接摆到你眼前让你审查。

这件事 Karpathy 一年前就描述过。

这件事 Scott White 在 Anthropic 的会上叫 vibe working。

这件事在 Claude Code 用户那边其实早就用一堆 skill + 一个本地知识库拼出来了。

Codex 现在把它做成了一个开箱即用的产品。

差别不在能不能做，差别在门槛。

门槛降了，更多人会用上。更多人用上之后，会出现一批新的工作方式——不是"我用 AI 帮我做事",是"我和 AI 一起做事"。

Vibe coding → Vibe working.

下一站是什么？我还没想清楚。但 Codex 这篇分享，至少告诉我们 vibe working 这一站长什么样了。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业