微信扫码
添加专属顾问
我要投稿
Codex正从编程助手进化为能替你干活的AI同事,OpenAI官方指南揭示了8个核心模块如何重塑工作流。核心内容:1. 持久对话流:创建可长期挂载的专属工作空间2. 语音输入:即时捕捉未加修饰的原始想法3. 模块化整合:将AI深度嵌入日常任务与决策流程
Codex 团队前几天发了一篇博客,讲怎么把它用到极致。
读完之后我感触颇多,不是因为里面讲的功能多炫——8 个模块,持久对话流、语音输入、干预排队、工具触达、自动化、目标设定、侧边栏、共享记忆——而是这些功能合起来,已经不是一个"编程助手"了。
我每天用 Claude Code 的时长远高于 Codex。说实话,我对 Codex 的兴趣,主要是想看看 OpenAI 这家在通用智能上最激进的公司,会把"代码编辑器"这个产品做成什么样。
现在他们给了答案。
写代码只是入口。真正的产品形态是:你买了一个能在你电脑上替你干活的 AI 同事。
这件事我去年写 Agent Teams 那篇的时候提过一句——Scott White 在 Anthropic 的会上说 "We are now transitioning almost into vibe working"。Vibe coding 是让 AI 帮你写代码,vibe working 是让 AI 帮你干活。
Codex 这篇分享,就是 vibe working 的官方说明书。
我把它读完之后,把里面 8 个模块分别对应到我自己的工作流里走了一遍。有些是我已经在用别的工具实现的,有些是我应该做但还没做的,还有些是 Claude Code 目前还没有但 Codex 已经做出来了的。
下面一个一个聊。
Codex 把对话窗口分成两种:聊完就忘的,和长期挂着的。
长期挂着的那种叫持久对话流。你给它起个名字——幕僚长、产品发布、文档审查——按 Cmd-1 到 Cmd-9 随时切回去。它记得你们之前聊到哪、定下了什么、你的偏好是什么。
这件事 Claude Code 里其实也有——每个项目目录就是一个对话上下文,CLAUDE.md 是这个上下文的记忆文件。但 Codex 做了一件更细的事:对话流不依附于代码仓库。
我马上想到一个场景。
我有一个长期跑的"公众号选题"对话流。每天我刷推、看公众号、和朋友聊天的时候,但凡冒出来"这事可以写一篇"的想法,我就丢进去。它累积着所有的待写选题、每个选题的角度、为什么我当时觉得它值得写、后来又为什么放弃了。
现在大多数人的方案是这样:一个笔记软件里的临时清单,加上一个不定期开起来整理的 Claude Code 会话。两个地方,状态不同步,每次切回来都得花几分钟"上下文回灌"。
如果换成 Codex 的持久对话流——它自己记住所有上下文,我直接说"昨天刷到那条 Karpathy 的推,我觉得可以写",它就接着上次的讨论继续。
Cmd-1 是选题流。Cmd-2 是长文写作流。Cmd-3 是工具迭代流。
这不再是聊天窗口了,是工作空间。
我一直觉得自己说话比写字更接近真实想法。
打字的时候,大脑会自动修整句子——把模糊的想法掐头去尾,变成一个看起来通顺的表达。修整过的东西就丢失了那些没想清楚的部分。但很多时候,正是没想清楚的部分里藏着真东西。
Codex 内置了语音输入。它的核心场景不是替代键盘,是在你还没想清楚的时候,先让你把脑子里的混乱倒出来。
举个例子。
我经常在散步的时候冒出来一些念头,但具体怎么做,第一秒钟我自己也讲不清。如果让我回家坐到电脑前再把它打出来,95% 的概率我会把那个没成型的念头写得看起来很合理——然后就没下文了。
如果当场对着手机说三分钟:
那个让 AI 自己改 prompt 的事,我觉得不能让它自己跑。
得有一个验证器,但验证器自己也会跑偏。
所以验证器得有验证器的验证器吗?
这就死循环了。
但也许不需要无限套娃,只要人在某个层级上有一票否决权就行。
这段东西打出来我自己都不愿意打。但说出来之后,AI Agent 拿着它就能接着往下想——你刚才提到的"人在某个层级上有一票否决权",这件事在 Mitchell Hashimoto 的 Harness Engineering 那篇里有过类似的说法。
录音转写也是同一个意思。一份未经修剪的会议记录,比一份漂亮的会议总结有用得多。粗糙里有信息,整齐里只有结论。
这两个词翻译完容易混。我自己习惯这么记:
干预是踩刹车,排队是排下一站。
干预——AI 正在做一件事,你看到它跑偏了,你要它立刻停下来换方向。在 Claude Code 里我经常按 Esc 然后补一句"等等,往左转一点"。这就是干预。
排队——AI 还在做当前这件事,你不想打断它,但你想好了下一步该让它做什么,提前告诉它。它做完手头的就接着做下一件。
Claude Code 现在也有了排队(我用的是 1.x 之后的版本)。但 Codex 把这两个动作做得更直观——侧边栏里你能看到它在做什么、你可以一边在网页上标注一边喊停、做完之后队列里的下一个任务自动接上。
这件事对什么人有用?
对编排者有用。
举个例子。让一个 Agent 帮我调研某个人物,我在旁边刷它的研究结果。我看到它搜的方向不对,得能立刻拽它回来;同时我心里已经想好下一步该让它查什么了,得能提前告诉它"这个查完接着查 X"。
如果只能等它干完一件事我再说一句,整个流程就会卡在我身上。我变成了瓶颈。
干预和排队这两个动作合起来,本质是把"控制权"从"任务结束的那一刻"这个唯一时间点,扩展到了任务执行的全过程。
人的判断什么时候介入?任何时候都能介入。
工具越强,人的判断越重要。我说过太多次了。但这句话有一个前提:人的判断必须能在任何时候介入到正在运行的 AI 任务里,不能只在任务完成后做事后审查。
干预 + 排队就是这个前提的产品化。
Codex 列了三个工具入口:
$browser:侧边栏里的浏览器,AI 可以看渲染好的网页、做标注@chrome:复用你 Chrome 的登录状态,处理需要登录的网页流程@computer:操作整个电脑桌面,包括那些只有 GUI 才能完成的任务再加上 MCP 服务器和各种连接器,AI 的手就从代码仓库伸出去了——伸到 Slack、邮箱、日历、Figma、Notion,伸到任何能用接口或者能被点击的地方。
我做内容创作这条线最深的感受是:真正耗时的不是写作本身,是写作前的准备和写作后的发布。
写作本身可能就一两个小时。
但准备阶段我得:刷推抓信息、读对方原文做笔记、找几个竞品看一眼、看看以前自己写过没。
发布阶段我得:导出 markdown、配封面图、配正文图、压缩图片、转 HTML、贴到公众号后台、改格式、改空格、上传封面。中间任何一步出问题——比如某张图太大上传失败——又得退回来重做。
写作两小时,前后流程三小时。
如果 Codex(或者任何一个能调起浏览器 + 桌面控制 + MCP 的 Agent) 能接管整条流水线——刷推的时候用 chrome 登录状态,发布的时候用 computer 控制公众号后台,中间的图片处理用 MCP 调 sips——那这五个小时里只有写作那两小时是真的需要我的。
剩下三小时,本来就不是创意,本来就是机械操作。
机械操作就该交给机器。
我现在用的就是这套架构,只是工具不是 Codex,是 Claude Code + 一堆我自己写的 skill。但 Codex 这次把这件事做成了开箱即用,门槛低了很多。
Codex 让你能在 Mac 上启动一个任务,然后离开工位用手机继续跟进。
这件事看起来是个便利功能,其实是个范式转变。
以前 AI Agent 是"我打开电脑,让它干活,我盯着它"。
现在是"我让它干活,我去做自己的事,它有问题手机问我"。
中间差的那个词是:异步。
我自己有过太多次这样的场景:
让 Claude Code 跑一个长任务,比如一批长文档的批量改版,跑要 30 分钟。我盯着屏幕看,30 分钟一动不动。中间它问了我一个选择题,我等了它 30 秒才看到、回了。跑完了我才去喝咖啡。
理论上我可以在它跑的时候去喝咖啡。但现实是——如果手机上没有这条任务的接入口,我喝着咖啡也心里发慌,怕它中间卡住没人理。
Codex 让手机变成了任务的远程办公室。你出门它继续跑,跑到一半遇到决策点手机推一下,你回个"批准"或者"换个思路",它接着跑。
这件事对我这种工作流分散的人来说,省的不是时间,是心智带宽。
我可以让"prompt 优化跑一晚上"这种任务真的跑一晚上,不用整晚每两小时爬起来看一眼。
Codex 把自动化分成两种:
定时自动化——每天从零开始跑一次。适合日报、例行扫描、固定的爬数据。
对话流自动化——按时间表回到同一个对话流继续工作。它有记忆、有上下文、有上一次没干完的事。
后者才是真东西。
我马上就想到一个我想做但还没做的东西——一个幕僚长对话流,每 30 分钟跑一次:
过去 30 分钟,检查我的微信、邮箱、X 私信、即刻评论。把需要回复的拉出来,按紧急程度排序。对于那些需要长回复的,去搜一下相关的上下文 (这个人之前问过我什么?我之前回过什么?),起草一份回复,但不要发。把这一切整理成一份待办简报,等我回到电脑前一眼能看完。
这件事不是不能做。Claude Code 也有 hooks 和定时任务的玩法。但 Codex 把它做成了产品级的"对话流自动化",意味着这件事不再需要我搭一整套 cron + script + 状态管理。
更关键的是——它有上下文。
如果是定时自动化,每次跑都得重新告诉它"我是花叔,我在做什么,我关心什么"。
如果是对话流自动化,它接着上次的状态跑——上次它给我起草了一份回复,我看完决定不发,它记得这件事。下次回到对话流,它知道这个人的回复优先级要降下来。
这就是从 AI 工具到 AI 同事的差别。
工具每次都是新的。同事是有连续记忆的。
Codex 给目标设定下了一个非常硬的定义:
目标 = 持续执行 + 验证器
意思是,光说"把这个 markdown 里的计划实现一下"不行,得告诉它怎么算实现完了。
文章里举的例子是把一个 Python 工具迁移到 Rust。糟糕的目标说法:"把它迁移完"。好的目标说法:"直到所有单元测试全部通过才算完成"。
后者多了一句话:怎么验证。
这件事我从去年开始一直在强调,做"让 AI 自我迭代"的项目时最关键的一条——修改 agent 和评分 agent 必须分离。修改的可以是 AI,评分的也可以是 AI,但不能是同一个。
Codex 把这件事正式化成了一个产品功能:你给它一个目标,再给它一个验证器,它就一直跑到验证器说"过了"为止。
没有验证机制的野心只是许愿。
我对所有想用 AI 做长任务的人都建议过同样一件事——先想好怎么验证。想不清怎么验证,就别让 AI 跑长任务。
短任务可以容忍它跑偏,反正你自己马上能看到。长任务跑偏几个小时之后,损失的不是 token,是你的时间和判断力。
这件事我必须说一下,因为我等 Claude Code 这个功能等了很久。
Codex 的侧边栏可以直接渲染:
应用内浏览器还能让你在网页上做标注,AI 直接根据标注修改。
我做公众号写作流水线最痛的环节是:每次让 AI 改一版排版,我得跑命令导出 HTML,打开浏览器看效果,发现哪里不对,回到 AI 对话窗口描述问题,AI 改,再导出,再看。
来回切窗口、来回保存文件、来回对照差异。
如果像 Codex 这样,生成的 HTML 直接在侧边栏渲染,我能在网页上直接圈出来"这段字太大了"——AI 就着我圈的位置改——同一个窗口里我马上能看到改完的效果。
这不是省时间的问题。这是反馈循环长度的问题。
反馈循环越短,迭代效率越高。
我做产品最大的体会,就是把"想法 → 实现 → 看效果 → 调整"这个循环压到几分钟,效率会有一个数量级的跳跃。Codex 的侧边栏,是在 AI 编辑场景里把这个循环又压短了一截。
最后一个模块,也是我个人最有感觉的一个。
Codex 的建议非常简单:在一个本地知识库 (说白了就是一个装 markdown 文件的文件夹) 里,放一个 AGENTS.md。这个文件告诉 Codex:哪些事要记下来、记到哪里、什么时候不要瞎改。
这套做法 Claude Code 用户其实早就在用——叫 CLAUDE.md。一个根 CLAUDE.md 告诉 Claude Code:这个项目怎么组织、新想法丢哪个文件夹、做完的工作归到哪、什么时候该自己写笔记、什么时候不要瞎动文件。
Codex 的 AGENTS.md 和 Claude Code 的 CLAUDE.md 是一回事。
它存的不是代码,是工作的滚动上下文——谁参与了、改了什么、卡在哪里、谁跟进、为什么这么决定的、什么时候做的、当时为什么这么想。
这些信息全部锁死在某次聊天里,下次开新窗口就消失了。
锁死的信息没有复利。
写下来的信息有复利——下个月你打开同一个项目,AI 看一眼 CLAUDE.md 就知道整个故事;你自己看一眼也知道。
这件事我想反复强调:
写下来的,会复利;记在脑子里的,会消散;锁在聊天记录里的,会失踪。
Codex 内置了一个叫"记忆"的功能,但官方明确说了——这是辅助你写下来的东西,不是替代它。
对了。这件事真正做过的人都知道——AGENTS.md 或者 CLAUDE.md 写得越用心,AI 越像那个跟你一起干活了很久的同事。
读完整篇文章,我有个感受要说出来——Codex 已经在产品形态上走在 Claude Code 前面了。
不是模型能力上。模型能力上 Claude Opus 4.7 现在仍然是我用过的最强的写代码模型。
是产品形态。是"AI Agent 怎么和你的工作流融合"这件事的产品化程度。
Claude Code 是个非常优秀的 CLI 工具。CLI 的好处是灵活、可扩展、可写脚本;CLI 的坏处是要求用户能写脚本。
Codex 把这些事——持久对话流、自动化、侧边栏、共享记忆——做成了开箱即用的产品。门槛低了,不会写代码的人也能用。
这是 OpenAI 一直以来最强的地方。技术不一定永远第一,但产品化常常是第一。
我对 Anthropic 的期待是——把 Claude Code 那套硬核灵活性保留下来,同时把这些产品化的体验也补齐。两边各自走得快的部分都吸收过来。
不过有一句话我要补充:
对个人开发者和独立创作者来说,工具的极限不是工具能做什么,而是你能把它用到什么深度。
Codex 把这 8 个模块都做出来了。但能把它们用顺、用透、用出复利的人,仍然是少数。
你要用持久对话流,得先想清楚自己有哪几条工作主线值得长期挂着。
你要用自动化,得先想清楚哪些事每天都在重复、哪些事可以交出去、哪些事必须人来拍板。
你要用共享记忆,得先想清楚自己的笔记库怎么组织、AGENTS.md 怎么写、哪些边界 AI 不能跨。
工具是给有想法的人放大想法的。
没想法的话,给你 Codex 你也用不出来。
Codex 这篇文章我反复读了三遍。
第一遍读的是功能。第二遍读的是结构——8 个模块怎么组合成一个工作流。第三遍读的是态度。
OpenAI 在告诉所有人:写代码只是入口,AI Agent 真正的产品形态,是你买了一个能在你电脑上替你干活的同事。
这个同事有记忆、能被中途纠正、能在你不在的时候继续干、能拿着明确的目标自己往前冲、能把工作结果直接摆到你眼前让你审查。
这件事 Karpathy 一年前就描述过。
这件事 Scott White 在 Anthropic 的会上叫 vibe working。
这件事在 Claude Code 用户那边其实早就用一堆 skill + 一个本地知识库拼出来了。
Codex 现在把它做成了一个开箱即用的产品。
差别不在能不能做,差别在门槛。
门槛降了,更多人会用上。更多人用上之后,会出现一批新的工作方式——不是"我用 AI 帮我做事",是"我和 AI 一起做事"。
Vibe coding → Vibe working.
下一站是什么?我还没想清楚。但 Codex 这篇分享,至少告诉我们 vibe working 这一站长什么样了。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2026-05-25
Opera Neon 推出 opera-browser-cli,浏览器进入 AI Agent 时代
2026-05-25
前端工程师转AICoding指南手册:从设计稿到像素级还原
2026-05-25
RenderFlow:百度垂类搜索展现服务的 Agentic 代码交付实践
2026-05-25
Claude「永久大脑」,真的来了!
2026-05-25
万级实时推理的商品领域Agent实践思考和总结
2026-05-24
我把 AI 账单从 30 美金打到 5 美金
2026-05-24
企业级智能体,必须长在自己的业务里
2026-05-24
Shopify 23,000 名工程师背后的 Claude Code 配置方案
2026-04-15
2026-04-07
2026-03-31
2026-03-13
2026-04-07
2026-03-17
2026-03-17
2026-03-21
2026-04-24
2026-03-06
2026-05-23
2026-05-21
2026-05-19
2026-05-09
2026-05-09
2026-05-09
2026-05-08
2026-05-07