我要投稿

2026年了，我强烈推荐你用一用Codex，功能太全面了！附使用指南

发布日期：2026-05-15 02:59:27 浏览次数： 1537

作者：AIGC创意猎人

微信搜一搜，关注“AIGC创意猎人”

最近，很多人在推荐OpenAI的Codex，我自己也使用了一段时间了，可以说是很强大了。

2026年，龙虾从爆火到骤凉，不禁会问：什么样的AI产品是经得起时间考验的？

如果你还没用过Codex，这篇文章是给你写的。

如果你用过Codex，但感觉没发挥出它的价值，这篇文章也是给你写的。

虽然Codex不是一个新的AI产品，但它是今年变化最大的AI产品。

01.Codex是什么？有几个误解

先把几个常见的误解说清楚。

第一个误解：Codex就是Copilot。

不是。

Copilot是代码补全工具，你写一行，它给你补下半行。你是主驾驶，它是副驾驶。你累，但你保持控制。

Codex是什么？你给它一个目标，它自己规划、自己执行、自己验证结果。你是指挥官，它是员工。你只需要说清楚要什么，然后去干别的。

这两件事的本质区别，是"建议"和"执行"的区别。你让Copilot帮你，它给你一堆建议，你来决定用哪个。你让Codex帮你，它把事情做完，你来审查结果。

第二个误解：Codex只是一个编程工具。

也不是。

2026年的Codex是一个多模态、多工具的代理系统。它能处理代码，但它的能力远不止代码。它可以操作浏览器、管理文件、运行终端命令、操控屏幕。2026年5月发布的Chrome扩展，让它可以操作你电脑上所有已登录的网站。你让它帮你填表单，它会自动打开网页、输入内容、提交。你让它帮你整理数据，它会自动从网页里提取数据、格式化、导出文件。

第三个误解：Codex对新手不友好，有门槛。

有门槛，但不是你想的那种门槛。

你不需要会写代码。你需要的是表达能力，说清楚你要什么的能力。你不需要知道代码怎么写，你只需要知道你要做什么。这个门槛，比学一门编程语言低得多。

那Codex到底是什么？

它是一个可以用自然语言指挥的虚拟员工。你不需要教它怎么做，你只需要告诉它你要什么结果。它会自己找路。你在旁边做决策，它在执行。

02.四种入口，总有一个适合你

Codex有四个入口：桌面App、VS Code插件、命令行、Web网页端。

四个入口同一个内核，用哪个都行，看你习惯在哪里工作。

2.1 桌面App

去chatgpt.com/codex下载，支持macOS和Windows。

安装完之后登录你的ChatGPT账号，直接用。

它的界面是一个命令中心，你可以在这里管理多个Agent任务、配置Skills、查看执行结果。

界面里你能看到每个任务的进度，Codex在后台跑的时候，你可以继续做别的事情。它不会锁住你的电脑。

适合谁用：不想装任何东西，直接打开就能用的人。适合刚入门的新手，所有功能一览无余。

2.2 VS Code插件

在VS Code的扩展市场里搜"Codex"，找到OpenAI官方的插件，安装。

装好之后，在编辑器里按住Command+K（Mac）或Ctrl+K（Windows），可以随时唤起Codex面板。

它的好处是，你一边写代码，一边可以让Codex在旁边帮你分析、修改、解释。你不需要切换应用，它就在你工作流里。它可以帮你理解一段你看不懂的代码，可以帮你写一段你不知道怎么写的逻辑，可以帮你排查一个你找不到原因的bug。

适合谁用：开发者，已经习惯在VS Code里工作的人。这是开发者最顺手的入口，因为你的代码文件就在眼前，Codex直接能看到、直接能改。

2.3 命令行CLI

装好之后在终端里敲codex，就能跑。不需要开浏览器，不需要打开任何图形界面。

这个入口适合两种人：一种是习惯在终端里工作的人，终端就是他们的主战场；另一种是想要把Codex集成到自己工作流里的开发者，他们想把Codex的能力嵌入自己的脚本和自动化流程里。

有开发者用CLI把Codex接进了自己的发布系统：代码提交之后，CI自动触发，Codex自动跑测试、自动审查代码、自动出报告。

适合谁用：命令行重度用户，或者想把Codex做成团队基础设施的开发者。

2.4 Web网页版

在浏览器中直接使用，通过 ChatGPT 界面直接对话。

可快速尝试代码想法、将任务挂在云端后台运行、或者利用 GitHub 深度集成进行工程化的代码审查和分析。

03.Codex里可以直接用GPT Image 2

首先，Codex里可以直接用GPT Image 2！

这件事的意义比很多人想象的大。

Codex本身是执行代理，GPT Image 2是图像生成模型。当两者打通，你可以在Codex的对话里直接调用GPT Image 2来生成图片，而不需要切换到ChatGPT网页端。

具体能做什么？

你在做内容的时候，让Codex帮你写文案，让Codex同时调用GPT Image 2帮你生成配图。两者在同一个对话里完成，文案和图片是配套的、风格一致的。

你告诉Codex"帮我写一套产品的宣传文案，同时生成配套的产品图"，它会自己理解产品定位、生成文案、调用图像模型出图。全程不需要切换工具，不需要导出文件，都在Codex里完成。

这是一个完整的内容生产闭环：文字和图片，同一个系统，同一个上下文，配套生成。

04.Chrome扩展，让Codex操作你的浏览器

这是刚刚上周发布的更新，是Codex历史上最重要的一次能力扩展，但大多数人都没注意到。可以点击回看：《OpenAI发布Codex for Chrome，能自动操控浏览器干活了！》

安装方法：Codex桌面App → Plugins → 添加Chrome插件 → 跟随提示安装。

安装过程中，Codex会申请网站的访问权限，你可以设置允许名单和阻止名单。

它具体能做什么？

数据提取。你在某个网页上有一堆数据，告诉它"帮我把这些整理成CSV"，它自己提取、自己结构化、自己导出。以前你要手工复制粘贴几百行数据，现在你只需要说一句话。

表单填写。你有一份名单，让它帮你批量注册账号、批量录入信息，它会自动打开网页、填表、提交。你有五十个客户的地址要录入系统？告诉Codex，它帮你全部搞定。

后台数据监控。你告诉它"每天早上9点检查这个仪表盘，有异常就通知我"，它会自动帮你盯着。一旦出现预设的异常情况，第一时间通知你。你不需要每天手动上去查看，Codex是你24小时不睡觉的监控助手。

CRM批量更新。销售团队每天都花大量时间在CRM系统里录数据、改状态、查客户。现在Codex可以直接帮你完成。你给它一份客户名单，它自己登录系统、自己更新、自己验证结果。

它是怎么执行的？并行后台运行。

这意味着它在执行任务的时候，不会"接管"你的浏览器。你一边正常浏览网页，Codex一边在后台帮你处理任务。它不会打断你的工作，它只是在帮你把你不想做的事情做了。

05.第一次用Codex，该怎么开始？

这是大多数人卡住的地方。

打开Codex，对话框就在那里，但你不知道该说什么。

先说一个常见的新手错误用法：把Codex当搜索引擎用。

"Python怎么实现多线程？"
"React组件怎么传递props？"
"这个bug是什么原因？"

这不太好。

你在问知识，不是在要结果。

Codex不是一个更好的搜索引擎，这些问题你应该去问搜索引擎，或者直接问ChatGPT。

Codex的正确用法是什么？

你给它一个目标，而不是一个问题。

"把这个Python脚本改成支持多线程的"，这是正确的。你要的是一个结果，不是一个答案。

"帮我写一个用户注册的前端页面，包含邮箱、手机号、第三方微信登录"，这是正确的。你要的是一个可用的页面，不是一段代码解释。

"帮我把这个文件夹里的所有文件按日期重命名"，这是正确的。你要的是文件被重命名，不是它告诉你怎么重命名。

记住一个原则：说你要什么，而不是说你怎么做。你告诉它目的地，它自己找路。你不需要知道路怎么走。

小技巧：

5.1 给Codex一个角色定义，它会表现更好。

同样一个任务，不同的说法，效果完全不同。

普通说法："帮我写一个React组件。"

更好的说法："你是一个有三年前端开发经验的工程师，擅长React和TypeScript，帮我写一个用户信息的展示组件。需要展示头像、用户名、注册时间，样式要和现有项目保持一致，使用CSS Modules。"

后者好在哪里？它给了Codex具体的背景：什么样的经验、什么样的技术栈、什么样的风格要求。背景越具体，Codex理解得越准确，出来的结果越接近你要的。

如果你不说"三年经验"，它可能写出一个过于简单的版本。如果你不说"CSS Modules"，它可能用你团队不用的方案。这些细节看起来很小，但往往决定了结果能不能直接用。

5.2 学会让它先做计划。

普通说法："帮我做一个用户系统。"

更好的说法："先告诉我这个系统应该分哪几个模块，每个模块的实现顺序是什么，你列出来我确认之后再开始做。"

这样做有两个好处。第一，你能保持对全局的控制：你知道它在做什么、打算怎么做、为什么这个顺序。如果它的计划里有你不满意的地方，你可以在开始之前纠正。第二，你不会浪费太多时间：Codex做计划很快，如果你不满意，推倒重来也比做完发现方向错了代价小得多。

5.3把大任务拆成小步骤。

Codex擅长做单步骤的精确任务，不擅长一次性处理一个模糊的大方向。你让它做五件事，不如分五次让它做，每次你确认结果再往下走。

错误的做法：跟它说"帮我做一个完整的电商网站"。它会给你一个看起来完整的结构，但每个细节都可能有问题，你最后要花大量时间返工。

正确的做法：先让它设计架构，你确认之后再让它开发商品列表模块，你确认之后再开发购物车模块，你确认之后再开发下单流程。每一小步，你都在控制方向。它做错了，你可以及时纠正，而不是等它把所有代码都写完了才发现这是个灾难。

06.多Agent并行，同时做多件事

Codex有一个被大多数人忽略的能力：多Agent并行。

你可以同时让Codex开两个、三个、甚至更多的Agent，让它们在不同的方向上同时工作，彼此独立，互不干扰。

它还支持Git worktrees。

意思是多个Agent可以在同一个代码库的不同分支上同时工作，彼此隔离，不会产生冲突。你不需要担心两个Agent改到了同一个文件导致混乱，系统会自动处理分支合并。

举一个具体的例子。

你有两个功能要同时开发：一个是搜索结果分页，一个是用户评论系统。这两个功能在代码里可能涉及同一个文件的不同部分。

以前的做法：先做A，做完测试完，再做B。大半天过去了。

现在的做法：让Codex同时开两个Agent，一个做A，一个做B。你去做别的事情，等它们各自做完，系统会自动处理可能的合并冲突。你只需要最后来看结果，确认用哪个版本。

有人用这个方式，同时开了四个Agent，分别做四个独立的功能模块。一个周末做完了以前需要一个团队干两周的活。不是因为他找了帮手，是因为他把四个任务同时跑了。

这个能力听起来好像只是"省时间"。

但它的真正意义在于：你的时间以前花在"执行"上，现在花在"决策"上。

你不需要亲自动手做，你需要判断做得对不对、哪个方案更合理。这是人比AI强的地方，也是你应该把时间花在哪里。

07.Skills，把你的团队经验工具化

Skills是Codex里一个很强大，但被很多人用不明白的功能。

它的定义是：可扩展的指令加资源加脚本包。

翻译成人话就是，你把你团队的规范、流程、特定的操作步骤，打包成一个"技能包"，之后Codex每次工作的时候会按照你设定的规范来，不需要你每次都重复提醒。

举个例子。你的团队用的是特定的React架构，组件文件必须放在特定目录，样式必须用CSS Modules，测试文件必须和组件放在同一个目录，API请求必须用统一的请求拦截器。这些规矩是你们团队自己的，不是业界通行的规范，是你们花了很长时间才沉淀出来的。

你把这些规范定义成一个Skill，叫做"我们团队的React规范"。你把这个Skill配置好，之后每次让Codex开发新组件，它会自动按照这套规范来。它不需要你每次都说"组件放这个目录""样式用那个方案""请求用那个拦截器"，它自己知道。

这个功能的本质是把你的团队经验"工具化"。

以前你团队花了很长时间才积累出这些规范，新来的人需要时间才能学会。现在你把这些规范写进Skill，Codex会替你执行，不需要每个人都知道这些规矩。好的经验从此可以被复用，而不只是存在于某个人的脑子里。

官方开源的Skills库里已经包括了这些可以直接用的：

Figma转代码。你在Figma里设计好了页面，告诉Codex"把这个Figma设计转成代码"，它自己识别设计元素、自己生成对应的React或Vue代码。

Linear项目管理。你告诉Codex"帮我创建一个Linear任务，标题是XX，指派给XX，优先级高"，它自己登录Linear、创建任务、加标签。

Vercel或Netlify部署。你让Codex开发完一个功能，告诉它"帮我部署到Vercel"，它自己打包、上传、配置域名。

PDF和Excel处理。你扔给Codex一份PDF或Excel，告诉它"帮我提取里面的数据，整理成结构化的表格"，它自己读取、处理、导出。

你不需要自己写这些Skill，直接配置就能用。

08.Automations，在你睡觉的时候工作

Automations是另一个被低估的功能。

它的意思是，你可以设定一个定时任务，让Codex每天自动执行某个操作，结果进入审查队列等你看。

这意味着你不需要在电脑前，Codex可以自己干活。

具体能做什么？举几个例子。

每天早上9点自动把前一天的bug按照严重程度分类排序，帮你判断哪些先修、哪些可以往后排。以前需要一个人每天花半小时整理这些，现在Codex在你睡觉的时候就做完了，你早上起来只需要看结论，直接开始判断优先级。
每天自动检查CI的运行结果，把失败的case提取出来，分析原因，给出修复建议。工程师每天早上不需要去CI面板前逐条查看，Codex会直接给你一份摘要，告诉你哪里出了问题、可能的原因是什么、建议怎么修。

有人在推特上分享了他的用法，效果很具体。

他让Codex每天趁他入睡的时候自动优化工作流，他给它起名叫Moltbot。第一天晚上，Moltbot发现他的代码库里缺少一个统一的错误处理模块，它自己写了一个给他。第二天晚上，它发现有一堆重复的SQL查询，它写了一个脚本把它们合并成了一个通用函数。第三天晚上，它发现日志文件越来越大，自动写了一个日志轮转脚本。第四天晚上，它给他设计了一个专属的代码仓库形象，把readme换成了一套更清晰的结构。

他没有在工作，他只是睡了一觉。他的AI在帮他把代码库里可以优化的地方一个一个找出来，每天醒来都有一点小惊喜。

这就是Automations的意义：你睡觉的时候，它在干活。你醒来的时候，它已经把能做的事情做了，你来做决策就行。

09.Computer Use，操控你的屏幕

Codex还有一个能力，是在macOS上查看屏幕、截图、操作窗口、操作键盘和剪贴板。

它的执行方式是并行后台执行，不抢焦点。你一边正常工作，Codex在后台帮你处理屏幕上的任务，它不会在你屏幕上弹出一个框打断你。

这个能力的边界在于：它目前主要是给macOS用的。Windows的支持有限。

它能帮你做什么？

帮你自动操作那些需要手动点击和输入的工作。

你告诉它"帮我每天早上打开这个后台系统，检查一下昨天的数据有没有异常"，它会自己操作屏幕：打开浏览器、导航到网址、登录、查看数据、判断有没有异常。它在做你每天早上都要做的那些重复性的手工操作。
你告诉它"帮我把这个网页上的表格数据都复制到Excel里"，它会自己操作：选中表格、复制、打开Excel、粘贴。它在替你做那些需要复制粘贴的脏活累活。
你告诉它"帮我截一张这个网页的图，要包含最新的数据更新部分"，它会自己滚动到正确位置、截图、保存。

这些事情的共同特点是：说起来都是一句话，但做起来都要好几步，而且每一步都很机械。以前你只能手工做，现在Codex可以替你做。