免费POC, 零成本试错
AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


我要投稿

2026年了,我强烈推荐你用一用Codex,功能太全面了!附使用指南

发布日期:2026-05-15 02:59:27 浏览次数: 1537
作者:AIGC创意猎人

微信搜一搜,关注“AIGC创意猎人”

推荐语

Codex已从代码助手进化为全能虚拟员工,2026年它如何帮你自动执行任务?

核心内容:
1. 澄清Codex与Copilot的本质区别:从“建议”到“执行”
2. 揭示Codex的多模态能力:操作浏览器、管理文件、运行命令
3. 介绍四种使用入口与新手友好的低门槛特性

杨芳贤
53AI创始人/腾讯云(TVP)最具价值专家

最近,很多人在推荐OpenAI的Codex,我自己也使用了一段时间了,可以说是很强大了。

2026年,龙虾从爆火到骤凉,不禁会问:什么样的AI产品是经得起时间考验的?

如果你还没用过Codex,这篇文章是给你写的。

如果你用过Codex,但感觉没发挥出它的价值,这篇文章也是给你写的。

虽然Codex不是一个新的AI产品,但它是今年变化最大的AI产品。

Image


01.Codex是什么?有几个误解

先把几个常见的误解说清楚。

Image

第一个误解:Codex就是Copilot。

不是。

Copilot是代码补全工具,你写一行,它给你补下半行。你是主驾驶,它是副驾驶。你累,但你保持控制。

Codex是什么?你给它一个目标,它自己规划、自己执行、自己验证结果。你是指挥官,它是员工。你只需要说清楚要什么,然后去干别的。

这两件事的本质区别,是"建议"和"执行"的区别。你让Copilot帮你,它给你一堆建议,你来决定用哪个。你让Codex帮你,它把事情做完,你来审查结果。

第二个误解:Codex只是一个编程工具。

也不是。

2026年的Codex是一个多模态、多工具的代理系统。它能处理代码,但它的能力远不止代码。它可以操作浏览器、管理文件、运行终端命令、操控屏幕。2026年5月发布的Chrome扩展,让它可以操作你电脑上所有已登录的网站。你让它帮你填表单,它会自动打开网页、输入内容、提交。你让它帮你整理数据,它会自动从网页里提取数据、格式化、导出文件。

第三个误解:Codex对新手不友好,有门槛。

有门槛,但不是你想的那种门槛。

你不需要会写代码。你需要的是表达能力,说清楚你要什么的能力。你不需要知道代码怎么写,你只需要知道你要做什么。这个门槛,比学一门编程语言低得多。

那Codex到底是什么?

它是一个可以用自然语言指挥的虚拟员工。你不需要教它怎么做,你只需要告诉它你要什么结果。它会自己找路。你在旁边做决策,它在执行。


02.四种入口,总有一个适合你

Codex有四个入口:桌面App、VS Code插件、命令行、Web网页端。

Image

四个入口同一个内核,用哪个都行,看你习惯在哪里工作。

2.1 桌面App

chatgpt.com/codex下载,支持macOS和Windows。

Image

安装完之后登录你的ChatGPT账号,直接用。

它的界面是一个命令中心,你可以在这里管理多个Agent任务、配置Skills、查看执行结果。

界面里你能看到每个任务的进度,Codex在后台跑的时候,你可以继续做别的事情。它不会锁住你的电脑。

适合谁用:不想装任何东西,直接打开就能用的人。适合刚入门的新手,所有功能一览无余。


2.2 VS Code插件

在VS Code的扩展市场里搜"Codex",找到OpenAI官方的插件,安装。

Image

装好之后,在编辑器里按住Command+K(Mac)或Ctrl+K(Windows),可以随时唤起Codex面板。

它的好处是,你一边写代码,一边可以让Codex在旁边帮你分析、修改、解释。你不需要切换应用,它就在你工作流里。它可以帮你理解一段你看不懂的代码,可以帮你写一段你不知道怎么写的逻辑,可以帮你排查一个你找不到原因的bug。

适合谁用:开发者,已经习惯在VS Code里工作的人。这是开发者最顺手的入口,因为你的代码文件就在眼前,Codex直接能看到、直接能改。


2.3 命令行CLI

装好之后在终端里敲codex,就能跑。不需要开浏览器,不需要打开任何图形界面。

Image

这个入口适合两种人:一种是习惯在终端里工作的人,终端就是他们的主战场;另一种是想要把Codex集成到自己工作流里的开发者,他们想把Codex的能力嵌入自己的脚本和自动化流程里。

有开发者用CLI把Codex接进了自己的发布系统:代码提交之后,CI自动触发,Codex自动跑测试、自动审查代码、自动出报告。

适合谁用:命令行重度用户,或者想把Codex做成团队基础设施的开发者。


2.4 Web网页版

在浏览器中直接使用,通过 ChatGPT 界面直接对话。

Image

可快速尝试代码想法、将任务挂在云端后台运行、或者利用 GitHub 深度集成进行工程化的代码审查和分析。


03.Codex里可以直接用GPT Image 2

首先,Codex里可以直接用GPT Image 2!

这件事的意义比很多人想象的大。

Image

Codex本身是执行代理,GPT Image 2是图像生成模型。当两者打通,你可以在Codex的对话里直接调用GPT Image 2来生成图片,而不需要切换到ChatGPT网页端。

具体能做什么?

你在做内容的时候,让Codex帮你写文案,让Codex同时调用GPT Image 2帮你生成配图。两者在同一个对话里完成,文案和图片是配套的、风格一致的。

你告诉Codex"帮我写一套产品的宣传文案,同时生成配套的产品图",它会自己理解产品定位、生成文案、调用图像模型出图。全程不需要切换工具,不需要导出文件,都在Codex里完成。

这是一个完整的内容生产闭环:文字和图片,同一个系统,同一个上下文,配套生成。


04.Chrome扩展,让Codex操作你的浏览器

这是刚刚上周发布的更新,是Codex历史上最重要的一次能力扩展,但大多数人都没注意到。可以点击回看:《OpenAI发布Codex for Chrome,能自动操控浏览器干活了!

安装方法:Codex桌面App → Plugins → 添加Chrome插件 → 跟随提示安装

安装过程中,Codex会申请网站的访问权限,你可以设置允许名单和阻止名单。

Image

它具体能做什么?

数据提取。 你在某个网页上有一堆数据,告诉它"帮我把这些整理成CSV",它自己提取、自己结构化、自己导出。以前你要手工复制粘贴几百行数据,现在你只需要说一句话。

表单填写。 你有一份名单,让它帮你批量注册账号、批量录入信息,它会自动打开网页、填表、提交。你有五十个客户的地址要录入系统?告诉Codex,它帮你全部搞定。

后台数据监控。 你告诉它"每天早上9点检查这个仪表盘,有异常就通知我",它会自动帮你盯着。一旦出现预设的异常情况,第一时间通知你。你不需要每天手动上去查看,Codex是你24小时不睡觉的监控助手。

CRM批量更新。 销售团队每天都花大量时间在CRM系统里录数据、改状态、查客户。现在Codex可以直接帮你完成。你给它一份客户名单,它自己登录系统、自己更新、自己验证结果。

它是怎么执行的?并行后台运行。

这意味着它在执行任务的时候,不会"接管"你的浏览器。你一边正常浏览网页,Codex一边在后台帮你处理任务。它不会打断你的工作,它只是在帮你把你不想做的事情做了。


05.第一次用Codex,该怎么开始?

这是大多数人卡住的地方。

打开Codex,对话框就在那里,但你不知道该说什么。

先说一个常见的新手错误用法:把Codex当搜索引擎用。

  • "Python怎么实现多线程?"
  • "React组件怎么传递props?"
  • "这个bug是什么原因?"

这不太好。

你在问知识,不是在要结果。

Codex不是一个更好的搜索引擎,这些问题你应该去问搜索引擎,或者直接问ChatGPT。

Codex的正确用法是什么?

你给它一个目标,而不是一个问题。

"把这个Python脚本改成支持多线程的",这是正确的。你要的是一个结果,不是一个答案。

"帮我写一个用户注册的前端页面,包含邮箱、手机号、第三方微信登录",这是正确的。你要的是一个可用的页面,不是一段代码解释。

"帮我把这个文件夹里的所有文件按日期重命名",这是正确的。你要的是文件被重命名,不是它告诉你怎么重命名。

记住一个原则:说你要什么,而不是说你怎么做。你告诉它目的地,它自己找路。你不需要知道路怎么走。

Image

小技巧:

5.1 给Codex一个角色定义,它会表现更好。

同样一个任务,不同的说法,效果完全不同。

普通说法:"帮我写一个React组件。"

更好的说法:"你是一个有三年前端开发经验的工程师,擅长React和TypeScript,帮我写一个用户信息的展示组件。需要展示头像、用户名、注册时间,样式要和现有项目保持一致,使用CSS Modules。"

后者好在哪里?它给了Codex具体的背景:什么样的经验、什么样的技术栈、什么样的风格要求。背景越具体,Codex理解得越准确,出来的结果越接近你要的。

如果你不说"三年经验",它可能写出一个过于简单的版本。如果你不说"CSS Modules",它可能用你团队不用的方案。这些细节看起来很小,但往往决定了结果能不能直接用。

5.2 学会让它先做计划。

普通说法:"帮我做一个用户系统。"

更好的说法:"先告诉我这个系统应该分哪几个模块,每个模块的实现顺序是什么,你列出来我确认之后再开始做。"

这样做有两个好处。第一,你能保持对全局的控制:你知道它在做什么、打算怎么做、为什么这个顺序。如果它的计划里有你不满意的地方,你可以在开始之前纠正。第二,你不会浪费太多时间:Codex做计划很快,如果你不满意,推倒重来也比做完发现方向错了代价小得多。

5.3把大任务拆成小步骤。

Codex擅长做单步骤的精确任务,不擅长一次性处理一个模糊的大方向。你让它做五件事,不如分五次让它做,每次你确认结果再往下走。

错误的做法:跟它说"帮我做一个完整的电商网站"。它会给你一个看起来完整的结构,但每个细节都可能有问题,你最后要花大量时间返工。

正确的做法:先让它设计架构,你确认之后再让它开发商品列表模块,你确认之后再开发购物车模块,你确认之后再开发下单流程。每一小步,你都在控制方向。它做错了,你可以及时纠正,而不是等它把所有代码都写完了才发现这是个灾难。


06.多Agent并行,同时做多件事

Codex有一个被大多数人忽略的能力:多Agent并行。

你可以同时让Codex开两个、三个、甚至更多的Agent,让它们在不同的方向上同时工作,彼此独立,互不干扰。

它还支持Git worktrees。

意思是多个Agent可以在同一个代码库的不同分支上同时工作,彼此隔离,不会产生冲突。你不需要担心两个Agent改到了同一个文件导致混乱,系统会自动处理分支合并。

举一个具体的例子。

你有两个功能要同时开发:一个是搜索结果分页,一个是用户评论系统。这两个功能在代码里可能涉及同一个文件的不同部分。

以前的做法:先做A,做完测试完,再做B。大半天过去了。

现在的做法:让Codex同时开两个Agent,一个做A,一个做B。你去做别的事情,等它们各自做完,系统会自动处理可能的合并冲突。你只需要最后来看结果,确认用哪个版本。

有人用这个方式,同时开了四个Agent,分别做四个独立的功能模块。一个周末做完了以前需要一个团队干两周的活。不是因为他找了帮手,是因为他把四个任务同时跑了。

这个能力听起来好像只是"省时间"。

但它的真正意义在于:你的时间以前花在"执行"上,现在花在"决策"上。

你不需要亲自动手做,你需要判断做得对不对、哪个方案更合理。这是人比AI强的地方,也是你应该把时间花在哪里。


07.Skills,把你的团队经验工具化

Skills是Codex里一个很强大,但被很多人用不明白的功能。

它的定义是:可扩展的指令加资源加脚本包。

翻译成人话就是,你把你团队的规范、流程、特定的操作步骤,打包成一个"技能包",之后Codex每次工作的时候会按照你设定的规范来,不需要你每次都重复提醒。

Image

举个例子。你的团队用的是特定的React架构,组件文件必须放在特定目录,样式必须用CSS Modules,测试文件必须和组件放在同一个目录,API请求必须用统一的请求拦截器。这些规矩是你们团队自己的,不是业界通行的规范,是你们花了很长时间才沉淀出来的。

你把这些规范定义成一个Skill,叫做"我们团队的React规范"。你把这个Skill配置好,之后每次让Codex开发新组件,它会自动按照这套规范来。它不需要你每次都说"组件放这个目录""样式用那个方案""请求用那个拦截器",它自己知道。

这个功能的本质是把你的团队经验"工具化"。

以前你团队花了很长时间才积累出这些规范,新来的人需要时间才能学会。现在你把这些规范写进Skill,Codex会替你执行,不需要每个人都知道这些规矩。好的经验从此可以被复用,而不只是存在于某个人的脑子里。

官方开源的Skills库里已经包括了这些可以直接用的:

Figma转代码。你在Figma里设计好了页面,告诉Codex"把这个Figma设计转成代码",它自己识别设计元素、自己生成对应的React或Vue代码。

Linear项目管理。你告诉Codex"帮我创建一个Linear任务,标题是XX,指派给XX,优先级高",它自己登录Linear、创建任务、加标签。

Vercel或Netlify部署。你让Codex开发完一个功能,告诉它"帮我部署到Vercel",它自己打包、上传、配置域名。

PDF和Excel处理。你扔给Codex一份PDF或Excel,告诉它"帮我提取里面的数据,整理成结构化的表格",它自己读取、处理、导出。

你不需要自己写这些Skill,直接配置就能用。


08.Automations,在你睡觉的时候工作

Automations是另一个被低估的功能。

它的意思是,你可以设定一个定时任务,让Codex每天自动执行某个操作,结果进入审查队列等你看。

Image

这意味着你不需要在电脑前,Codex可以自己干活。

具体能做什么?举几个例子。

  • 每天早上9点自动把前一天的bug按照严重程度分类排序,帮你判断哪些先修、哪些可以往后排。以前需要一个人每天花半小时整理这些,现在Codex在你睡觉的时候就做完了,你早上起来只需要看结论,直接开始判断优先级。
  • 每天自动检查CI的运行结果,把失败的case提取出来,分析原因,给出修复建议。工程师每天早上不需要去CI面板前逐条查看,Codex会直接给你一份摘要,告诉你哪里出了问题、可能的原因是什么、建议怎么修。

有人在推特上分享了他的用法,效果很具体。

他让Codex每天趁他入睡的时候自动优化工作流,他给它起名叫Moltbot。第一天晚上,Moltbot发现他的代码库里缺少一个统一的错误处理模块,它自己写了一个给他。第二天晚上,它发现有一堆重复的SQL查询,它写了一个脚本把它们合并成了一个通用函数。第三天晚上,它发现日志文件越来越大,自动写了一个日志轮转脚本。第四天晚上,它给他设计了一个专属的代码仓库形象,把readme换成了一套更清晰的结构。

他没有在工作,他只是睡了一觉。他的AI在帮他把代码库里可以优化的地方一个一个找出来,每天醒来都有一点小惊喜。

这就是Automations的意义:你睡觉的时候,它在干活。你醒来的时候,它已经把能做的事情做了,你来做决策就行。


09.Computer Use,操控你的屏幕

Codex还有一个能力,是在macOS上查看屏幕、截图、操作窗口、操作键盘和剪贴板。

它的执行方式是并行后台执行,不抢焦点。你一边正常工作,Codex在后台帮你处理屏幕上的任务,它不会在你屏幕上弹出一个框打断你。

Image

这个能力的边界在于:它目前主要是给macOS用的。Windows的支持有限。

它能帮你做什么?

帮你自动操作那些需要手动点击和输入的工作。

  • 你告诉它"帮我每天早上打开这个后台系统,检查一下昨天的数据有没有异常",它会自己操作屏幕:打开浏览器、导航到网址、登录、查看数据、判断有没有异常。它在做你每天早上都要做的那些重复性的手工操作。
  • 你告诉它"帮我把这个网页上的表格数据都复制到Excel里",它会自己操作:选中表格、复制、打开Excel、粘贴。它在替你做那些需要复制粘贴的脏活累活。
  • 你告诉它"帮我截一张这个网页的图,要包含最新的数据更新部分",它会自己滚动到正确位置、截图、保存。

这些事情的共同特点是:说起来都是一句话,但做起来都要好几步,而且每一步都很机械。以前你只能手工做,现在Codex可以替你做。


10.一个真实的工作场景

说一个具体的例子,让你感受Codex是怎么工作的。

你的任务是:做一个用户注册功能,包含邮箱注册、手机号注册、第三方微信登录,注册完之后要给用户发一封欢迎邮件。

在传统的开发方式里,你需要自己做这些事情:设计数据库、写API接口、写前端表单、处理微信OAuth接入、写邮件发送模块、写测试用例、部署上线。你大概需要两到三天。这两到三天里,你大量时间在做复制粘贴、做调试、做重复性的操作,真正需要动脑子判断的时间其实很少。

Image

用Codex怎么做?

你跟它说:"我要做一个用户注册功能,包含邮箱注册、手机号注册、第三方微信登录,注册完成后给用户发欢迎邮件。请先告诉我你打算怎么设计这个功能。"

Codex会先给出设计方案:数据库用哪张表、字段怎么设计、API接口有哪几个、前端页面分哪几个、微信登录的流程是什么、邮件模板怎么写。它把完整的架构给你看。

你确认方向没问题之后,说:"可以,开始做。"

然后Codex开始执行:它写数据库迁移文件、写API接口代码、写前端注册表单、写微信OAuth接入逻辑、写邮件发送模块、写测试用例。你不需要盯着它做,你去做别的事情。

等它全部做完了,你来做code review。你看到代码,发现微信登录那块用了你不想用的方案,你说"这块换一个方式",它改。它改完了,你说"可以了",你合并代码。

整个过程,你花在"做"上的时间很少——你主要在做决策和审查。执行的事情,Codex接走了。

这就是Codex最核心的价值:把你从"执行者"变成"决策者"。


11.为什么Codex现在值得用?

2026年,Codex用户增长了20倍,每周处理数万亿tokens。

这个数字背后,有一个根本性的原因。

它让AI从"帮你想"变成了"帮你做"。

以前的AI工具,是在你想清楚要做什么之后,帮你把这个想法变成代码、变成文案、变成图片。你是主驾驶,AI是副驾驶。

Codex是,你给它一个目标,它自己规划路径、自己执行、自己验证。你是指挥官,AI是执行者。

副驾驶和指挥官,是两件完全不同的事。

副驾驶需要你全程参与。你得盯着路况,得做决定,得在关键时候接管方向盘。ChatGPT给你一个建议,你可以接受也可以拒绝,但你得在场。

指挥官只需要你在出发前说清楚目的地,然后你可以去干别的。Codex在路上遇到问题,它会等你来决策,但你自己不需要盯着整个过程。

人的精力是有限的。

你愿意把精力花在"盯着AI做事"上,还是花在"做只有人才能做的事"上?

Codex回答了这个问题。

它把执行的事情接走了,把需要真正判断力的事情留给了你。

你应该把时间花在判断方向、评估结果、决策优先级上。

这些事情,只有你能做。


按照惯例,用一张图总结今天的分享:

Image

更多精彩内容,我们下期见。

53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询