微信扫码
添加专属顾问
我要投稿
OpenAI发布革命性工程智能体GPT-5-Codex,7小时连续编程能力颠覆开发者工作流,但API调用权限意外关闭引发热议。核心内容:1. GPT-5-Codex突破性工程能力:从项目搭建到PR提交全流程自动化2. 代码重构任务表现大幅提升20%,智能资源分配机制解析3. API策略调整背后的商业考量与开发者生态影响
凌晨一点,OpenAI 发布了 GPT-5-Codex,但这次,所有想调用 API 的开发者可能要失望了。
OpenAI 做了一个决定:Codex 并不通过 API 开放。
你不能靠 key 来偷偷调用 GPT-5-Codex 模型,只能通过 CLI、IDE 插件或者 Codex 网页端来用。
它的任务很简单:替你干活。
Codex 这次不再局限于写几行代码,而是从你提需求那一刻起,它会自己搭项目、跑测试、修 bug、贴截图、提 PR。一口气干完,而且能连续独立执行七小时不间断。
Codex 从 GPT-3 时代就有了雏形,但这次的 GPT-5-Codex,是 OpenAI 第一次把它变成了一个真正能交付的「工程智能体」。
GPT-5-Codex 到底有多强?可以先看几组跑分。
在基准测试 SWE-bench 里,Codex 的通过率从 GPT-5 的 72.8% 提高到了 74.5%。这提升不算夸张,但足够稳定,说明它在“修 Bug、补功能、读文档”这些传统任务上,更可靠了。
但一旦涉及到代码重构,差距就突然拉开了。
同样是让模型去处理大型代码库里的结构改造任务,GPT-5 的成功率只有 33.9%,而 Codex 做到了 51.3%。提升接近 20 个点。这种任务跟“写段小函数”完全不同,需要上下文联动、理解依赖关系、一步步通关调试。
Codex 的训练重点,显然押在了这里。
最值得我们注意的是这张图,GPT-5-Codex 是如何具有动态思维的 (统计 Codex 在不同任务复杂度下花了多少 token,相当于“模型输出量”)。
OpenAI 用自家员工使用 Codex CLI 的大量数据做了分析,把各级复杂度任务的 token 用量抽象分成百分位曲线,最后得到这样的结论:
在最简单的前 10% 任务中,GPT-5-Codex 一切从简处,比 GPT-5 少花了 93.7% 的计算量;
而在最复杂的后 10% 任务中,Codex 选择拿出加倍资源。比 GPT-5 多花了 102.2% 的 token,来做逻辑推理、编辑、运行测试和迭代。
换句话说,小任务快速,输出少;复杂大项目花更多时间思考和执行。这才是工程智能体该有的样子。
如果你团队是重度依赖代码审查的,Codex 还能省下不少人工精力。
官方对 Codex 的审查能力也做了测评。用三组数据说话:
这套测试成绩背后的意义是什么?
并不是 Codex 拿了个更好的 Benchmark 成绩,而是它证明了 Agent 式 AI 的三件事:
这也是为什么 OpenAI 说:“我们推荐把 Codex 只用在 Codex 系统里”。
现在,Codex 已经打通了所有你可能写代码的地方——终端、IDE、网页端、GitHub,甚至 ChatGPT 的手机 App。无论你在哪写代码,它都能跟上节奏,随时接活。
他们还对 Codex 进行了更新。
CLI 体验更新了 UI,支持附加截图、线程图、上传设计格式了,展示工作进度和交互记录都更精细。它会在复杂任务中创建待办列表,自动进行环境搭建和依赖分析,环境初始化和 pip install 这类操作也能当场自动执行。
IDE 插件支持 VS Code、Cursor 和各种分支版,你打开一个文件,Codex 就知道你在搞啥。当场进行代码进行编辑,不用重复解释 prompt。编辑器里直接跳转到云任务,所有上下文不会丢。
云代理 Codex Cloud 则是最能打达自动化效率上限的部分:它能跟开浏览器,看自己生成的网页或 UI 页面,根据你给的截图进行返回渲染。如果需要,它会把运行结果的截图和日志展示给你,并提交到 GitHub PR。
Codex 已经整合进了 ChatGPT 的全套订阅计划里,从 Plus 到 Pro,从 Business 到 Enterprise 都包含。
使用次数是有上限的,但给得不算少。
比如 Plus 用户,每 5 小时可以跑 30 到 150 次本地任务,一周内有总量限制。Pro 用户能跑得更多,大概是每 5 小时支持 300 到 1500 次左右的本地调用,还带“云端任务特批额度”。
Business 和 Edu 版本,如果需要额外扩容,可以单独买积分;Enterprise 则干脆按共享池走,用多少算多少。
Codex 不是第一个做 Agent 编程的公司,也不会是最后一个。但这可能是第一次,有人把 Agent 从“产品功能”变成了“开发流程”。
现在,就看我们敢不敢把一部分真实的项目,交给它了。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2025-09-17
从 AI Agent “尴尬约面故事”:谈如何降低大模型幻觉
2025-09-17
今年“十一”,谁还没带自己的AI讲解搭子?
2025-09-17
超越 Prompt 和 RAG,「上下文工程」成了 Agent 核心胜负手
2025-09-17
Mem0 + Milvus:为人工智能构建持久化长时记忆
2025-09-17
企业级向量数据库选型,Milvus 和Zilliz Cloud哪个更合适?
2025-09-17
【实践】打造 AI 优先组织,Airtable 的阵痛与新生
2025-09-17
终于有Agent,把刀捅到了老板真正痛的地方。
2025-09-17
阿里发布下一代企业级智能体开发框架AgentScope 1.0
2025-08-21
2025-06-21
2025-08-21
2025-08-19
2025-07-29
2025-09-08
2025-08-19
2025-08-20
2025-09-14
2025-07-04
2025-09-17
2025-09-17
2025-09-16
2025-09-14
2025-09-12
2025-09-11
2025-09-11
2025-09-09