我要投稿

OpenAI 发布 GPT-5.3-Codex，一文详解

发布日期：2026-02-06 07:30:16 浏览次数： 4166

作者：赛博禅心

微信搜一搜，关注“赛博禅心”

Claude Opus 4.6 发布大约半小时后，GPT-5.3-Codex 来了

Opus 4.6 的博客里说自己拿了 Terminal-Bench 2.0 的最高分，GPT-5.3-Codex 直接交出 77.3%，把这个最高分抢了回去

这里对比下两边的跑分

GPT-5.3-Codex 把 GPT-5.2-Codex 的编码能力和 GPT-5.2 的推理 + 专业知识能力合进了一个模型，速度还比 5.2-Codex 快 25%

OpenAI 给了一个说法：这是第一个参与创造自己的模型。早期版本的 GPT-5.3-Codex 被用来 debug 自己的训练过程、管理自己的部署、分析自己的评测结果

跑分

回到 GPT-5.3-Codex

几个关键数字拎一下

Terminal-Bench 2.0：77.3%
测的是编码 Agent 在终端里的操作能力。GPT-5.2-Codex 是 64.0%，GPT-5.3-Codex 直接跳到 77.3%。而且 OpenAI 强调，它用的 token 比之前所有模型都少

SWE-Bench Pro：56.8%
比 SWE-bench Verified 更难，跨四种语言，更抗数据污染。GPT-5.3-Codex 在准确率和 token 消耗上都领先

OSWorld-Verified：64.7%
这是个视觉桌面操作的 benchmark，模型要用视觉完成各种电脑任务。人类基准是约 72%

GPT-5.2-Codex 是 38.2%，GPT-5.3-Codex 跳到 64.7%。从不到人类一半到接近人类水平

GDPval：70.9%
测的是 44 个职业的知识工作任务，做 PPT、做表格、写文档这些。GPT-5.3-Codex 和 GPT-5.2 打平，都是 70.9%

网络安全 CTF：77.6%
从 GPT-5.2 的 67.7% 涨到 77.6%

前端和游戏

OpenAI 让 GPT-5.3-Codex 自己做了两个游戏来展示长时间 Agent 工作能力。用的是「develop web game」skill，加上「fix the bug」「improve the game」之类的通用 follow-up prompt，让模型在数百万 token 的上下文里自主迭代

赛车游戏
8 张地图，不同赛车手，还能用空格键放道具

试玩在这

潜水游戏
探索珊瑚礁，收集鱼类图鉴，同时要管理氧气、水压和危险

当然，也可以这个网站上自己玩

Landing page 对比

OpenAI 用同一个 prompt 让 GPT-5.3-Codex 和 GPT-5.2-Codex 分别生成了一个 SaaS Landing page

GPT-5.3-Codex 的版本自动把年付方案显示为折后月价（让折扣感更直观），加了三条用户评价的自动轮播。GPT-5.2-Codex 的版本就是常规实现

同一个 prompt，细节差异挺大

同样的，这里附上 5.3-Codex 地址：
https://cdn.openai.com/gpt-examples/7fc9a6cb-887c-4db6-98ff-df3fd1612c78/gpt53-codex-landing-page.html

知识工作

GDPval 测的不只是写代码。44 个职业，任务由各职业的资深从业者设计，做 PPT、做表格、写分析报告都算

OpenAI 放了几个 demo

其他 demo 还包括零售培训文档、NPV 分析表格、时尚行业 PDF 演示

交互方式变了

以前 Codex 是你下指令，等结果。GPT-5.3-Codex 可以在工作过程中实时交互

模型会主动汇报进展和关键决策，你可以中途提问、讨论方案、调整方向，不用等到最后才看到输出

在 Codex app 里打开 Settings > General > Follow-up behavior 就能用

用 Codex 训练 Codex

这是这次发布里最有意思的部分

OpenAI 说早期版本的 GPT-5.3-Codex 在自己的开发过程中被大量使用。几个具体场景：

研究团队用 Codex 监控和 debug 训练过程，追踪训练中的行为模式，分析交互质量差异，还给人类研究员搭了可视化工具来精确理解模型行为的变化

工程团队用 Codex 优化推理框架，定位上下文渲染 bug，排查缓存命中率低的根因。发布当天，GPT-5.3-Codex 还在帮团队做 GPU 集群的动态扩缩容和延迟稳定

Alpha 测试阶段，一个研究员想量化 GPT-5.3-Codex 每轮多做了多少工作。GPT-5.3-Codex 自己写了几个正则分类器来估算澄清频率、正负反馈、任务进度，然后跑完所有 session log 出了份报告

数据科学家和 GPT-5.3-Codex 一起搭了新的数据管道和可视化，三分钟内对上千个数据点做出了摘要分析

OpenAI 的原话是「团队被 Codex 加速自身开发的能力震住了」

网络安全

GPT-5.3-Codex 是 OpenAI 在 Preparedness Framework 下第一个被标为 High capability 的网络安全模型，也是第一个被直接训练来识别软件漏洞的模型

OpenAI 说没有确定性证据表明它能端到端自动化网络攻击，但采取了预防性措施，部署了他们迄今最全面的网络安全安全栈：安全训练、自动监控、高级能力的可信访问、执行管道 + 威胁情报

几个配套动作：

发布了 Trusted Access for Cyber 试点项目，加速网络防御研究

Aardvark（安全研究 Agent）扩大了内测范围，作为 Codex Security 产品线的第一个工具

和开源项目合作提供免费代码扫描，上周一个安全研究员用 Codex 在 Next.js 里找到了漏洞（Vercel 已披露）

在 2023 年 $1M 网安资助计划基础上，追加 10M USD 的 API credits，专门给开源软件和关键基础设施的安全研究

可用性

GPT-5.3-Codex 今天起在所有 Codex 渠道可用：
Codex app、CLI、IDE 扩展、web

API 访问还在准备中，OpenAI 说「soon」

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2026-06-22

当 AI 开始承担任务：从工具、产品到组织的 AI-native 方法论

2026-06-21

从提示 Agent 到循环工程

2026-06-21

微信小微，几个要点

2026-06-21

AI 也会做梦？拆解 OpenClaw 独特的梦境记忆系统

2026-06-21

[译] 我所知的全部智能体工程技巧

2026-06-20

13人团队叫板Anthropic：我们造了一个更快更便宜的大模型

2026-06-20

微信左上角长出“两只眼睛”：小微测试版，可能是微信 AI 化最关键的一步

2026-06-20

Agent Skill 管理范式探索：像管理软件包一样管理 Agent 能力

联系获取

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

Claude Opus 4.7刚刚曝光！Claude Code一夜重构，7x24小时替你打工

2026-04-15

OpenAI Codex CLI 完整使用指南

2026-04-07

Claude Code 和 Codex 接入 Figma MCP 保姆级教程

2026-04-07

刚刚Qwen 3.6 Plus上线预览：1M上下文，阿里Coding/Agent翻身战打响

2026-03-31

GPT5.5来了，最大特点解析

2026-04-24

Claude Opus 4.7 发布，全网最详细解读

2026-04-17

突发！Claude Code 源码泄露，扒出这些隐藏功能

2026-03-31

GPT-6，曝光了

2026-04-05

GLM-5.1 实测：面向 Agent 长程任务的国内第一模型

2026-04-02

重磅！GPT-6曝光了

2026-04-05

大家都在问

企业智能体的下半场，如何让智能体越用越聪明？

2026-06-18

Agent 记忆，我们全都理解错了？

2026-06-18

如何利用 Harness “一句话交付产品功能”？

2026-06-10

Loop Engineering 循环工程又是什么鬼？

2026-06-10

Agent 工程化五件套：Prompt、Skill、MCP、CLI 到底怎么配合？

2026-06-07

为什么云端 Agent 基建这么难？

2026-06-06

当 AI 开始拥有“自主调度权”：Claude 4.8 这个新功能，到底有多可怕？

2026-06-03

哪些活，该交给Claude Code的 /workflows?

2026-06-02

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS Skill 提示词技巧 AI+电商 AI面试数字员工 ChatBI AI知识库开源大模型智能营销智能硬件 FDE AI+医疗 MaxKB Palantir Glean Openclaw