微信扫码
添加专属顾问
我要投稿
OpenAI GPT-5.3-Codex强势反超Claude,77.3%的Terminal-Bench成绩刷新AI编码能力天花板!核心内容:1. GPT-5.3-Codex在五大关键基准测试中的突破性表现2. 模型自我优化的革命性技术突破3. 自主开发的赛车游戏展示实际应用能力
Claude Opus 4.6 发布大约半小时后,GPT-5.3-Codex 来了
Opus 4.6 的博客里说自己拿了 Terminal-Bench 2.0 的最高分,GPT-5.3-Codex 直接交出 77.3%,把这个最高分抢了回去
这里对比下两边的跑分
GPT-5.3-Codex 把 GPT-5.2-Codex 的编码能力和 GPT-5.2 的推理 + 专业知识能力合进了一个模型,速度还比 5.2-Codex 快 25%
OpenAI 给了一个说法:这是第一个参与创造自己的模型。早期版本的 GPT-5.3-Codex 被用来 debug 自己的训练过程、管理自己的部署、分析自己的评测结果
回到 GPT-5.3-Codex
几个关键数字拎一下
Terminal-Bench 2.0:77.3%
测的是编码 Agent 在终端里的操作能力。GPT-5.2-Codex 是 64.0%,GPT-5.3-Codex 直接跳到 77.3%。而且 OpenAI 强调,它用的 token 比之前所有模型都少
SWE-Bench Pro:56.8%
比 SWE-bench Verified 更难,跨四种语言,更抗数据污染。GPT-5.3-Codex 在准确率和 token 消耗上都领先
OSWorld-Verified:64.7%
这是个视觉桌面操作的 benchmark,模型要用视觉完成各种电脑任务。人类基准是约 72%
GPT-5.2-Codex 是 38.2%,GPT-5.3-Codex 跳到 64.7%。从不到人类一半到接近人类水平
GDPval:70.9%
测的是 44 个职业的知识工作任务,做 PPT、做表格、写文档这些。GPT-5.3-Codex 和 GPT-5.2 打平,都是 70.9%
网络安全 CTF:77.6%
从 GPT-5.2 的 67.7% 涨到 77.6%
OpenAI 让 GPT-5.3-Codex 自己做了两个游戏来展示长时间 Agent 工作能力。用的是「develop web game」skill,加上「fix the bug」「improve the game」之类的通用 follow-up prompt,让模型在数百万 token 的上下文里自主迭代
赛车游戏
8 张地图,不同赛车手,还能用空格键放道具
试玩在这
潜水游戏
探索珊瑚礁,收集鱼类图鉴,同时要管理氧气、水压和危险
当然,也可以这个网站上自己玩
Landing page 对比
OpenAI 用同一个 prompt 让 GPT-5.3-Codex 和 GPT-5.2-Codex 分别生成了一个 SaaS Landing page
GPT-5.3-Codex 的版本自动把年付方案显示为折后月价(让折扣感更直观),加了三条用户评价的自动轮播。GPT-5.2-Codex 的版本就是常规实现
同一个 prompt,细节差异挺大
同样的,这里附上 5.3-Codex 地址:https://cdn.openai.com/gpt-examples/7fc9a6cb-887c-4db6-98ff-df3fd1612c78/gpt53-codex-landing-page.html
GDPval 测的不只是写代码。44 个职业,任务由各职业的资深从业者设计,做 PPT、做表格、写分析报告都算
OpenAI 放了几个 demo
其他 demo 还包括零售培训文档、NPV 分析表格、时尚行业 PDF 演示
以前 Codex 是你下指令,等结果。GPT-5.3-Codex 可以在工作过程中实时交互
模型会主动汇报进展和关键决策,你可以中途提问、讨论方案、调整方向,不用等到最后才看到输出
在 Codex app 里打开 Settings > General > Follow-up behavior 就能用
这是这次发布里最有意思的部分
OpenAI 说早期版本的 GPT-5.3-Codex 在自己的开发过程中被大量使用。几个具体场景:
研究团队用 Codex 监控和 debug 训练过程,追踪训练中的行为模式,分析交互质量差异,还给人类研究员搭了可视化工具来精确理解模型行为的变化
工程团队用 Codex 优化推理框架,定位上下文渲染 bug,排查缓存命中率低的根因。发布当天,GPT-5.3-Codex 还在帮团队做 GPU 集群的动态扩缩容和延迟稳定
Alpha 测试阶段,一个研究员想量化 GPT-5.3-Codex 每轮多做了多少工作。GPT-5.3-Codex 自己写了几个正则分类器来估算澄清频率、正负反馈、任务进度,然后跑完所有 session log 出了份报告
数据科学家和 GPT-5.3-Codex 一起搭了新的数据管道和可视化,三分钟内对上千个数据点做出了摘要分析
OpenAI 的原话是「团队被 Codex 加速自身开发的能力震住了」
GPT-5.3-Codex 是 OpenAI 在 Preparedness Framework 下第一个被标为 High capability 的网络安全模型,也是第一个被直接训练来识别软件漏洞的模型
OpenAI 说没有确定性证据表明它能端到端自动化网络攻击,但采取了预防性措施,部署了他们迄今最全面的网络安全安全栈:安全训练、自动监控、高级能力的可信访问、执行管道 + 威胁情报
几个配套动作:
发布了 Trusted Access for Cyber 试点项目,加速网络防御研究
Aardvark(安全研究 Agent)扩大了内测范围,作为 Codex Security 产品线的第一个工具
和开源项目合作提供免费代码扫描,上周一个安全研究员用 Codex 在 Next.js 里找到了漏洞(Vercel 已披露)
在 2023 年 $1M 网安资助计划基础上,追加 10M USD 的 API credits,专门给开源软件和关键基础设施的安全研究
GPT-5.3-Codex 今天起在所有 Codex 渠道可用:Codex app、CLI、IDE 扩展、web
API 访问还在准备中,OpenAI 说「soon」
另外的,在这里下载 Codex app:https://persistent.oaistatic.com/codex-app-prod/Codex.dmg
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2026-02-06
AI记忆正成为新操作系统:检索已过时,生成式记忆才是未来
2026-02-06
简单就是美!Claude Code Ralph循环机制详解
2026-02-06
火拼升级!OpenAI、Anthropic同日发布新模型,一个能替你写代码,一个能替公司管流程
2026-02-06
Claude Code最佳实践
2026-02-06
Claude Agent SDK 构建 AI Agent 实践:服务端向 Claude Agent SDK 注入环境变量的实践
2026-02-06
Claude Opus 4.6 发布,跑分霸榜,价格不变
2026-02-06
中门对狙!Claude Opus 4.6和GPT-5.3 Codex同时发布,这下真的AI春晚了。
2026-02-05
Skills 怎么帮企业 AI 转型?Claude 能力拆解(二)
2026-01-24
2026-01-10
2025-11-19
2025-11-13
2026-01-26
2026-01-01
2025-12-09
2025-11-12
2026-01-09
2025-12-21
2026-02-04
2026-02-03
2026-02-03
2026-02-02
2026-02-02
2026-02-02
2026-01-31
2026-01-30