我要投稿

中门对狙！Claude Opus 4.6和GPT-5.3 Codex同时发布，这下真的AI春晚了。

发布日期：2026-02-06 07:15:29 浏览次数： 2347

作者：数字生命卡兹克

微信搜一搜，关注“数字生命卡兹克”

在全网翘首以盼的等了两天之后，在凌晨2点。

Anthropic的新模型Cluade Opus 4.6正式更新了。

我说实话，我是真的最近因为AI圈这些模型和产品，熬夜熬的有点扛不住了。

但其实最颠最绝望的是，20分钟之后，OpenAI也发了新模型。。。

GPT 5.3 Codex也来了。

这尼玛，真的是中门对狙了。

要了亲命了。。。

这两模型都还是得看，因为之前GPT和Claude几乎就是我最常用的维二最主力的模型，GPT-5.2用来做各种各样的搜索和事实核查还有研究还有编程改BUG，Opus 4.5做创作和主力编程。

现在，两个都来了。

太刺激了。

一个一个说吧。

一. Claude Opus 4.6

这次Anthropic其实不止发了Claude Opus 4.6，还有一个很好玩的东西，Agent Teams，还有关于Excel和PPT插件的更新。

先说Claude Opus 4.6。

每次有新模型发布，大家第一反应就是看跑分。

这次Opus 4.6的跑分确实很漂亮，我挑几个重点说说。

首先是Terminal-Bench 2.0，这是一个测试AI在终端环境下编程能力的评估，Opus 4.6拿了65.4%，是所有模型里最高的（没看到GPT-5.3 codex之前）。

GPT-5.2是64.7%，Gemini 3 Pro是56.2%。

让我比较惊讶的是OSWorld这个评估，测的是AI操作电脑的能力，Opus 4.6拿了72.7%，比Opus 4.5的66.3%高了不少。

这就意味着Claude越来越会用电脑了，它能更好地操作鼠标、点击按钮、在不同应用之间切换，在Coding能力提升的同时，电脑操作的能力也有大幅提升，这是真的要奔着全面Agent化去了。

还有一个BrowseComp，也是让我意外的，测的是Agent在网上搜索信息的能力，Opus 4.6拿了84.0%，远超其他模型。

第二名GPT-5.2 Pro是77.9%，差了6个多点。

因为我自己其实一直把GPT-5.2 Pro当作是我最牛逼的研究报告生成引擎去用的，他比DeepResearch还要强，精准度极高幻觉率极低，现在Opus 4.6比它还要搞6个点，说实话有点离谱了。

然后就是GDPval-AA这个评估，这个评估测的是AI在真实工作任务中的表现，包括金融、法律等领域的知识工作。Opus 4.6拿了1606的Elo分，比GPT-5.2高了144分，比自己的前代Opus 4.5高了190分。

144分的Elo差距还是挺大的，也就是说，在干活这件事上，Opus 4.6确实是目前最强的，Cluade是真的把自己的编程能力，开始逐渐泛化到其他的工作场景里面去了。

然后最离谱的是这个，ARC AGI 2，68.8%，吊打一切。。。

我之前在GPT-5.2发布时候的文章里科普过这玩意，就是下面这种题。

这种能力，现在称为流体智力

悟性开窍的能力。

之前在ARC-AGI-2上，GPT-5.1的得分是17.6%，而GPT-5.2 Pro，直接飙到了50%多。

这一次，Claude Opus 4.6，直接干到了68.8%，是有点离谱的，差点摸到7字头了。

从上面这些跑分看，除了一些世界知识和问答上，Claude Opus 4.6还弱于GPT-5.2，其他的几乎已经全面领先。

当之无愧的SOTA。

说实话，我对跑分一直有点复杂的感情。

一方面，跑分确实能说明一些问题，但另一方面，跑分和实际使用体验之间，往往有一道很深的鸿沟。

很多模型跑分很高，但用起来就是不顺手，反过来，有些模型你看着整体跑分一般，但在某些场景下就是还挺好用的。

所以我更关注的，是这次更新在产品层面做了什么。

第一个：1M token的上下文窗口。

普天同庆！！！Claude Opus系列，终于有1M上下文啦！！！

Opus 4.6终于支持100万token的上下文了！！！

真的，做Coding的朋友们都知道，上下文容量有多重要。。。

之前只有200K的小窗口，这次整整翻了5倍！！！现在再也不用担心这个问题了！！！

而且我要说一个很重要的点，就是上下文窗口大，不等于模型能真正用好这么大的上下文。

很多模型虽然支持很长的上下文，但你真的塞进去很多内容之后，模型的表现会明显下降，会变得很蠢。

这个问题在业内叫"context rot"，上下文腐烂，也就是你用的越久，模型能力开始变得越差。

而这次，Claude Opus 4.6，在MRCR v2的测试上做了实验，这个测试是大海捞针类的，就是在一大堆文本里藏几个关键信息，看模型能不能找到。

在100万token、藏8根针的测试里，Opus 4.6直接拿了76%，而Sonnet 4.5只有18.5%，太牛逼了！

而且上下文推理上，也傲视群雄。

这对很多实际场景来说真的非常有用，也是我最最最喜欢的升级点，不只是coding，其实比如你想让Claude帮你审查一份几百页的法律文件，或者分析一个大公司的财报，现在大概率也是可以一次性搞定了。

第二个：输出上限提升到128K。

以前Claude的输出上限都是64K，这次直接翻倍了。

也算是一个相当不错的利好。

这个改进听起来不起眼，但对于实际使用来说真的很重要。

第三个：Context Compaction，上下文压缩。

这个功能其实Claude Code已经实现很久了，但我觉得还是很有必要说一下，因为它解决了一个很现实的问题。

当你跟AI聊了很久，或者让AI执行一个很长的任务，对话内容会越来越多，最终会超过上下文窗口的限制。以前遇到这种情况，要么任务失败，要么得手动清理对话历史。

现在有了Context Compaction，Claude可以自动把旧的对话内容压缩成摘要，腾出空间给新的内容。

这样Claude就能执行更长时间的任务，而不会因为上下文溢出而中断。

这对于那些需要Claude长时间自主工作的场景来说，是一个很实用的改进。

以前是在Claude Code里使用工程实现的，现在直接模型自带了。

第四个：Adaptive Thinking和Effort控制

以前Claude有一个"extended thinking"功能，就是让它在回答之前先深度思考一会儿。

这个功能开启之后，Claude的回答质量会提升，但速度会变慢，成本也会增加。

问题是，以前这个功能是要么开要么关，没有中间状态。有些简单问题，你开了深度思考，就有点杀鸡用牛刀了。

现在有了两个新功能来解决这个问题。

一个是Adaptive Thinking，自适应思考。开启之后，Claude会自己判断这个问题需不需要深度思考。简单问题就快速回答，复杂问题就多想一会儿。

另一个是Effort控制，让你可以手动设置Claude的思考程度。有四个档位：low、medium、high、max，默认是high。

这两个功能加起来，让Claude的使用变得更灵活了。

你可以根据实际需求，在速度、成本、质量之间找到平衡点。

然后还有一个，是Claude Code里面很重要的更新，叫做Agent Teams。

以前你用Claude Code，是一个Claude在干活，你给它一个任务，它自己去做，做完了给你看结果。

现在有了Agent Teams不一样了，你可以让一个会话充当团队负责人，协调工作、分配任务并综合结果。

然后启动团队成员独立工作，各自在自己的上下文窗口中，并彼此直接通信。

比如假设你要做一个代码审查，需要看前端代码、后端代码、还有数据库相关的代码。以前你可能要分三次让Claude看，每次看一部分。

现在你可以说"帮我审查这个代码库"，然后Claude会自动启动3个团队成员，一个看前端，一个看后端，一个看数据库，三个同时进行，最后把结果汇总给你。

而且这些团队成员不是完全独立的，它们可以相互沟通。比如后端代理发现一个API的变更，它可以告诉前端代理，让前端代理检查一下调用这个API的地方有没有问题，而且他们也可以互相质疑、互相挑战、互相发现。

跟Claude Code里面之前subagents也就是子代理不同的点在于，子代理在单个会话中运行，只能向主代理报告结果，而Agent Teams是一个团队，团队成员可以直接与各个团队成员互动，无需通过负责人。

他们自己也做了一个非常明确的图表来进行区分。

当你需要快速、专注的工作人员进行反馈时，使用子代理。当团队成员需要共享发现、相互挑战和自主协调时，使用Agent Teams。

然后就是两个小的更新，一个是Claude in Excel这个插件将Claude Opus 4.6直接集成到了excel里面。

现在还支持数据透视表编辑、图表修改、条件格式设置、排序和筛选、数据验证以及金融级格式设置。

还添加了可用性改进，包括长对话的自动压缩和拖放多文件支持等等。

然后还发了一个Claude in PowerPoint。

将Claude集成到了PowerPoint侧边栏中，让它在创建新内容之前读取现有的布局、字体和母版。

Claude也可以根据客户模板构建演示文稿、对现有幻灯片进行针对性编辑。

Anthropic真的凭借着Claude，在B端领域，真的开始大杀四方了。

GPT说实话，现在整个B端和生产力端的体验，稍微落后的有点多了。

最后说一下价格。

API价格保持不变，还是$5/$25每百万token（输入/输出）。

如果用超过20万token的上下文，会有额外定价，是$10/$37.50每百万token。

目前，Claude网页版和Claude Code上，Claude Opus 4.6均以全面上线，已经可以快乐的玩耍起来了。

二. GPT-5.3 Codex

终于聊完了Claude的东西，然后到了GPT这边。

说实话，我自己对GPT一直也是有自己的情感的，他依然是我现在在任何时候想到问题，第一个去问的模型，想要要验证某一个事的时候，第一个去问的模型。

而且，虽然我不是一个专业的编程大佬，但是在我有限的Vibe Coding的经验里，我觉得GPT-5.2 Codex在解决BUG和难点的问题上，是要强于Claude Opus 4.5的。

特别是GPT-5.2 Codex+Codex的改BUG体验，是要比Claude Opus 4.5+Claude Code要更强的。

所以我自己经常的工作流，经常是用Claude code写一个大的，然后用codex接手后续进行调整。

所以我刚好，还真是这两玩意的用户。。。

所以GPT-5.3 Codex的更新，我自然也非常的开心。

两者中门对狙，开心的自然是我们用户。

这次GPT-5.3 Codex，其实最让我惊讶的东西，不是跑分，是他们博客里的一句话：

"GPT-5.3 Codex是我们第一个在创造自己的过程中发挥重要作用的模型。"

OpenAI说，他们的Codex团队在开发GPT-5.3的过程中，用早期版本的模型来debug自己的训练过程、管理部署、诊断测试结果和评估。

用人话说就是，AI参与了自己的开发。

这个事情听起来有点科幻，但其实逻辑上是通的。

AI模型的开发过程，本质上也是一堆代码，训练脚本是代码，部署流程是代码，测试框架也是代码。

既然AI已经coding能力已经这么牛逼了，那让AI来帮忙写这些代码，也是顺理成章的事。

但顺理成章和真的做到了说实话，是两码事。

OpenAI的团队说，他们被Codex能够加速自身开发的程度震惊了。

如果AI能够越来越多地参与自己的开发，那AI进化的速度会不会变得更快？这个问题，可能比任何跑分都重要。

这个世界，真的都在疯狂的加速啊。

然后老规矩，再看下跑分。

GPT-5.3 Codex在几个关键的编程评测上都拿到了最高分。

这时候，你肯定会问了，GPT-5.3 Codex和Claude Opus 4.6，到底哪个跑分更牛逼一点？？？

说实话，因为两家的评测基准，还是有很多细节差异，所以，完全没法直接进行对比。。。

唯一一个对齐的基准是Terminal-Bench 2.0，这是一个由89个复杂真实任务组成的基准，这些任务都在终端环境中执行，每个任务运行在独立Docker容器内。

2.0版本于2025年11月7日发布。

Claude Opus 4.6得分65.4%，GPT-5.3 Codex得分77.3%，OpenAI领先11.9个百分点。

在这个唯一相同的基准里，GPT更胜一筹，而且是大胜，符合我对Codex系列的认知。

然后是OSWorld，评估AI agent操作真实计算机的能力，人类基线为72.36%。

关键区别在于，Claude Opus 4.6报告的是原版OSWorld（72.7%），而 GPT-5.3 Codex报告的是OSWorld-Verified（64.7%）。

OSWorld-Verified于2025年7月28日发布，是一次全面重构，修复了原版中300+已识别问题，包括失效 URL、反爬 CAPTCHA、不稳定 HTML 结构、含糊指令，以及过严/过松的评测脚本。

所以说，别看这个评测看着Claude更强，但是两个分数衡量的并不是同一件事。

OSWorld-Verified 提供了更严格、更可控的信号，也一般被认为更难，所以严格意义上来说，GPT-5.3 Codex的64.7%甚至是要强于Claude Opus 4.6的72.7%的。

然后是GDPVal，这个事在美国GDP贡献最大的9个行业中，覆盖44种职业、1320个真实知识工作任务。

任务要求产出真实职业交付物，如文档、表格、演示、图表，平均相当于7小时专家工作量。

可比性问题在这里最明显。

GPT-5.3 Codex的“GDPval wins or ties: 70.9%”，使用的是 OpenAI 自己的方法，由职业人类评审盲评 AI 产出与人类专家产出，判断 AI 版本是否“与人类一样好或更好”，分母是固定的人类标准。

Claude Opus 4.6的“GDPval-AA Elo: 1606”，这是独立评测机构Artificial Analysis的体系，使用其自有Stirrup agent框架（具备 shell 与网页浏览能力）跑模型，再由Gemini 3 Pro做两两比较评判，最终用Bradley-Terry模型拟合Elo评分，并以GPT-5.1的1000 为锚点。

所以这个是太难换算了，我也不太清楚两边哪个更牛逼。。。

然后就是SWE-bench，SWE-bench测试AI是否能通过生成代码补丁修复真实 GitHub issue。

SWE-bench Verified（Claude Opus 4.6使用，80.8%）是500题、人工验证、仅Python的子集，由OpenAI Preparedness团队在2024年8月发布。

93位职业开发者验证了每道题都具备明确问题描述和公平单测，顶级模型已超过70%，该基准接近饱和。

SWE-bench Pro Public（GPT-5.3 Codex 使用，56.8%）是731题、多语言基准，由Scale AI创建。它覆盖Python、Go、JavaScript、TypeScript等，横跨41个仓库。参考解平均107.4行、4.1个文件，明显比 Verified常见的单文件补丁更复杂。

它还纳入copyleft与专有代码库，专门降低数据污染风险。

所以说，Claude Opus 4.6在Verified的80.8%与GPT-5.3 codex在Pro Public的56.8%不能直接比较。

但说实话Pro明显更难，发布时GPT-5和Claude Opus 4.1在Pro上都只有约23%，不到其Verified分数的三分之一。