微信扫码
添加专属顾问
我要投稿
两大AI巨头深夜对决!Claude Opus 4.6和GPT-5.3 Codex同时发布,性能全面升级引爆AI圈。核心内容:1. Claude Opus 4.6在终端编程、电脑操作、信息搜索等多项测试中创下新高2. GPT-5.3 Codex与Opus 4.6的正面性能对比3. 两大模型在实际工作场景中的应用价值分析
让我比较惊讶的是OSWorld这个评估,测的是AI操作电脑的能力,Opus 4.6拿了72.7%,比Opus 4.5的66.3%高了不少。
这就意味着Claude越来越会用电脑了,它能更好地操作鼠标、点击按钮、在不同应用之间切换,在Coding能力提升的同时,电脑操作的能力也有大幅提升,这是真的要奔着全面Agent化去了。
还有一个BrowseComp,也是让我意外的,测的是Agent在网上搜索信息的能力,Opus 4.6拿了84.0%,远超其他模型。
第二名GPT-5.2 Pro是77.9%,差了6个多点。
因为我自己其实一直把GPT-5.2 Pro当作是我最牛逼的研究报告生成引擎去用的,他比DeepResearch还要强,精准度极高幻觉率极低,现在Opus 4.6比它还要搞6个点,说实话有点离谱了。
然后就是GDPval-AA这个评估,这个评估测的是AI在真实工作任务中的表现,包括金融、法律等领域的知识工作。Opus 4.6拿了1606的Elo分,比GPT-5.2高了144分,比自己的前代Opus 4.5高了190分。
144分的Elo差距还是挺大的,也就是说,在干活这件事上,Opus 4.6确实是目前最强的,Cluade是真的把自己的编程能力,开始逐渐泛化到其他的工作场景里面去了。
然后最离谱的是这个,ARC AGI 2,68.8%,吊打一切。。。
我之前在GPT-5.2发布时候的文章里科普过这玩意,就是下面这种题。
之前在ARC-AGI-2上,GPT-5.1的得分是17.6%,而GPT-5.2 Pro,直接飙到了50%多。
这一次,Claude Opus 4.6,直接干到了68.8%,是有点离谱的,差点摸到7字头了。
从上面这些跑分看,除了一些世界知识和问答上,Claude Opus 4.6还弱于GPT-5.2,其他的几乎已经全面领先。
当之无愧的SOTA。
说实话,我对跑分一直有点复杂的感情。
一方面,跑分确实能说明一些问题,但另一方面,跑分和实际使用体验之间,往往有一道很深的鸿沟。
很多模型跑分很高,但用起来就是不顺手,反过来,有些模型你看着整体跑分一般,但在某些场景下就是还挺好用的。
所以我更关注的,是这次更新在产品层面做了什么。
第一个:1M token的上下文窗口。
普天同庆!!!Claude Opus系列,终于有1M上下文啦!!!
Opus 4.6终于支持100万token的上下文了!!!
真的,做Coding的朋友们都知道,上下文容量有多重要。。。
在100万token、藏8根针的测试里,Opus 4.6直接拿了76%,而Sonnet 4.5只有18.5%,太牛逼了!
而且上下文推理上,也傲视群雄。
这对很多实际场景来说真的非常有用,也是我最最最喜欢的升级点,不只是coding,其实比如你想让Claude帮你审查一份几百页的法律文件,或者分析一个大公司的财报,现在大概率也是可以一次性搞定了。
第二个:输出上限提升到128K。
以前Claude的输出上限都是64K,这次直接翻倍了。
也算是一个相当不错的利好。
这个改进听起来不起眼,但对于实际使用来说真的很重要。
第三个:Context Compaction,上下文压缩。
这个功能其实Claude Code已经实现很久了,但我觉得还是很有必要说一下,因为它解决了一个很现实的问题。
当你跟AI聊了很久,或者让AI执行一个很长的任务,对话内容会越来越多,最终会超过上下文窗口的限制。以前遇到这种情况,要么任务失败,要么得手动清理对话历史。
现在有了Context Compaction,Claude可以自动把旧的对话内容压缩成摘要,腾出空间给新的内容。
这样Claude就能执行更长时间的任务,而不会因为上下文溢出而中断。
这对于那些需要Claude长时间自主工作的场景来说,是一个很实用的改进。
以前是在Claude Code里使用工程实现的,现在直接模型自带了。
第四个:Adaptive Thinking和Effort控制
以前Claude有一个"extended thinking"功能,就是让它在回答之前先深度思考一会儿。
这个功能开启之后,Claude的回答质量会提升,但速度会变慢,成本也会增加。
问题是,以前这个功能是要么开要么关,没有中间状态。有些简单问题,你开了深度思考,就有点杀鸡用牛刀了。
现在有了两个新功能来解决这个问题。
一个是Adaptive Thinking,自适应思考。开启之后,Claude会自己判断这个问题需不需要深度思考。简单问题就快速回答,复杂问题就多想一会儿。
另一个是Effort控制,让你可以手动设置Claude的思考程度。有四个档位:low、medium、high、max,默认是high。
这两个功能加起来,让Claude的使用变得更灵活了。
你可以根据实际需求,在速度、成本、质量之间找到平衡点。
然后还有一个,是Claude Code里面很重要的更新,叫做Agent Teams。
以前你用Claude Code,是一个Claude在干活,你给它一个任务,它自己去做,做完了给你看结果。
现在有了Agent Teams不一样了,你可以让一个会话充当团队负责人,协调工作、分配任务并综合结果。
然后启动团队成员独立工作,各自在自己的上下文窗口中,并彼此直接通信。
比如假设你要做一个代码审查,需要看前端代码、后端代码、还有数据库相关的代码。以前你可能要分三次让Claude看,每次看一部分。
现在你可以说"帮我审查这个代码库",然后Claude会自动启动3个团队成员,一个看前端,一个看后端,一个看数据库,三个同时进行,最后把结果汇总给你。
而且这些团队成员不是完全独立的,它们可以相互沟通。比如后端代理发现一个API的变更,它可以告诉前端代理,让前端代理检查一下调用这个API的地方有没有问题,而且他们也可以互相质疑、互相挑战、互相发现。
跟Claude Code里面之前subagents也就是子代理不同的点在于,子代理在单个会话中运行,只能向主代理报告结果,而Agent Teams是一个团队,团队成员可以直接与各个团队成员互动,无需通过负责人。
他们自己也做了一个非常明确的图表来进行区分。
当你需要快速、专注的工作人员进行反馈时,使用子代理。当团队成员需要共享发现、相互挑战和自主协调时,使用Agent Teams。
然后就是两个小的更新,一个是Claude in Excel这个插件将Claude Opus 4.6直接集成到了excel里面。
现在还支持数据透视表编辑、图表修改、条件格式设置、排序和筛选、数据验证以及金融级格式设置。
然后还发了一个Claude in PowerPoint。
将Claude集成到了PowerPoint侧边栏中,让它在创建新内容之前读取现有的布局、字体和母版。
Claude也可以根据客户模板构建演示文稿、对现有幻灯片进行针对性编辑。
Anthropic真的凭借着Claude,在B端领域,真的开始大杀四方了。
GPT说实话,现在整个B端和生产力端的体验,稍微落后的有点多了。
目前,Claude网页版和Claude Code上,Claude Opus 4.6均以全面上线,已经可以快乐的玩耍起来了。
"GPT-5.3 Codex是我们第一个在创造自己的过程中发挥重要作用的模型。"
关键是,这些游戏全都是GPT-5.3 Codex自己做的。
OpenAI说,他们在Codex产品了里,用这个模型和一个叫develop web game的Skills,加上一些通用的跟进提示(比如"修复这个bug"或者"改进这个游戏"),让GPT-5.3 Codex在几天的时间里,自主迭代了数百万个token,最终做出了这些游戏。
Anthropic发了Opus 4.6,OpenAI发了GPT-5.3 Codex和Frontier。两家头部AI公司在同一天放出大招,这在历史上也是罕见的。
从模型能力上看,两家都在快速进步,差距在缩小。
从产品形态上看,两家都在押注Agent,但侧重点有所不同。
从行业影响上看,传统SaaS公司开始感到压力,软件行业绝对正在经历一场从诞生以来最大的一次范式转变。
我不知道一年后这个行业会变成什么样。
但我知道,现在,绝对是一个需要密切关注、积极学习的时期。
错过这一波,可能就真的错过了。
以上,既然看到这里了,如果觉得不错,随手点个赞、在看、转发三连吧,如果想第一时间收到推送,也可以给我个星标⭐~谢谢你看我的文章,我们,下次再见。
>/ 作者:卡兹克
>/ 投稿或爆料,请联系邮箱:wzglyay@virxact.com
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2026-02-06
AI记忆正成为新操作系统:检索已过时,生成式记忆才是未来
2026-02-06
简单就是美!Claude Code Ralph循环机制详解
2026-02-06
OpenAI 发布 GPT-5.3-Codex,一文详解
2026-02-06
火拼升级!OpenAI、Anthropic同日发布新模型,一个能替你写代码,一个能替公司管流程
2026-02-06
Claude Code最佳实践
2026-02-06
Claude Agent SDK 构建 AI Agent 实践:服务端向 Claude Agent SDK 注入环境变量的实践
2026-02-06
Claude Opus 4.6 发布,跑分霸榜,价格不变
2026-02-05
Skills 怎么帮企业 AI 转型?Claude 能力拆解(二)
2026-01-24
2026-01-10
2025-11-19
2025-11-13
2026-01-26
2026-01-01
2025-12-09
2025-11-12
2026-01-09
2025-12-21
2026-02-04
2026-02-03
2026-02-03
2026-02-02
2026-02-02
2026-02-02
2026-01-31
2026-01-30