支持私有化部署
AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


Claude Opus 4.1:静悄悄的革命,响当当的实力。

发布日期:2025-08-06 17:19:06 浏览次数: 1514
作者:BubbleBrain

微信搜一搜,关注“BubbleBrain”

推荐语

Anthropic静悄悄升级Claude Opus 4.1,在真实编码任务和推理能力上实现显著提升,狙击OpenAI毫不手软。

核心内容:
1. Claude Opus 4.1在SWE-bench测试中准确率提升至74.5%
2. 通过贪吃蛇游戏、体素艺术等案例展示4.1版本的实际改进
3. 保持API价格不变,性价比优势凸显

杨芳贤
53AI创始人/腾讯云(TVP)最具价值专家

 

昨天除了 OpenAI 的更新之外,Anthropic 也“悄悄”更新了模型。Claude Opus 4 升级到 Claude Opus 4.1 了。

为了狙击 OpenAI,Anthropic 也是真拼了。 我也是前天看到了它们在内测新模型的消息,没想到今天就放出来了。

目前新模型 Opus 4.1 已经可以通过客户端和 API 进行使用,而且API 价格和之前的 Opus 保持不变。

升级概览

根据官方的说法,Claude Opus 4.1 在真实世界的编码任务、推理、代理任务中都有提升。在 SWE-bench Verified 这个测试代码能力的 Benchmark中,Claude Opus 4.1 提升到了 74.5% 的准确率。得益于这个提升,让 Claude 在深度研究和数据分析的能力上都得到了进一步的加强。

Benchmark

有一说一,看这个 Benchmark 图真的发现 Claude 在代码这个领域非常垂类了。在别家 AIME 2025 这个数学竞赛榜都刷到 88% 的时候,它还只停留在 78%,比别家还低 10 个百分点。

光从 Benchmark 上看,其实 Opus 4.1 提升不是很大。所以我也实际上手体验对比了下,看看到底效果提升在哪儿。

案例分享

本次测试对比了 Claude Opus 4.1 和 Claude Opus 4,分别通过 Claude app 和Chatwise 进行对比

任务 1:创建一个旋转的六边形,其中包含一个完全功能的贪吃蛇游戏,贪吃蛇会与六边形边界互动,食物不能落在六边形外面。

Claude Opus 4.1 的效果:

Claude Opus 4 的效果:

果然,升级不是白升级的。Claude Opus 4 生成的六边形没有旋转,Claude 4.1 Opus 生成的就好很多。

任务 2: 设计并创建一个非常有创意、精心且细致的体素(voxel)艺术场景:主题是上海的建筑风景。让整个场景看起来震撼、多样化,并使用色彩丰富的体素。可以使用任何库来实现,但最终请把所有内容整合在一个单独的 HTML 文件里,这样我可以直接粘贴后在 Chrome 中打开运行

Claude Opus 4.1 的效果:


Claude Opus 4 的效果:

这个真的牛逼,提升还是非常大的。明显 Claude Opus 4.1 生成的细节更加丰富,效果更加全面。

任务 3:使用 Three.js 实现一个带有颜色的魔方的旋转和还原功能

Claude Opus 4.1 的效果:
Claude Opus 4 的效果:

太强了,Claude Opus 4.1 的完成度明显强很多,无论是 UI 界面的美观程度还是功能实现上都是 Claude Opus 4.1 更好。

任务 4: make an animated app of the solar system.

Claude Opus 4.1 的效果:

Claude Opus 4 的效果:

效果上可以看到 Claude Opus 4.1 还是提升不少的。

任务 5: 创建一个 3D HTML 山脉场景,包含悬崖、河流和昼夜光照变化。支持拖动和缩放、动画过渡、真实感渐变色,并可切换等高线显示

这个是 Kimi的官方 demo case,我拿来测测 Claude 新模型的效果
Claude Opus 4.1 的效果

Claude Opus 4 的效果

这感觉上差了不是一点半点呐。 注意看 Claude Opus 4.1 生成的效果,它是会随着时间的变化,自动进行昼夜的变化的,不需要依赖我去拖动时间条。

Claude Opus 4.1 看上去不仅仅只是Benchmark 上反应的那么一点点小幅度的更新,或者要么我合理怀疑 Anthropic 为了凸显 Opus 4.1 的牛逼把之前的 Opus 4 降智了。不然我真觉得这进步挺大的了


53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询