微信扫码
添加专属顾问
我要投稿
Anthropic静悄悄升级Claude Opus 4.1,在真实编码任务和推理能力上实现显著提升,狙击OpenAI毫不手软。 核心内容: 1. Claude Opus 4.1在SWE-bench测试中准确率提升至74.5% 2. 通过贪吃蛇游戏、体素艺术等案例展示4.1版本的实际改进 3. 保持API价格不变,性价比优势凸显
昨天除了 OpenAI 的更新之外,Anthropic 也“悄悄”更新了模型。Claude Opus 4 升级到 Claude Opus 4.1 了。
为了狙击 OpenAI,Anthropic 也是真拼了。 我也是前天看到了它们在内测新模型的消息,没想到今天就放出来了。
目前新模型 Opus 4.1 已经可以通过客户端和 API 进行使用,而且API 价格和之前的 Opus 保持不变。
根据官方的说法,Claude Opus 4.1 在真实世界的编码任务、推理、代理任务中都有提升。在 SWE-bench Verified 这个测试代码能力的 Benchmark中,Claude Opus 4.1 提升到了 74.5% 的准确率。得益于这个提升,让 Claude 在深度研究和数据分析的能力上都得到了进一步的加强。
有一说一,看这个 Benchmark 图真的发现 Claude 在代码这个领域非常垂类了。在别家 AIME 2025 这个数学竞赛榜都刷到 88% 的时候,它还只停留在 78%,比别家还低 10 个百分点。
光从 Benchmark 上看,其实 Opus 4.1 提升不是很大。所以我也实际上手体验对比了下,看看到底效果提升在哪儿。
本次测试对比了 Claude Opus 4.1 和 Claude Opus 4,分别通过 Claude app 和Chatwise 进行对比
任务 1:创建一个旋转的六边形,其中包含一个完全功能的贪吃蛇游戏,贪吃蛇会与六边形边界互动,食物不能落在六边形外面。
Claude Opus 4 的效果:
果然,升级不是白升级的。Claude Opus 4 生成的六边形没有旋转,Claude 4.1 Opus 生成的就好很多。
任务 2: 设计并创建一个非常有创意、精心且细致的体素(voxel)艺术场景:主题是上海的建筑风景。让整个场景看起来震撼、多样化,并使用色彩丰富的体素。可以使用任何库来实现,但最终请把所有内容整合在一个单独的 HTML 文件里,这样我可以直接粘贴后在 Chrome 中打开运行
这个真的牛逼,提升还是非常大的。明显 Claude Opus 4.1 生成的细节更加丰富,效果更加全面。
任务 3:使用 Three.js 实现一个带有颜色的魔方的旋转和还原功能
太强了,Claude Opus 4.1 的完成度明显强很多,无论是 UI 界面的美观程度还是功能实现上都是 Claude Opus 4.1 更好。
任务 4: make an animated app of the solar system.
Claude Opus 4.1 的效果:
Claude Opus 4 的效果:
任务 5: 创建一个 3D HTML 山脉场景,包含悬崖、河流和昼夜光照变化。支持拖动和缩放、动画过渡、真实感渐变色,并可切换等高线显示
这个是 Kimi的官方 demo case,我拿来测测 Claude 新模型的效果
Claude Opus 4.1 的效果
Claude Opus 4 的效果
这感觉上差了不是一点半点呐。 注意看 Claude Opus 4.1 生成的效果,它是会随着时间的变化,自动进行昼夜的变化的,不需要依赖我去拖动时间条。
Claude Opus 4.1 看上去不仅仅只是Benchmark 上反应的那么一点点小幅度的更新,或者要么我合理怀疑 Anthropic 为了凸显 Opus 4.1 的牛逼把之前的 Opus 4 降智了。不然我真觉得这进步挺大的了
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2025-08-06
企业级智能体开发中所遇到的问题以及解决方案
2025-08-06
AI 场景内存降本 95%!一文看懂 OceanBase BQ 向量量化
2025-08-06
AI编程实战:AI要独立开发了?TRAE SOLO 后端生成能力深度实测
2025-08-06
AMD 显卡解锁 Ollama 支持:没有 N 卡也能跑大模型
2025-08-06
【重磅发布】Claude Opus 4.1等模型现已接入Refly
2025-08-06
20个进入实用阶段的AI应用场景(咨询公司篇)
2025-08-06
断网后,你的 AI 还能用吗?
2025-08-06
最佳实践|Zilliz 如何助力MiniMax的AI落地与预训练数据管理
2025-05-29
2025-05-23
2025-06-01
2025-06-07
2025-06-21
2025-06-12
2025-05-20
2025-06-19
2025-06-13
2025-05-28
2025-08-06
2025-08-06
2025-08-06
2025-08-05
2025-08-05
2025-08-05
2025-08-04
2025-08-02