支持私有化部署
AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


刚刚,Claude 4.1 发布

发布日期:2025-08-06 07:44:47 浏览次数: 1528
作者:AGI Hunt

微信搜一搜,关注“AGI Hunt”

推荐语

Claude 4.1重磅升级,编码性能创纪录,未来几周还有更大惊喜!

核心内容:
1. Claude 4.1在智能体任务、真实世界编码和推理能力的全面升级
2. 在多个基准测试中刷新记录,特别是SWE-bench Verified达到74.5%
3. 合作伙伴实测显示在代码重构、调试等场景表现突出

杨芳贤
53AI创始人/腾讯云(TVP)最具价值专家

Claude Opus 4.1 来了,而且未来几周还有更大的升级!

刚刚,Anthropic 发布了 Claude Opus 4.1,这是对 Claude Opus 4 在智能体任务、真实世界编码和推理能力上的全面升级。

而更让人期待的是,Anthropic 明确表示:

未来几周内将发布对模型的实质性重大改进

这次升级已经对付费用户开放,同时也可以通过 API、Amazon Bedrock 和 Google Cloud 的 Vertex AI 使用。

价格保持不变,与 Opus 4 相同。

我也第一时间已经用上了:

能力大幅提升

Opus 4.1 在 SWE-bench Verified 上达到了 74.5% 的成绩,再次刷新了最先进的编码性能记录。

它还大幅提升了 Claude 的深度研究和数据分析能力,特别是在细节追踪和智能体搜索方面。

Anthropic 还贴出了合作伙伴们的实测结果:

GitHub 指出,Claude Opus 4.1 相比 Opus 4 在大多数能力上都有提升,特别是在多文件代码重构方面表现尤为突出。

Rakuten Group 发现 Opus 4.1 在大型代码库中精确定位修正位置的能力非常出色,它不会进行不必要的调整或引入 bug。他们的团队在日常调试任务中更偏爱这种精准度。

Windsurf 报告称,Opus 4.1 在他们的初级开发者基准测试上比 Opus 4 提升了一个标准差,显示出与从 Sonnet 3.7 到 Sonnet 4 的跳跃大致相同的性能飞跃。

轻松碾压对手

从基准测试数据来看,Opus 4.1 的表现相当亮眼。

在 TAU-bench、GPQA Diamond、MMMLU、MMMU、AIME 等多个基准上都展现出了强劲的实力。

值得注意的是,Claude 模型是混合推理模型。报告中的基准测试展示了在有或没有扩展思考情况下达到的最高分数:

  • 无需扩展思考:SWE-bench Verified、Terminal-Bench
  • 使用扩展思考(最多 64K tokens):TAU-bench、GPQA Diamond、MMMLU、MMMU、AIME

如何使用

Anthropic 建议所有 Opus 4 用户都升级到 Opus 4.1。

开发者可以通过 API 使用 claude-opus-4-1-20250805。同时还可以查看系统卡片、模型页面、定价页面和文档了解更多信息。

网友纷纷激动不已

TestingCatalog News(@testingcatalog) 激动地评论:

实质性的重大改进 🤯

elvis(@omarsar0) 表示很高兴在 Claude Code 中使用这个版本:

很高兴能在 Claude Code 中使用这个版本。马上就去试试。

Chintan Patel(@FollowChintan) 惊叹道:

在 GPT-5 之前就有新的 Opus 更新,这是我没想到的!

当然也有用户关心价格问题,Hamza(@thegenioo) 询问:

我们能期待这个模型的价格下降吗?

还有用户在问 Sonnet 4.1 什么时候来,Yossi Dahan(@Yossi_Dahan_) 发出灵魂拷问:

小老弟 Sonnet 4.1 在哪里?😭

确实,只有4.1 Opus,而看不到 4.1 Sonnet……

The Canaanite(@mysticaltech) 对更新节奏表示赞赏:

喜欢这个,从过去的 6 个月周期中解脱出来,令人耳目一新。

当所有人都在等待 GPT-5 的时候,Anthropic 选择给出个小惊喜刷刷存在感的同时,也稳步提升了自己的模型能力。

以及,一边不让OpenAI 调用自己API,一边小发个新模型打乱Sam Altman 本就不太稳的节奏……

OpenAI's fired CEO Sam Altman to join Microsoft | Technology News | Al  Jazeera

Anthropic 这发布节奏掌握得是真的好……先给你一个扎实的升级,再画一个不远的饼

这次是个全面提升的小惊喜: Claude 4.1。

而承诺几周后的「实质性重大改进」会是什么呢?

Claude 5 吗?




[1]

Claude Opus 4.1 发布公告: https://www.anthropic.com/news/claude-opus-4-1

[2]

Claude Opus 4.1 系统卡片: https://www.anthropic.com/claude-opus-4-1-system-card

[3]

Claude Opus 模型页面: https://www.anthropic.com/claude/opus

[4]

API 定价: https://www.anthropic.com/pricing#api

[5]

开发文档: https://docs.anthropic.com/en/docs/about-claude/models/overview


👇

👇

👇

另外,我还用AI 进行了全网的AI 资讯采集,并用AI 进行挑选、审核、翻译、总结后发布到《AGI Hunt》的实时AI 快讯群中。

这是个只有信息、没有感情的 AI 资讯信息流(不是推荐流、不卖课、不讲道理、不教你做人、只提供信息、希望能为你节省一些时间)

53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询