我要投稿

Claude 4发布！世界最强编程模型来了

发布日期：2025-05-23 05:22:45 浏览次数： 3382

作者：AGI Hunt

微信搜一搜，关注“AGI Hunt”

Anthropic 深夜扔出了一枚重磅炸弹！

Claude 4家族正式发布，包含Claude Opus 4和Claude Sonnet 4两个版本，直接把编程AI的天花板又顶高了一大截。

这两款模型分别针对不同场景，但都有一个共同点——代码能力秒杀竞品！

这次从3.x到4的大版本升级，自然不会是小打小闹，而是彻底重新定义了AI编程的能力边界。

Claude 4的升级不是简单的性能提升，而是带来了一系列新功能和突破性的能力。

让我们来看看这两款模型到底有多强！

世界最强编程模型诞生

Claude Opus 4被Anthropic官方称为「世界最佳编程模型」！

在业界公认最权威的编程基准测试SWE-bench Verified上，Opus 4拿下了72.5%的成绩！

这是什么概念？

这个基准测试专门用来衡量模型解决真实软件工程问题的能力，这意味着它能解决真实软件开发中的复杂问题。

更恐怖的是，Claude Opus 4在Terminal-bench上得分43.2%，能Opus 4能够连续工作数小时，在长时间复杂任务上保持专注和高性能。

想象一下，一个AI能独立重构你的整个代码库，并且坚持工作7个小时不掉链子——这已经不是科幻了。

Rakuten就验证了这一点，他们让Opus 4独立完成了一个要求极高的开源重构任务，整整跑了7小时，性能始终稳定。

不只是编程更强

Claude Sonnet 4虽然定位为「日常使用版本」，但实力同样不容小觑。

相比前代Sonnet 3.7，Sonnet 4在编程和推理能力上都有显著提升，在SWE-bench上拿下了72.7%的成绩，超越了市面上绝大多数模型。

两个版本都采用了混合架构，提供两种工作模式：近即时响应和深度思考推理。当遇到复杂问题时，模型会自动切换到「思考模式」，像人类一样进行深度分析。

更厉害的是，模型在思考过程中还能调用工具，比如网络搜索，形成「思考-搜索-再思考」的工作循环。

这真是把模型的能力再一次提到了新的维度！

行业大佬集体点赞

一些使用Claude的企业已经给出了积极反馈：

Cursor 直接表示Opus 4是编程领域的重大突破，在复杂代码库理解方面有了质的飞跃。

GitHub 宣布将把Sonnet 4作为GitHub Copilot的基础模型。

Replit 报告称，模型在跨多文件复杂修改方面有了「戏剧性的改进」。

Rakuten验证了它的能力，让它独立重构开源代码，连续运行7小时依然保持稳定表现！

从X 用户的反应来看，网友的兴奋程度也很高：

christian yun(@christiankyun) 直接把这次发布比作游戏界的重磅：

AI 界的GTA6 终于来了！

kitze(@thekitze) 已经迫不及待要用Sonnet 4重构React组件了：

等不及要用Sonnet 4从头重新发明宇宙来重构我的React组件了

不过也有质疑声音。

voicesz(@voicesz_)对基准测试结果表示怀疑：

这些家伙想让我们相信它在高中数学上不如o3，但在编程上更强？醒醒吧

混合模型，双剑合璧

Claude Opus 4和Sonnet 4是混合模型，提供两种工作模式：

近乎即时的响应
延长思考时间，进行更深入的推理

这两款模型还能在推理和工具使用之间切换——比如网络搜索——来提高响应质量。

这意味着什么？

简单来说，Claude既能快速回答简单问题，又能处理需要深思熟虑的复杂任务。

最厉害的是，这两款模型能够并行使用工具，更精确地遵循指令，当开发者授予本地文件访问权限时，它们展现出显著改进的记忆能力，能够提取和保存关键事实，在长时间的交互中维持连续性。

GitHub称Claude Sonnet 4在代理场景中「表现出色」，并将其作为GitHub Copilot中新编码代理的基础模型。

iGent报告说Sonnet 4在自主多功能应用开发方面表现出色，问题解决和代码库导航能力也大幅提升——导航错误从20%降低到接近零！

Claude Code正式上线

伴随模型发布，Claude Code也从研究预览版转为正式可用。

现在开发者可以直接在终端、VS Code和JetBrains等IDE中使用Claude，AI的修改建议会直接显示在你的代码文件中，实现无缝的结对编程体验。

更令人兴奋的是，Claude Code现在支持GitHub Actions后台任务，你甚至可以在PR中@Claude Code来响应代码审查反馈或修复CI错误。

记忆能力大幅提升

最让人惊喜的是模型的记忆能力。

Claude 4模型通过深度集成保持持续专注和完整上下文。

Anthropic 团队还分享了其与 Claude 一起度过一整天，进行扩展研究、构建应用程序原型并编排复杂的项目计划。

当开发者为Claude提供本地文件访问权限时，Opus 4会主动创建和维护「记忆文件」来存储关键信息。这意味着AI将能够在长期任务中保持连续性，积累经验知识。

官方展示了一个有趣的例子：Opus 4在玩《宝可梦》游戏时，自己创建了一份「导航指南」来记录游戏进度和策略。

这种记忆能力让AI真正具备了学习和积累的特性，不再是每次对话都从零开始。

更重要的是，这些模型在防止使用捷径或漏洞完成任务方面也有改进。两款模型在容易出现捷径和漏洞的代理任务上，Claude 4的可能性比Sonnet 3.7降低了65%。

立即可用，价格不变

Claude 4系列今天就能使用，Sonnet 4甚至对免费用户开放。

付费用户可以同时使用两个版本和扩展思考功能。API定价保持不变：Opus 4为15/75美元每百万token（输入/输出），Sonnet 4为3/15美元。

模型现已在Anthropic API、Amazon Bedrock和Google Cloud Vertex AI上线。

AI 编程的军备竞赛再次进入了新阶段！

新一轮的AI战争又已打响。

竞争的循环永无止境。

每个月，几乎都会有至少一款全新的 “全球地表最强大款” 登上桂冠。

人们鼓掌、比较，然后等待下一个。

这是一场没有终点的比赛！

上上次是O3，上次是Gemini 2.5 pro，这次是Claude 4……

下一次，会是谁呢

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2026-05-27

我把 OpenAI Codex 官方案例全跑了一遍

2026-05-27

一个Agent工程师听完VC的2小时播客后想通的事

2026-05-27

考虑把 Claude Code 全量切换到 Grok Build 了

2026-05-27

从透明开发到系统工程：AgentScope 2.0 发布

2026-05-27

大神Karpathy 发明 autoresearch，仅用 Markdown 就做出了自动化研究循环

2026-05-27

Claude Code 新安全插件：写代码时先拦漏洞

2026-05-26

Routa 桌面版发布：内建 Harness 工程的 AI Coding 研发协作工作台

2026-05-26

面壁智能BitCPM-CANN：端侧AI的内存革命

联系获取

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

Claude Opus 4.7刚刚曝光！Claude Code一夜重构，7x24小时替你打工

2026-04-15

OpenAI Codex CLI 完整使用指南

2026-04-07

刚刚Qwen 3.6 Plus上线预览：1M上下文，阿里Coding/Agent翻身战打响

2026-03-31

2026年国内如何注册 Claude 账号教程

2026-03-13

Claude Code 和 Codex 接入 Figma MCP 保姆级教程

2026-04-07

独家| DeepSeek-V4终于要来了：梁文锋憋半年大招，多模态+长期记忆全面破局

2026-03-17

香港终于能直接用 Gemini 了，内地用户能用上吗？

2026-03-17

编程选GPT-5.4，还是GPT-5.3-Codex？

2026-03-21

GPT5.5来了，最大特点解析

2026-04-24

刚刚，GPT-5.4 发布，百万上下文、最强全能模型

2026-03-06

大家都在问

如何使用Codex的Goals机制完成长程任务？

2026-05-26

Codex 的 computer use 功能，为什么这么好用？

2026-05-23

前有用友YonClaw，今有金蝶灵基，中国软件双雄的AI底牌谁能笑到最后？

2026-05-21

Harness Engineering：AI 能在真正"出事会炸"的后端系统里写代码吗？

2026-05-19

谁来给企业端即将大规模入职的Agent盖办公室？

2026-05-09

鹅厂员工觉得好的code模型应该具备什么能力？

2026-05-09

Markdown要被抛弃了？Claude Code工程师自曝：我已彻底放弃使用Markdown！团队倾向使用HTML！网友：其他编辑工具会被淘汰吗？

2026-05-09

AI吞噬软件的叙事要分化了？

2026-05-08

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS Skill 提示词技巧 AI+电商 AI面试数字员工 ChatBI AI知识库开源大模型智能营销智能硬件 FDE AI+医疗 MaxKB Palantir Glean Openclaw