我要投稿

Agent大革命！Claude 4连续自动编程7小时，刷新世界记录

发布日期：2025-05-23 06:29:31 浏览次数： 2431

作者：AIGC开放社区

微信搜一搜，关注“AIGC开放社区”

今天凌晨1点，著名大模型平台Anthropic召开首届开发者大会，并发布了最新大模型——Claude 4。

Claude 4一共有Opus 4和Sonnet 4两个版本：Opus 4是全球顶级编程模型，非常擅长处理复杂且超长时间的推理任务，尤其是Agent领域非常出色。根据Rakuten测试数据显示，通过Opus 4打造的编程智能体可以独立稳定连续工作7小时，超过了之前OpenAI创造的记录。

Sonnet 4则是 Sonnet 3.7 的迭代版本，同样在编程领域非常出色，在 SWE-bench 上达到了72.7%，超过了OpenAI最新发布的Codex-1、o3等前沿模型。

Opus 4和Sonnet 4作为混合推理模型，具备两种思考模式：标准思考模式用于快速响应，适合处理那些对时间敏感或需要即时反馈的任务。

而扩展思考模式则允许模型花费更多时间来推理问题，通过更深入的思考来生成更精确、更全面的答案。这种设计的初衷是为了满足不同场景下的需求，用户可以根据具体任务的复杂性和对响应速度的要求，在两种模式之间灵活切换。

完整发布会

但与之前的Sonnet 3.7相比，Opus 4和Sonnet 4在扩展思考模式的表现上有显著的不同。在Sonnet 3.7中，扩展思考模式下的原始思考过程通常会完整展示，除非遇到一些极端情况。

这两款模型新增了“思考摘要”功能：当思考过程过长时，会使用一个额外的小型模型来对思考过程进行总结。这种总结方式在实际应用中非常有效，因为只有大约5%的思考过程会触发该总结机制，在大多数情况下用户仍然可以看到完整的思考过程。

对于那些需要完整思考过程且不希望进行总结的开发者，Anthropic还提供了一个开发者模式，开发者可以在此模式下获取未经过总结的完整思考过程。

扩展思考模式在多种场景下都展现出了其独特的优势。例如，在处理复杂的编程任务时，模型可以利用扩展思考模式来深入分析代码逻辑，从而更有效地发现潜在的错误或优化点。这种模式下的深入思考能够帮助开发者更好地理解代码的结构和功能，进而提高代码的质量和效率。

除了模型性能大幅度提升之外，Anthropic还宣布了一系列与之配套的新功能。扩展思考与工具使用，这两款模型可以在扩展思考过程中使用工具，例如进行网络搜索，从而在推理和工具使用之间交替，以改善回答的质量。

新模型具备了并行工具执行的能力，能够更精准地遵循指令，并且当开发者授予其访问本地文件的权限时，模型能够显著提升记忆能力，提取并保存关键信息，以维持连续性并积累默会知识。

此外，Claude Code现在正式向所有开发者开放，支持通过GitHub Actions进行后台任务，并且与VS Code和JetBrains等开发工具实现了原生集成，可以直接在用户的文件中显示编辑内容，实现无缝的协作编程体验。

Anthropic API还发布了四项新的功能，包括代码执行工具、MCP连接器、文件API以及能够在长达一小时内缓存提示的能力，将助力开发者构建更强大的AI智能体。

值得一提的是，Sonnet 4会免费提供，但每天会有一些限制。

本文素材来源Anthropic，如有侵权请联系删除

END

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2026-05-28

“不用AI的CEO，我会亲自干掉他！”亿万富翁马克·库班最新对话：看好Claude，但奥特曼迟早被自己反噬

2026-05-27

我把 OpenAI Codex 官方案例全跑了一遍

2026-05-27

一个Agent工程师听完VC的2小时播客后想通的事

2026-05-27

考虑把 Claude Code 全量切换到 Grok Build 了

2026-05-27

从透明开发到系统工程：AgentScope 2.0 发布

2026-05-27

大神Karpathy 发明 autoresearch，仅用 Markdown 就做出了自动化研究循环

2026-05-27

Claude Code 新安全插件：写代码时先拦漏洞

2026-05-26

Routa 桌面版发布：内建 Harness 工程的 AI Coding 研发协作工作台

联系获取

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

Claude Opus 4.7刚刚曝光！Claude Code一夜重构，7x24小时替你打工

2026-04-15

OpenAI Codex CLI 完整使用指南

2026-04-07

刚刚Qwen 3.6 Plus上线预览：1M上下文，阿里Coding/Agent翻身战打响

2026-03-31

2026年国内如何注册 Claude 账号教程

2026-03-13

Claude Code 和 Codex 接入 Figma MCP 保姆级教程

2026-04-07

独家| DeepSeek-V4终于要来了：梁文锋憋半年大招，多模态+长期记忆全面破局

2026-03-17

香港终于能直接用 Gemini 了，内地用户能用上吗？

2026-03-17

编程选GPT-5.4，还是GPT-5.3-Codex？

2026-03-21

GPT5.5来了，最大特点解析

2026-04-24

刚刚，GPT-5.4 发布，百万上下文、最强全能模型

2026-03-06

大家都在问

如何使用Codex的Goals机制完成长程任务？

2026-05-26

Codex 的 computer use 功能，为什么这么好用？

2026-05-23

前有用友YonClaw，今有金蝶灵基，中国软件双雄的AI底牌谁能笑到最后？

2026-05-21

Harness Engineering：AI 能在真正"出事会炸"的后端系统里写代码吗？

2026-05-19

谁来给企业端即将大规模入职的Agent盖办公室？

2026-05-09

鹅厂员工觉得好的code模型应该具备什么能力？

2026-05-09

Markdown要被抛弃了？Claude Code工程师自曝：我已彻底放弃使用Markdown！团队倾向使用HTML！网友：其他编辑工具会被淘汰吗？

2026-05-09

AI吞噬软件的叙事要分化了？

2026-05-08

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS Skill 提示词技巧 AI+电商 AI面试数字员工 ChatBI AI知识库开源大模型智能营销智能硬件 FDE AI+医疗 MaxKB Palantir Glean Openclaw