支持私有化部署
AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


Agent大革命!Claude 4连续自动编程7小时,刷新世界记录

发布日期:2025-05-23 06:29:31 浏览次数: 1579 作者:AIGC开放社区
推荐语

Claude 4的诞生标志着Agent编程领域的一次重大突破。

核心内容:
1. Claude 4的Opus 4和Sonnet 4两大版本及其性能亮点
2. 混合推理模型的两种思考模式及其应用场景
3. 新增功能及其对开发者编程体验的影响

杨芳贤
53A创始人/腾讯云(TVP)最具价值专家

今天凌晨1点,著名大模型平台Anthropic召开首届开发者大会,并发布了最新大模型——Claude 4

Claude 4一共有Opus 4Sonnet 4两个版本:Opus 4是全球顶级编程模型,非常擅长处理复杂且超长时间的推理任务,尤其是Agent领域非常出色。根据Rakuten测试数据显示,通过Opus 4打造的编程智能体可以独立稳定连续工作7小时,超过了之前OpenAI创造的记录。

Sonnet 4则是 Sonnet 3.7 的迭代版本,同样在编程领域非常出色,在 SWE-bench 上达到了72.7%,超过了OpenAI最新发布的Codex-1o3等前沿模型。

Opus 4Sonnet 4作为混合推理模型,具备两种思考模式:标准思考模式用于快速响应,适合处理那些对时间敏感或需要即时反馈的任务。

而扩展思考模式则允许模型花费更多时间来推理问题,通过更深入的思考来生成更精确、更全面的答案。这种设计的初衷是为了满足不同场景下的需求,用户可以根据具体任务的复杂性和对响应速度的要求,在两种模式之间灵活切换。

完整发布会

但与之前的Sonnet 3.7相比,Opus 4Sonnet 4在扩展思考模式的表现上有显著的不同。在Sonnet 3.7中,扩展思考模式下的原始思考过程通常会完整展示,除非遇到一些极端情况。

这两款模型新增了“思考摘要”功能:当思考过程过长时,会使用一个额外的小型模型来对思考过程进行总结。这种总结方式在实际应用中非常有效,因为只有大约5%的思考过程会触发该总结机制,在大多数情况下用户仍然可以看到完整的思考过程。

对于那些需要完整思考过程且不希望进行总结的开发者,Anthropic还提供了一个开发者模式,开发者可以在此模式下获取未经过总结的完整思考过程。

扩展思考模式在多种场景下都展现出了其独特的优势。例如,在处理复杂的编程任务时,模型可以利用扩展思考模式来深入分析代码逻辑,从而更有效地发现潜在的错误或优化点。这种模式下的深入思考能够帮助开发者更好地理解代码的结构和功能,进而提高代码的质量和效率。

除了模型性能大幅度提升之外,Anthropic还宣布了一系列与之配套的新功能。 扩展思考与工具使用,这两款模型可以在扩展思考过程中使用工具,例如进行网络搜索,从而在推理和工具使用之间交替,以改善回答的质量。

新模型具备了并行工具执行的能力,能够更精准地遵循指令,并且当开发者授予其访问本地文件的权限时,模型能够显著提升记忆能力,提取并保存关键信息,以维持连续性并积累默会知识。

此外,Claude Code现在正式向所有开发者开放,支持通过GitHub Actions进行后台任务,并且与VS CodeJetBrains等开发工具实现了原生集成,可以直接在用户的文件中显示编辑内容,实现无缝的协作编程体验。

Anthropic API还发布了四项新的功能,包括代码执行工具、MCP连接器、文件API以及能够在长达一小时内缓存提示的能力,将助力开发者构建更强大的AI智能体。

值得一提的是,Sonnet 4会免费提供,但每天会有一些限制。

本文素材来源Anthropic,如有侵权请联系删除

END

53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询