免费POC, 零成本试错
AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


Claude Sonnet 4.5 发布:全解析

发布日期:2025-09-30 07:07:42 浏览次数: 1512
作者:赛博禅心

微信搜一搜,关注“赛博禅心”

推荐语

Claude Sonnet 4.5重磅升级,性能全面提升却保持原价,开发者工具和AI能力双双突破!

核心内容:
1. 价格不变但性能大幅提升的核心升级
2. 在SWE-bench等专业评测中的领先表现
3. 针对开发者推出的SDK和Chrome扩展新功能

杨芳贤
53AI创始人/腾讯云(TVP)最具价值专家
长话短说
• Claude Sonnet 4.5 发布,价格不变
• Claude Agent SDK 发布,遥遥领先
• "Imagine with Claude" 发布,即将可用

公众号回复「Sonnet 4.5」,获取官方模型报告

Claude Sonnet 4.5
Claude Sonnet 4.5 现已全球发布,定价为:3美元/百万 token 输入,15美元/百万 token 输出,与Claude Sonnet 4的价格相同。通过提示缓存可节省高达90%的成本,批量处理可节省50%的成本。
用户可通过 Claude.ai 网站、iOS 和 Android 应用与 Sonnet 4.5 进行对话。
对于希望构建智能体的开发者,Sonnet 4.5已集成到 Claude 开发者平台、Amazon Bedrock 和 Google Cloud 的 Vertex AI中。  

核心升级
在 Claude Code 中,Anthropic添加了最受欢迎的功能之一的检查点功能,可保存进度并即时回滚到之前的状态。还更新了终端界面并发布了原生 VS Code 扩展。
在 Claude API 中,Anthropic新增了上下文编辑功能和记忆工具,让智能体能够运行更长时间并处理更复杂的任务。
在 Claude 应用中,代码执行和文件创建(电子表格、幻灯片和文档)功能已直接集成到对话中。
Anthropic 还为上个月加入等待列表的Max用户提供了 Claude for Chrome 扩展程序。

性能评测
Image
Claude Sonnet 4.5在SWE-bench Verified评测中表现卓越
Claude Sonnet 4.5 在衡量实际软件编程能力的 SWE-bench Verified 评测中达到了业界领先水平。
实际应用中,Anthropic 观察到它能够保持超过30小时的专注度来处理复杂的多步骤任务。
在测试AI模型实际计算机任务能力的 OSWorld 基准测试中,Sonnet 4.5 以 61.4%的得分领先。
就在四个月前,Sonnet 4 还以 42.2% 的得分领先。Claude for Chrome 扩展程序充分利用了这些升级能力。
Claude for Chrome brings AI where you're already working 
Image
模型在推理和数学等广泛评测中表现提升
该模型还在包括推理和数学在内的广泛评测中表现出改进的能力。
金融、法律、医学和STEM领域的专家发现,与旧模型(包括Opus 4.1)相比,Sonnet 4.5在领域特定知识和推理方面表现出显著更好的能力。
Image
金融领域
Image
法律领域
Image
医学领域
Image
STEM领域

安全性与对齐性
Claude Sonnet 4.5不仅是 Anthropic 能力最强的模型,也是迄今为止对齐性最好的前沿模型。Claude 改进的能力和 Anthropic 广泛的安全训练使得 Anthropic 能够大幅改进模型的行为,减少了谄媚、欺骗、权力寻求以及鼓励妄想思维等令人担忧的行为。
对于模型的智能体和计算机使用能力,Anthropic 还在防御提示注入攻击(这些能力用户面临的最严重风险之一)方面取得了重大进展。
Image
来自自动化行为审计器的总体未对齐行为评分(越低越好)
未对齐行为包括(但不限于)欺骗、谄媚、权力寻求、鼓励妄想以及对有害系统提示的遵守。更多详细信息可以在Claude Sonnet 4.5系统卡中找到。
Claude Sonnet 4.5根据Anthropic的框架在Anthropic的AI安全级别3(ASL-3)保护下发布,该框架将模型能力与适当的保障措施相匹配。这些保障措施包括称为分类器的过滤器,旨在检测潜在危险的输入和输出——特别是与化学、生物、放射和核(CBRN)武器相关的输入和输出。

Claude Agent SDK
Anthropic 花费了六个多月的时间为 Claude Code 发布更新,因此 Anthropic 知道构建和设计 AI 智能体需要什么。
Anthropic 解决了难题:智能体应该如何在长时间运行的任务中管理内存,如何处理平衡自主性与用户控制的权限系统,以及如何协调为实现共同目标而工作的子智能体。
Building agents with the Claude Agent SDK
现在,Anthropic 将所有这些功能提供给用户。
Claude Agent SDK与驱动Claude Code的基础设施相同,但它对非常广泛的任务都显示出令人印象深刻的益处,不仅仅是编程。
Anthropic 构建 Claude Code 是因为 Anthropic 想要的工具还不存在。Agent SDK为您提供了相同的基础,可以为您正在解决的任何问题构建同样强大的东西。

"Imagine with Claude"研究预览
Anthropic 正在发布一个临时研究预览,与 Claude Sonnet 4.5 一起发布,名为"Imagine with Claude"。

An experimental new way to design software
在这个实验中,Claude 即时生成软件。没有功能是预先确定的;没有代码是预先编写的。您看到的是 Claude 实时创建,在您交互时响应和适应您的请求。  
这是一个有趣的演示,展示了 Claude Sonnet 4.5 能做什么——一种当您将有能力的模型与正确的基础设施相结合时可以看到可能性的方式。  
"Imagine with Claude" 在未来五天内对Max订阅用户开放。Anthropic鼓励您在claude.ai/imagine上尝试它。
使用建议
Anthropic 建议所有用途都升级到 Claude Sonnet 4.5。
无论您是通过Anthropic的应用程序、Anthropic的API还是Claude Code使用Claude,Sonnet 4.5都是一个即插即用的替代品,以相同的价格提供大幅改进的性能。
Claude Code更新对所有用户可用。Claude开发者平台更新,包括Claude Agent SDK,对所有开发者可用。代码执行和文件创建在Claude应用程序的所有付费计划中可用。
如需完整的技术细节和评估结果,请参阅Anthropic的系统卡、模型页面和文档。更多信息,请探索Anthropic的工程文章和网络安全研究文章。

53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询