微信扫码
添加专属顾问
我要投稿
Claude 4.5 Opus降价背后:性能飞跃与市场策略的双重突破,AI大模型竞争进入新阶段。核心内容: 1. Claude 4.5 Opus的突破性性能表现 2. 降价策略背后的市场考量 3. 开发者生态与多平台应用更新
既然这么强,为啥要降价捏~
我就喜欢你桀骜不驯的样子呢
我们的最新力作——Claude Opus 4.5,于今日正式上线。它不仅智能、高效,更堪称目前全球范围内处理代码、驱动 AI 智能体 (AI Agent) 以及操作计算机的最佳模型。在深度研究、处理幻灯片和电子表格等日常任务上,它也展现出了显著的进步。Opus 4.5 不仅代表了 AI 系统能力的一次飞跃,更预示着未来工作方式将迎来巨大的变革。
在针对现实世界软件工程的测试中,Claude Opus 4.5 展现出了业界领先的实力:
即日起,您可以通过我们的 App、API 以及三大主流云平台访问 Opus 4.5。如果您是开发者,只需通过 Claude API 调用 claude-opus-4-5-20251101 即可体验。定价现已调整为每百万 Token 5 美元(输入)/ 25 美元(输出)——这使得更多用户、团队和企业能够以亲民的价格享受到 Opus 级别的强大能力。
与 Opus 同步推出的,还有 Claude Developer Platform、Claude Code 以及我们面向消费者的 App 的一系列更新。我们为长周期运行的智能体提供了新工具,并解锁了在 Excel、Chrome 和桌面上使用 Claude 的全新方式。在 Claude App 中,长对话将不再受限。更多详情,请参阅下方的产品专区。
在正式发布前,Anthropic 的同事们对模型进行了内测,反馈出奇的一致。测试人员发现,Claude Opus 4.5 在处理模糊指令和权衡推理时,完全无需人工手把手引导。他们表示,当面对复杂的多系统 Bug 时,Opus 4.5 能精准地找出修复方案。那些对于 Sonnet 4.5 来说几周前还几乎不可能完成的任务,现在已是轻而易举。总而言之,测试者的感受是:Opus 4.5 终于“开窍”了。
许多参与早期体验的客户也有类似的体会。以下是他们的反馈精选:
Opus 系列模型一直被视为“真正的业界标杆 (SOTA)”,但过去其高昂的成本让人望而却步。现在的 Claude Opus 4.5 价格已十分亲民,完全可以成为您处理大多数任务的首选模型。它是当之无愧的赢家,展现了我们迄今为止见过的最强前沿任务规划和工具调用能力。
Jeff Wang
CEO
Claude Opus 4.5 能交付高质量的代码,并且在配合 GitHub Copilot 处理重型智能体工作流方面表现卓越。早期测试显示,它在超越内部代码基准的同时,将 Token 使用量减少了一半,特别适合代码迁移和重构等任务。
Mario Rodriguez
Chief Product Officer
我们通常会用一套极具挑战性的“家庭作业”式考题来筛选性能工程 (Performance Engineering) 岗位的候选人。我们也利用这套考题作为内部基准来测试新模型。在限定的 2 小时内,Claude Opus 4.5 的得分超越了我们要招聘的所有人类候选人的历史最高记录
这项测试旨在评估候选人在高压环境下的技术能力与判断力。当然,它无法涵盖协作、沟通或经年累月积累的职业直觉等其他关键软技能。但这一结果——AI 模型在核心技术技能上超越了优秀的人类候选人——引发了我们对 AI 将如何重塑工程这一职业的深思。我们的 社会影响 和 经济未来 研究正是旨在理解各领域即将面临的此类变革。我们将很快分享更多研究成果。
软件工程并非 Claude Opus 4.5 唯一取得突破的领域。该模型的各项能力均有显著提升——Opus 4.5 在视觉、推理和数学能力上都超越了前代产品,并在多个领域达到了业界最先进水平 (State-of-the-art)
Opus 4.5 代码编写能力更强,在 SWE-bench Multilingual 的 8 种编程语言中,有 7 种处于领先地位。
Opus 4.5 能轻松解决复杂的编码难题,在 Aider Polyglot 上比 Sonnet 4.5 提升了 10.6%。
Opus 4.5 在前沿智能体搜索方面有所改进,在 BrowseComp-Plus 上实现了大幅跃升。
Opus 4.5 在长期任务中能保持专注,在 Vending-Bench 上比 Sonnet 4.5 高出 29%。
该模型的能力甚至超越了我们要测试它的部分基准。一个衡量智能体能力的常用基准是 τ2-bench,它测试智能体在现实世界多轮对话任务中的表现。在一个场景中,模型需要扮演航空公司客服,帮助一位焦虑的客户。基准测试预设的“正确答案”是模型应当拒绝修改基础经济舱 (Basic Economy) 的预订,因为该舱位通常不允许改签。然而,Opus 4.5 发现了一个极具巧思(且完全合规)的解法:先升级舱位,然后再 修改航班。
让我思考一下在这个政策下我有哪些选择:
1. 修改航班 - 基础经济舱不可修改。政策里写得很清楚。
2. 变更舱位 - 等等,让我检查一下这个选项!政策说:
"在其他情况下,所有预订,包括基础经济舱,都可以在不改变航班的情况下变更舱位。"
但他想改航班,不仅仅是舱位。但是,如果我们:
- 先变更舱位(这对基础经济舱是允许的),然后
- 修改航班(这对非基础经济舱是允许的)
所以策略可以是:
1. 将他的舱位从基础经济舱升级到经济舱(或商务舱)
2. 然后将航班修改为 2 天后
这会花更多钱,但这是政策范围内的一条合规路径!
尽管从技术判定上,基准测试将此算作“失败”,因为 Claude 帮助客户的方式超出了预设范围。但这正是我们的测试者和客户所津津乐道的“创造性问题解决能力”——这正是让 Claude Opus 4.5 给人感觉实现质的飞跃的原因所在。
当然,在其他语境下,这种寻找捷径绕过既定规则的行为可能被视为 奖励破解 (Reward Hacking)——即模型以非预期的方式“玩弄”规则或目标。防止此类失准行为正是我们安全测试的目标之一,下一节将对此进行讨论。
正如我们在 System Card (系统卡片) 中所述,Claude Opus 4.5 是我们迄今为止发布的最稳健、对齐度最高的模型,我们甚至认为它是所有开发商中对齐表现最好的前沿模型。它延续了我们致力于打造更安全、更可靠模型的趋势:
在我们的评估体系中,“令人担忧的行为 (Concerning behavior)”评分涵盖了极其广泛的失准行为,既包括配合人类进行滥用,也包括模型自主发起的非预期行动。
我们的客户常将 Claude 用于关键任务。他们需要确信,即便面对黑客和网络罪犯的恶意攻击,Claude 也具备足够的训练素养和“生存智慧”来规避风险。在 Opus 4.5 上,我们在防御提示词注入 (Prompt Injection) 攻击方面取得了实质性进展,这类攻击通常通过夹带欺骗性指令来诱导模型做出有害行为。相比业内其他前沿模型,Opus 4.5 更难被提示词注入所欺骗:
注:该基准测试仅包含极高强度的提示词注入攻击,由 Gray Swan 开发并执行。
您可以在 Claude Opus 4.5 System Card 中找到关于我们要能力和安全评估的详细说明。
随着模型变得越来越智能,它们解决问题的步骤也随之减少:更少的回溯,更少的无效探索,以及更精炼的推理过程。Claude Opus 4.5 消耗的 Token 远少于前代产品,却能达到相似甚至更好的结果。
但不同的任务需要不同的权衡。有时开发者希望模型对问题进行深思熟虑;有时则需要它更敏捷地做出反应。通过 Claude API 新增的 effort 参数,您可以自主决定是优先考虑极速与低成本,还是追求极致的能力表现。
当设置为中等 effort 级别时,Opus 4.5 在 SWE-bench Verified 上的得分与 Sonnet 4.5 的最佳成绩持平,但输出 Token 减少了 76%。而在最高 effort 级别下,Opus 4.5 的表现超越 Sonnet 4.5 达 4.3 个百分点——同时 Token 消耗量仍减少了 48%。
凭借 effort 控制、上下文压缩 以及 高级工具使用 等功能,Claude Opus 4.5 能够运行更长时间,处理更多任务,且所需的外部干预更少。
我们的 上下文管理 和 记忆能力 能够显著提升智能体任务的表现。Opus 4.5 在管理子智能体团队方面也表现卓越,支持构建复杂且协同良好的多智能体系统。在测试中,结合所有这些技术,Opus 4.5 在深度研究评估中的表现提升了近 15 个百分点 4。
我们正致力于让开发者平台具备更高的可组合性。我们希望为您提供构建模块,让您能像搭积木一样构建出完全符合需求的应用,并对效率、工具调用及上下文管理拥有完全的掌控力。
像 Claude Code 这样的产品,生动展示了 Claude 开发者平台各项升级融合后的无限可能。随着 Opus 4.5 的发布,Claude Code 迎来了两大升级。Plan Mode(计划模式)现在能制定更精准的计划并执行得更为彻底——Claude 会预先询问澄清性问题,并在执行前生成一个用户可编辑的 plan.md 文件。
Claude Code 现已集成至我们的 桌面应用 中,支持并行运行多个本地及远程会话:您可以让一个智能体修复 Bug,另一个在 GitHub 上进行调研,同时让第三个负责更新文档。
对于 Claude App 用户而言,长对话将不再受阻——Claude 会根据需要自动总结早期的上下文信息,让您的对话流畅延续。Claude for Chrome 让 Claude 能够跨浏览器标签页处理任务,现已面向所有 Max 用户开放。我们在 10 月发布了 Claude for Excel,即日起,我们将 Beta 测试权限扩展至所有 Max、Team 和 Enterprise 用户。这些更新都充分利用了 Claude Opus 4.5 在计算机操作、电子表格处理及长周期任务执行方面的业界领先性能。
对于有权访问 Opus 4.5 的 Claude 和 Claude Code 用户,我们取消了针对 Opus 的特定限制。针对 Max 和 Team Premium 用户,我们提高了整体使用额度,这意味着您拥有的 Opus Token 数量将与此前使用 Sonnet 时大致相当。我们正在调整使用限额,以确保 Opus 4.5 能够满足您的日常工作需求。请注意,这些限额专为 Opus 4.5 设定。随着未来更强模型的问世,我们将根据需要动态调整限制。
翻译 by Gemini 3.0
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2025-11-25
Google又发布了一篇可能改变AI未来的论文,这次它教AI拥有了记忆。
2025-11-25
Nano Banana Pro 到底强在哪?10个落地场景告诉你(附Prompt)
2025-11-25
OpenAI与Anthropic联手力推:MCP Apps提案发布,告别纯文本交互
2025-11-24
Agent 设计的实践挑战与经验总结
2025-11-24
解锁Gemini 3 Pro潜力:Google官方Prompt Engineering最佳实践
2025-11-24
Pixeltable:一张表搞定embeddings、LLM、向量搜索,多模态开发不再拼凑工具
2025-11-24
深入AI Agent内核: Google gemini-cli 源码深度解构
2025-11-24
Data Agent的理想很美好,现实很残酷
2025-09-19
2025-10-02
2025-09-16
2025-10-26
2025-09-08
2025-09-17
2025-09-29
2025-09-14
2025-10-07
2025-09-30
2025-11-23
2025-11-19
2025-11-19
2025-11-19
2025-11-18
2025-11-18
2025-11-17
2025-11-15