我要投稿

Opus 4.5 发布：所有信息，全整理

发布日期：2025-11-25 10:18:51 浏览次数： 1870

作者：赛博禅心

微信搜一搜，关注“赛博禅心”

今天，Anthropic 发布了 Claude Opus 4.5，目前编程能力最强的大模型

更多成绩成绩：

• SWE-bench Verified：80.9%（GPT-5.1 是 76.3%，Gemini 3 Pro 是 76.2%）
• Terminal-Bench 2.0：59.3%
• OSWorld：66.3%
• ARC-AGI-2：37.6%

Anthropic 还放了一个有点吓人的数据：

他们用内部工程招聘的笔试题测 Opus 4.5，在规定的 2 小时内，模型的得分超过了所有参加过这个考试的人类候选人

定价是 5/25 每百万 token，比 4.1 便宜（15/75）

以及，这个模型依然是 200k 上下文，64k 最长输出（sonnet 在声明特殊标签的情况下，可拓展到 1M 上下文）

Anthropic 说这是他们「史上最佳对齐」的模型，也「可能是行业内最佳对齐的前沿模型」

非常有趣的模型

伴随 Opus 4.5 发布的，还有一份 SystemCard，我读了一下，十分有趣，也欢迎大家来看看

在 τ2-bench 这个评测里，有个场景是让模型扮演航空公司客服

一个客户要改签机票，但他买的是基础经济舱，按规定不能改

正确答案应该是拒绝，但 Opus 4.5 找到了一个评测者没想到的路径：

先把舱位升级（规则允许），再改签（因为不再是基础经济舱了）

评测系统把这个判成了错误，因为不在预期答案里

只能说：牛逼！

System Card 里的更多事情

Anthropic 在 System Card 里承认了一件不太好看的事

他们发现模型在做 AIME 数学题时，推理过程是错的，但最终答案是对的

这可能是....模型见过答案

调查发现，尽管做了去污染处理，一些改写过的 AIME 题目和答案还是进入了训练数据

对此，Anthropic 的建议是：以后的评测数据集最好加 canary string（一种标记字符串），方便从训练数据里筛掉

emmmm...很实诚，业内不常见（你知道我在说什么）

自治能力：接近但未突破 ASL-4

System Card 里花了大量篇幅讨论 Opus 4.5 的自治能力

结论是：接近 ASL-4 阈值，但没有突破

null

上图是之前 Anthropic 对 ASL-4 的描述，其门槛之一是：能完全自动化一个入门级远程研究员的工作，Anthropic 内部做了一个调查，18 位重度使用 Claude Code 的员工都认为：不行

原因包括：

• 无法像人类一样在多周时间内保持连贯
• 缺乏长期协作和沟通能力
• 判断力不够

但 Anthropic 也说，距离 ASL-4 可能不远了

其他更新

本次也更新了其他内容，大致如下

• Claude Code 现在可以在桌面端跑多个并行任务
• 长对话不再中断，会自动压缩上下文
• Claude for Chrome 和 Claude for Excel 扩展开放给更多用户
• 新增 effort 参数，可以控制模型思考的深度——低设置更省 token，高设置更聪明
• 发布了3个Beta的 Agent 功能：Tool Search Tool/Programmatic Tool Calling/Tool Use Examples，这仨都是给开发者用的，很高效，之后有机会我单起一篇

最后

从 BenchMark 上来看：Opus 4.5 的编程能力确实是目前最强的

至于「史上最佳对齐」这个说法，信不信，看你自己

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2026-02-25

实测 Ollama 新 Launch：一条命令运行 Claude Code、Codex 与 OpenCode（无需配置）

2026-02-25

Claude Code 龙虾化！上线远程控制：手机随时接管本地终端，开发环境无缝同步

2026-02-25

引爆SaaS万亿美元抛售之后，Anthropic加码Cowork，要改变所有白领

2026-02-24

当软件不值钱了以后，最稀缺的资源是什么？

2026-02-24

OpenAI Codex负责人：我们熟悉的编程方式正在终结 | Jinqiu Select

2026-02-24

OpenClaw 最佳实践：5条“基本原则”

2026-02-24

春节归来第一天，Second Me 做了一个「Agent 互联网的 App Store」

2026-02-24

万字深度解读 MCP Apps：重构 Web 应用，开启 AI 助手的“小程序”时代。

联系获取

联系获取

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

Pencil：设计和写代码，以后就全让AI干了

2026-01-24

独家实录｜唐杰、杨植麟、林俊旸、姚顺雨...All Star 对话上，大家聊了啥？

2026-01-10

2026 开年 AI 工具推荐，让你新的一年效率起飞！（建议收藏）

2026-01-01

从0到1玩转Clawdbot：我花了40小时，把这些坑都踩完了

2026-01-26

Codex 史诗级更新！引入 Skills 技能库，直接兼容 Claude 生态，开发效率原地起飞

2025-12-09

深度解读：OpenClaw 架构及生态

2026-02-03

Claude赢麻了？OpenAI Codex正式支持Skills，GitHub连夜上车！

2025-12-21

终于！Gemini CLI支持Agent Skills，一键搬运Claude Code的“绝招”

2026-01-09

Claude Code Skills 国内实践全指南：从安装部署到高阶开发

2026-01-09

从安装到运行：手把手教你用Clawdbot完成第一个智能任务

2026-01-27

大家都在问

当软件不值钱了以后，最稀缺的资源是什么？

2026-02-24

AI Agent系列｜什么是 ReAct Agent？

2026-02-24

OpenClaw "卷"疯了！四天3版！2.14-2.17 版本更新了啥？

2026-02-20

一切皆可Agent Skills，无处不在的AI Agent会替代业务流程吗？

2026-02-14

context是什么？怎么用？

2026-02-13

模型能力、提示词、Skill、工作流、Vibe Coding——到底都是什么？

2026-02-12

谷歌Chrome深夜爆更，Agent不用「装」人了！前端最后防线崩了？

2026-02-12

刚刚，DeepSeek悄悄测试新模型：百万token上下文、知识库更新，V4要来了？

2026-02-11

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS 提示词框架提示词技巧 AI+电商 AI面试数字员工 ChatBI AI知识库开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB Palantir Glean

应聘简历请发送至： ceo@53ai.com

联系我们

售前咨询

预约演示

微信扫码

添加专属顾问

回到顶部