我要投稿

Claude Opus 4.6 发布，跑分霸榜，价格不变

发布日期：2026-02-06 07:16:28 浏览次数： 3093

作者：AGI Hunt

微信搜一搜，关注“AGI Hunt”

万众期待的 Sonnet 5 没来，Opus 4.6 先来了。

Anthropic 今天发布了 Claude Opus 4.6，对自家最强模型做了一次全面升级：更会写代码，更能扛长任务，还学会了自己检查自己的错误。

而且，这是 Opus 系列第一次支持 1M token 的上下文窗口（beta）。

就是我们的 Claude Code 在自动进行上下文压缩之前，能干更多的活、记性也更好了。

跑分，全面领先

先看硬实力：

在 Agentic coding 评测 Terminal-Bench 2.0 上，Opus 4.6 拿下了 65.4% 的最高分，超过 GPT-5.2 的 64.7%，也超过自家前代 Opus 4.5 的 59.8%。

在复杂多学科推理测试 Humanity's Last Exam 上（带工具），Opus 4.6 拿到 53.1%，同样是所有模型中的最高分。

在衡量「经济价值型知识工作」的 GDPval-AA 评测中——涵盖金融、法律等领域——Opus 4.6 得分 1606 Elo，比 OpenAI 的 GPT-5.2（1462）高出约 144 Elo，比自家 Opus 4.5（1416）高出 190 Elo。

翻译一下：在这个评测里，Opus 4.6 大约有 70% 的概率打赢 GPT-5.2。

在 BrowseComp（搜索能力评测）上，Opus 4.6 以 84.0% 的得分碾压所有对手，加上多 Agent 框架后甚至能到 86.8%。

在新问题求解能力评测 ARC AGI 2 上，Opus 4.6 拿到 68.8%，比 Opus 4.5 的 37.6% 几乎翻了一倍。

上下文腐烂的克星

用 AI 的人大概都有体会：对话一长，模型就开始「忘事」。前面说的条件后面就不认了，越往后聊质量越差。

这就是所谓的 context rot。

Opus 4.6 在这方面有了质的飞跃。在 MRCR v2 的 8-needle 1M token 大海捞针变体测试中 Opus 4.6 得分 76%，而 Sonnet 4.5 只有 18.5%。

这可以说是质变了。

意味着 Opus 4.6 不只是能装下更多上下文，还能真正用好这些上下文，不会读着读着就「走神」了。

安全可靠

能力变强了，安全性怎么样？

Bar charts comparing Opus 4.6 to other Claude models on overall misaligned behavior

Anthropic 表示，这次对 Opus 4.6 做了有史以来最全面的安全评估，包括新增的用户福祉评估、更复杂的拒绝危险请求测试，以及对模型「偷偷搞事」的隐蔽行为检测。

结果是：Opus 4.6 的整体对齐水平和前代 Opus 4.5 持平，后者已经是 Anthropic 此前对齐最好的模型。而在过度拒绝这一项（也就是明明没问题的问题却不回答）Opus 4.6 的表现是所有近期 Claude 模型中最好的。

因为 Opus 4.6 的网络安全能力有了明显提升，Anthropic 还专门开发了 6 个新的网络安全探测器来追踪潜在的滥用。

同时他们也在加速用这个模型做网络防御：帮开源软件找漏洞、打补丁。

Claude Code：Agent 组队干活

此次 Claude Code 迎来了一个重磅功能：Agent Teams（研究预览阶段）。

你现在可以同时启动多个 Agent，让它们自主协调、并行工作。

这非常适合那些可以拆分成独立子任务的场景，比如大型代码库 review。你还能用 Shift+Up/Down 或 tmux 直接接管任何一个子 Agent。

从此，一个 Agent 不够用的，就直接上一整个团队。

API 三大新能力

在开发者平台这边，Anthropic 给了三个值得关注的新功能：

Adaptive Thinking（自适应思考）

以前开发者只能选择开或关 extended thinking，现在 Claude 可以自己判断什么时候需要深度推理。默认 effort 级别是 high，Claude 会在需要时自动启用深度思考。

Effort 级别控制

现在有四档可选：low、medium、high（默认）、max。Anthropic 建议如果觉得模型在简单任务上想太多，可以调到 medium。

Context Compaction（上下文压缩，beta）

长对话和长 Agent 任务经常撞到上下文窗口的天花板。这个功能会在接近阈值时自动总结并替换旧的上下文，让 Claude 能持续跑更长的任务而不中断。

此外，Opus 4.6 支持最多 128K output tokens，以及仅限美国推理的选项（1.1 倍价格）。

定价保持不变：25 per million tokens，超过 200K tokens 的长上下文使用 premium 定价（37.50）。

Claude in Excel & PowerPoint

Claude in Excel 能力大幅提升：可以处理更长、更难的任务，支持条件格式、数据验证等更丰富的功能，能在一次操作中完成多步修改，还能自动推断非结构化数据的结构。

Bar charts comparing Claude Opus 4.6 to other models on GDPval-AA

Claude in PowerPoint 进入研究预览，面向 Max、Team 和 Enterprise 用户开放。Claude 能读取你的布局、字体、母版，保持品牌风格一致，无论是基于模板还是从文字描述生成整套幻灯片。

先在 Excel 里处理数据，再在 PowerPoint 里做成演示文稿，这套工作流已经完全地打通了。

合作伙伴好评

一大波早期合作伙伴给出了反馈，这里挑几个有意思的：

Notion：「Opus 4.6 是 Anthropic 发布过的最强模型。它接到复杂请求后真的会执行到底，把任务拆成具体步骤然后完成，不需要手把手带。」

GitHub：「在复杂的多步编码工作上表现出色，尤其是需要规划和工具调用的 Agent 工作流，开始解锁长周期任务了。」

Cursor：「在更难的问题上明显突出。更有韧性，代码 review 更好，长时间任务别的模型掉队了它还在。」

NBIM（挪威央行投资管理局）：「在 40 项网络安全调查中，Claude Opus 4.6 盲评排名第一拿了 38 次，每个模型跑同一套 Agent 框架，最多用 9 个子 Agent 和 100+ 次工具调用。」

SentinelOne：「Opus 4.6 处理数百万行代码库迁移就像一个高级工程师，提前做计划，边学边调整策略，用了一半时间就完成了。」

Rakuten：「Opus 4.6 在一天内自主关闭了 13 个 issue，把 12 个 issue 分配给了正确的团队成员，管理着约 50 人的组织、6 个代码仓库。它处理产品决策和组织决策，并且知道什么时候该让人类来。」

Shopify：「它理解意图只需要很少的提示，还会主动探索和创造我自己都没想到的细节。感觉是在和模型一起工作，而不是在等它。」

Bolt.new：「它一次性生成了一个完整可用的物理引擎，在一次 pass 中处理了大型多范围任务。」

全面上线

Claude Opus 4.6 现在已经在 claude.ai、Claude 开发者平台和所有主要云平台上线。

开发者使用 API 调用时，模型名为 claude-opus-4-6。

在 Cowork 中，Opus 4.6 可以把以上所有能力整合起来，自主地为你执行多线程任务。

好了，又要从 Codex 切回 Claude Code 了？

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2026-06-22

为什么我选 WorkBuddy 而不是 Codex

2026-06-22

没想到，DeepSeek建模潜力被ORGEval挖出来了

2026-06-22

当 AI 开始承担任务：从工具、产品到组织的 AI-native 方法论

2026-06-21

从提示 Agent 到循环工程

2026-06-21

微信小微，几个要点

2026-06-21

AI 也会做梦？拆解 OpenClaw 独特的梦境记忆系统

2026-06-21

[译] 我所知的全部智能体工程技巧

2026-06-20

13人团队叫板Anthropic：我们造了一个更快更便宜的大模型

联系获取

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

Claude Opus 4.7刚刚曝光！Claude Code一夜重构，7x24小时替你打工

2026-04-15

OpenAI Codex CLI 完整使用指南

2026-04-07

Claude Code 和 Codex 接入 Figma MCP 保姆级教程

2026-04-07

刚刚Qwen 3.6 Plus上线预览：1M上下文，阿里Coding/Agent翻身战打响

2026-03-31

GPT5.5来了，最大特点解析

2026-04-24

Claude Opus 4.7 发布，全网最详细解读

2026-04-17

突发！Claude Code 源码泄露，扒出这些隐藏功能

2026-03-31

GPT-6，曝光了

2026-04-05

GLM-5.1 实测：面向 Agent 长程任务的国内第一模型

2026-04-02

重磅！GPT-6曝光了

2026-04-05

大家都在问

企业智能体的下半场，如何让智能体越用越聪明？

2026-06-18

Agent 记忆，我们全都理解错了？

2026-06-18

如何利用 Harness “一句话交付产品功能”？

2026-06-10

Loop Engineering 循环工程又是什么鬼？

2026-06-10

Agent 工程化五件套：Prompt、Skill、MCP、CLI 到底怎么配合？

2026-06-07

为什么云端 Agent 基建这么难？

2026-06-06

当 AI 开始拥有“自主调度权”：Claude 4.8 这个新功能，到底有多可怕？

2026-06-03

哪些活，该交给Claude Code的 /workflows?

2026-06-02

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS Skill 提示词技巧 AI+电商 AI面试数字员工 ChatBI AI知识库开源大模型智能营销智能硬件 FDE AI+医疗 MaxKB Palantir Glean Openclaw