我要投稿

Anthropic新旗舰Opus 4.7：代码能力远超GPT-5.4，文档推理全场第一，今天可用

发布日期：2026-04-16 23:19:19 浏览次数： 2830

作者：深思SenseAI

微信搜一搜，关注“深思SenseAI”

Anthropic 今天（2026 年 4 月 16 日）上线了 Claude Opus 4.7。没有发布会，没有直播倒计时，就这么安静地发了。

价格没变——每百万输入 token 5 美元，输出 25 美元，和 Opus 4.6 完全一样。但性能有几处明显跳跃，值得仔细拆一遍。

这次的更新覆盖面很广：代码能力、视觉分辨率、文档推理、长文本理解、指令遵从，每个方向都有明显提升，而且每项都附带具体的 benchmark 数据和真实生产环境的测试结果作为支撑，不是光说不练。下面逐项拆开来看。

01 先看数字

:::

几个核心数字先摆出来，其余的慢慢说：

基准测试	Opus 4.7	Opus 4.6	GPT-5.4
SWE-bench Pro（智能体编码）	64.3%	53.4%	57.7%
SWE-bench Verified	87.6%	80.8%	—
OfficeQA Pro（文档推理）	80.6%	57.1%	51.1%
视觉推理 CharXiv（无工具）	82.1%	69.1%	—
GDPVal-AA（知识工作 Elo）	1753	1619	1674

文档推理这一行是最让我惊讶的：从 57.1% 跳到 80.6%，绝对提升超过 23 个百分点，同时把 GPT-5.4 的 51.1% 和 Gemini 3.1 Pro 的 42.9% 远远甩开。Office 文档处理通常不是发布会的主角，但企业场景里，这恰恰是每天都在发生的核心工作。这次 4.7 把它变成了自己的强项。

02 编码跳涨

:::

SWE-bench Pro 是目前业界公认最苛刻的代码能力评测之一。它从真实的 GitHub 开源仓库里挑选高难度 issue，让模型在没有提示、只给代码库的情况下独立定位问题、写出修复、跑通测试。这不是背单词，是真正意义上的软件工程。

Opus 4.7 拿到 64.3%，比 4.6 的 53.4% 提升约 11 个百分点，也超过了 GPT-5.4 的 57.7%。SWE-bench Verified 上，4.7 是 87.6%，4.6 是 80.8%。这不是统计噪音，是系统性提升。

学术 benchmark 之外，Anthropic 还引用了两个来自真实生产环境的数据。CursorBench——Cursor 公司设计的、专门测试 AI 在真实代码仓库里完成工程任务的基准——Opus 4.7 拿到 70%，4.6 只有 58%。另一个来自 Rakuten：在 Rakuten 的生产代码库中，4.7 解决的实际工程问题数量是 4.6 的 3 倍。

3 倍。这不是 30% 的常规进步，而是 200% 的净增幅。

这个差距意味着，原来你把 issue 扔给模型、大概率还要自己跟进处理的那类任务，现在有相当大的概率可以直接完成。当然，有个前提：要用高努力模式。Anthropic 特别说明，4.7 的性能跃升主要体现在"高难度任务"，而非简单指令上——这也解释了为何官方同步推出了全新的 xhigh 超高强度推理模式。

这一代的进步逻辑很有趣：难度越高，提升越明显。对于简单任务，4.7 相比前代变化不大；但一旦涉及大型代码库的多步推理、跨文件依赖追踪和回归风险控制，4.7 的优势便会陡然扩大。

这不是一次平均分布的"全面微调"，而是一次专门为复杂场景加码的升级。对于想把 AI 顶上核心工程岗位的团队来说，这个信号值得认真对待。

值得一提的是，Terminal-Bench 2.0（终端编码）上 4.7 是 69.4%，4.6 是 65.4%，GPT-5.4 打出的 75.1% 略高——但 GPT-5.4 标注了"self-reported harness"，意味着用了自家专属测试框架，两者不是完全可比的条件。

另外还有一个不太显眼但值得记录的数字：Opus 4.7 在 MCP-Atlas（大规模工具调用）上拿到 77.3%，领先 GPT-5.4 的 68.1% 和 Gemini 3.1 Pro 的 73.9%。随着越来越多的 AI 应用开始依赖外部工具——搜索、数据库、代码执行、第三方 API——模型处理大量工具调用的稳定性越来越重要，这个维度的领先对构建复杂智能体系统的开发者来说是个好消息。

03 视野翻倍

:::

Opus 4.7 的图像输入上限提高到长边 2576 像素、约 375 万像素（3.75 megapixels），是此前 Claude 模型的 3 倍以上。

听上去是个参数调整，实际影响很具体。想想 Computer Use 的典型场景：让模型操控屏幕，读懂密集的数据仪表盘，在 IDE 里识别报错行，在 PDF 里找到特定条款，在多标签浏览器中定位目标按钮。这类任务有一个非常直接的瓶颈——模型能不能看清楚。

分辨率低的时候，AI 就像一个高度近视、又没戴眼镜的人盯着屏幕工作：能做，但错误率高，大字能看清，小字只能猜。375 万像素上限相当于给模型配了一副清晰度够用的眼镜。

ScreenSpot-Pro 视觉导航基准：Opus 4.7 高分辨率 vs 低分辨率 vs Opus 4.6

ScreenSpot-Pro 基准专门测试模型在 GUI 界面上精准导航的能力。Opus 4.7 使用高分辨率图像时，无工具准确率是 79.5%，启用工具后 87.6%；低分辨率版本是 69.0% / 85.9%；而 Opus 4.6 只有低分辨率选项，57.7% / 83.1%。

仅仅因为能看清图像，模型的视觉导航准确率就提升了约 22 个百分点。这对于那些在真实 GUI 操作场景中使用 Claude 的人来说，是个相当直接的改善。

还有一个容易被忽视的应用场景是图表和技术文档分析。工程团队里大量有价值的信息存储在架构图、监控大盘截图、ERD 图、技术规范 PDF 里，过去这类内容扔给模型往往只能得到模糊的描述，细节全看不清。375 万像素的上限意味着，把一张密集的系统架构图截图发给模型，它现在有条件真正读懂里面的节点关系和标注文字，而不是靠猜测来描述轮廓。视觉推理基准 CharXiv 上，4.7 无工具达到 82.1%（4.6 是 69.1%），有工具时跳到 91.0%（4.6 是 84.7%）——这个提升背后，很大程度上就是分辨率带来的。

04 文档碾压

:::

OfficeQA Pro 测的是模型处理 Word、Excel、PPT 等 Office 文档并做推理的能力。4.7 在这个基准上拿到了 80.6%，4.6 是 57.1%，GPT-5.4 是 51.1%，Gemini 3.1 Pro 是 42.9%。

不是小幅领先，是全场第一且和第二名拉开 23 个百分点的差距。

企业里大量工作其实是文档工作：分析财报、审合同、整理会议纪要、拆解 RFP。这些任务过去都需要人一页一页地翻，或者依赖专门的文档处理工具。80.6% 的准确率意味着，把一份 20 页的合同丢进去让模型找关键条款，或者让它帮你读完那份 200 页的审计报告找出风险点，现在的可靠性已经达到可以放心用的程度了。

这一块能力的提升，我觉得可能被低估了。编码能力的提升大家都在讨论，但文档处理的市场规模其实更大，触达的人群也更广。

想象一下法务团队的日常：每天要读大量合同草案，标记风险条款，和对方律所来回修订。这件事目前即使有 AI 辅助，也大量依赖人工核对，因为模型在复杂文档推理上的错误率还不够低。OfficeQA Pro 80.6% 的准确率不是说模型可以完全取代律师，但它意味着初步审核、风险标记、条款比对这类工作可以大量外包给模型，人只需要对关键节点做判断。

同样的逻辑适用于财务团队、投行分析师、咨询顾问、政策研究员——任何每天要大量处理结构化文档的人。这次升级对他们的影响，可能不比对程序员的影响小。对于企业客户来说，这或许是这次发布里最值得认真评估的部分。

05 长文本

:::

上下文窗口的利用能力同样有提升，而且提升的形式很有意思。GraphWalks 是一个百万 token 级别的长文本推理基准。它的测试方式是把一张极大的关系图编码成超长文本，让模型沿着图里的路径做遍历推理——Parents 场景考查模型能不能追踪层级关系，BFS 场景考查模型能不能在密集连接的图里做广度优先搜索。

这不是"在文章末尾找答案"那种简单的长文本检索。它要求模型在海量文本里真正维持上下文、追踪推理链条——更接近人类读一本厚书时需要保持的那种"内容地图"。

4.7 在 Parents 1M 场景拿到 75.1%，4.6 是 71.1%，小幅领先。但在更复杂的 BFS 1M 场景：4.7 是 58.6%，4.6 只有 41.2%。17 个百分点的差距，在这个难度级别是相当明显的质变。

知识工作基准 GDPVal-AA 的 Elo 排名和这个结论相互印证：Opus 4.7 拿到 1753，超过 GPT-5.4 的 1674，而 4.6 是 1619，Gemini 3.1 Pro 是 1314。

GDPVal-AA 的设计初衷是评估 AI 在"有实际经济价值的工作"中的表现，而不只是考试答题。它模拟的是真实知识工作者面对的任务：研究分析、数据解读、撰写报告、决策支持。这个维度上，Anthropic 的旗舰目前排在同档位模型里的第一位。

长文本能力的实际意义可以这么理解：想象你需要让模型理解一个有几十万行代码的大型项目，或者读完一份几百页的尽调报告后提炼核心风险，或者追踪一段复杂的法律条款链条。这类任务不能靠截取片段来做，必须维持一个完整的"内容地图"，随时在全局视角和局部细节之间切换。BFS 1M 场景下 17 个百分点的提升，说明 4.7 在这类需要持续追踪、反复交叉引用的任务上，已经比前代有了明显进步。

06 新功能

:::

除了能力本身，这次还带来了几个值得关注的新特性。

xhigh 努力级别。 Claude 的推理努力控制过去分为 low、normal、high、max 四档。现在 xhigh 介于 high 和 max 之间，为开发者提供了一个平衡点：推理强度高于 high，但 token 消耗比 max 更克制。直白说就是：max 模式有时候用力过猛，对于中等难度任务来说会产生很多不必要的推理链；xhigh 是一个更精准的中间档。

任务预算（Task budgets），公开测试中。 这个功能让你在调用 API 时给模型设定一个 token 消耗目标，引导它控制推理深度和输出长度。有点像给助手说"我只有 10 分钟，重点讲"，模型会相应地调整自己的思考策略，而不是不管三七二十一地深度展开。对于成本敏感的产品场景，这是个很实用的控制手柄。

Claude Code 的两个更新。 新增了 /ultrareview 指令，可以对代码进行深度审查，适合在提交前做最后一道严格的自动化 review；另外 Max 订阅用户获得了 Auto Mode，允许 Claude Code 在无需手动逐步确认的情况下自动执行操作序列。

Auto Mode 是我觉得最值得注意的方向性信号。让模型一路跑完、不需要人坐在旁边一个个点"确认"——这比任何单项能力提升都更接近真正的自动化。现在是 Claude Code 的 Max 用户专属功能，但这类"端到端自主执行"的能力，迟早会向下渗透。

有一个值得单独说的改进是指令遵从能力。Anthropic 在公告里特别提到，4.7 的指令遵从有"实质性提升"，以至于为 4.6 写的 prompt 在 4.7 上可能会产生不同的结果。这听起来像是警告，实则是好事：4.7 对特定格式、角色设定及输出约束的执行会更彻底——不再是"大概意思对了就行"，而是真正按照你写的去做。当然，这也意味着如果你有些模糊的 prompt 之前靠模型"自己补全"才能工作，换 4.7 后可能需要重新写清楚。上线前最好跑一遍回归测试。

07 价格没变

:::

每百万输入 token 5 美元，输出 25 美元，和 Opus 4.6 完全相同。API 标识符是 claude-opus-4-7，今天起在以下平台均可使用：Claude 产品（claude.ai），Anthropic API，Amazon Bedrock，Google Cloud Vertex AI，Microsoft Azure AI Foundry。

这是 Anthropic 一贯的节奏：前一代价格降到可接受水平之后，新旗舰以相同价格发布，然后随着时间推移再降价。对于已经把 Opus 4.6 集成进产品的团队来说，切换到 4.7 不需要重新评估预算——直接换模型标识符，跑一遍测试，看看效果有没有提升就行。

有一点需要特别注意：Anthropic 提到，4.7 指令遵从能力的提升意味着"为 4.6 写的 prompt 可能在 4.7 上产生不同结果"。这意味着如果你的产品依赖 Opus 4.6 的特定输出格式或行为，切换前最好用自己的测试用例跑一遍回归，而不是直接上线。理论上"更听话"是好事，但行为变化本身需要提前核实。

08 表格里的悬念

:::

Anthropic 发布的 benchmark 对比表里，除了 Opus 4.7、4.6、GPT-5.4 和 Gemini 3.1 Pro，还有一列：Mythos Preview。

SWE-bench Pro：77.8%（Opus 4.7 是 64.3%）
SWE-bench Verified：93.9%（Opus 4.7 是 87.6%）
Terminal-Bench 2.0：82.0%（Opus 4.7 是 69.4%）
Humanity's Last Exam（有工具）：64.7%（Opus 4.7 是 54.7%）

Mythos Preview 在所有任务上都大幅领先 Opus 4.7。Anthropic 没有解释这是什么模型，公告里也找不到任何额外说明。

业界惯例里，把一个未发布模型放进自家的对比表，通常意味着：这是下一代旗舰，他们在预热。"Mythos"这个命名风格和 Anthropic 目前的 Claude 系列不同——有可能是全新的模型系列，也有可能只是内部代号。

无论如何，Mythos Preview 的出现说明了一件事：Opus 4.7 是 Anthropic 今天能给的最好答案，但不是他们手里的最后一张牌。

顺便说一句：这个 benchmark 表格同时还出现了 GPT-5.4 和 Gemini 3.1 Pro。就在几个月前，模型厂商的对比表里还在用 GPT-4 和 Gemini Pro 1.5 做参照。现在竞争的基准线已经完全不同了。GPT-5.4 和 Gemini 3.1 Pro 本身已经是这一代最强的竞品，Opus 4.7 在大多数任务上仍然领先——这才是真正值得记录的背景。

09 对我们意味着什么

:::

一，编码任务可以交更多出去了。 SWE-bench Pro 64.3% 不只是学术数字——Cursor 和 Rakuten 的实际生产数据直接印证了这一点。如果你在用 Claude Code 或类似工具写代码，建议重新测一遍你最常委托给模型的任务类型：切到 claude-opus-4-7，同样的 prompt，看看成功率有没有变化。

二，文档处理的自动化窗口打开了。 OfficeQA Pro 80.6% vs 竞品 42–57% 的差距，意味着企业文档处理这个方向，Opus 4.7 已经有了明显的能力领先。把你的文档分析工作流梳理一遍，看看哪些环节可以用模型替代人工翻阅。

三，高分辨率截图场景终于可以用了。 如果你之前因为模型"看不清"而放弃了 Computer Use 场景，375 万像素的上限是个重新试的理由。

四，Auto Mode 是方向信号，不只是功能更新。 端到端自主执行、不需要人工逐步确认——这个能力一旦可靠，会从根本上改变工作流的设计逻辑。现在是 Max 用户专属，但这个方向不会止步于此。

五，Mythos Preview 意味着 Anthropic 还有底牌。 今天的 Opus 4.7 是现在对外最强的旗舰，但 benchmark 表里那列比它强出一大截的未发布模型告诉我们：这不是终点。

我自己已经把默认模型切到 4.7 了。价格不变，能力更强——这个账算起来很简单。

这次升级让我觉得真正有意思的地方不是某一个具体的 benchmark 数字，而是能力提升的分布方式：视觉、长文本、文档推理、工具调用……这些全都是构建真实智能体应用时会遇到的核心能力瓶颈。Anthropic 这次的更新不像是把一个方向推到极致，更像是在全面夯实底座——而底座越扎实，上层应用能做的事就越多。

◇ ◆ ◇

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业