2026年4月23日 周四晚上19:30,来了解“从个人单点提效,到构建企业AI生产力”(限30人)
免费POC, 零成本试错
AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


我要投稿

Anthropic新旗舰Opus 4.7:代码能力远超GPT-5.4,文档推理全场第一,今天可用

发布日期:2026-04-16 23:19:19 浏览次数: 1663
作者:深思SenseAI

微信搜一搜,关注“深思SenseAI”

推荐语

Anthropic悄然发布Claude Opus 4.7,代码与文档处理能力全面超越GPT-5.4,性能提升显著却保持原价。

核心内容:
1. Opus 4.7在代码能力、文档推理等关键指标上的突破性表现
2. 与Opus 4.6和GPT-5.4的详细性能对比数据
3. 真实生产环境测试结果验证其实际应用价值

杨芳贤
53AI创始人/腾讯云(TVP)最具价值专家
Article cover

Anthropic 今天(2026 年 4 月 16 日)上线了 Claude Opus 4.7。没有发布会,没有直播倒计时,就这么安静地发了。

价格没变——每百万输入 token 5 美元,输出 25 美元,和 Opus 4.6 完全一样。但性能有几处明显跳跃,值得仔细拆一遍。

这次的更新覆盖面很广:代码能力、视觉分辨率、文档推理、长文本理解、指令遵从,每个方向都有明显提升,而且每项都附带具体的 benchmark 数据和真实生产环境的测试结果作为支撑,不是光说不练。下面逐项拆开来看。

Claude Opus 4.7 官方发布配图
Anthropic 官方配图:一颗连接的神经网络头颅,旁边是草稿纸上的曲线——暗示 Opus 4.7 在思维与执行之间的跨越

01 先看数字

:::

几个核心数字先摆出来,其余的慢慢说:

基准测试 Opus 4.7 Opus 4.6 GPT-5.4
SWE-bench Pro(智能体编码) 64.3% 53.4% 57.7%
SWE-bench Verified 87.6% 80.8%
OfficeQA Pro(文档推理) 80.6% 57.1% 51.1%
视觉推理 CharXiv(无工具) 82.1% 69.1%
GDPVal-AA(知识工作 Elo) 1753 1619 1674

文档推理这一行是最让我惊讶的:从 57.1% 跳到 80.6%,绝对提升超过 23 个百分点,同时把 GPT-5.4 的 51.1% 和 Gemini 3.1 Pro 的 42.9% 远远甩开。Office 文档处理通常不是发布会的主角,但企业场景里,这恰恰是每天都在发生的核心工作。这次 4.7 把它变成了自己的强项。

02 编码跳涨

:::

SWE-bench Pro 是目前业界公认最苛刻的代码能力评测之一。它从真实的 GitHub 开源仓库里挑选高难度 issue,让模型在没有提示、只给代码库的情况下独立定位问题、写出修复、跑通测试。这不是背单词,是真正意义上的软件工程。

Opus 4.7 拿到 64.3%,比 4.6 的 53.4% 提升约 11 个百分点,也超过了 GPT-5.4 的 57.7%。SWE-bench Verified 上,4.7 是 87.6%,4.6 是 80.8%。这不是统计噪音,是系统性提升。

Opus 4.7 完整基准测试对比表
Anthropic 官方 benchmark 表:Opus 4.7 在智能体编码、文档推理、视觉导航等维度全面超越 4.6 与 GPT-5.4

学术 benchmark 之外,Anthropic 还引用了两个来自真实生产环境的数据。CursorBench——Cursor 公司设计的、专门测试 AI 在真实代码仓库里完成工程任务的基准——Opus 4.7 拿到 70%,4.6 只有 58%。另一个来自 Rakuten:在 Rakuten 的生产代码库中,4.7 解决的实际工程问题数量是 4.6 的 3 倍。

3 倍。这不是 30% 的常规进步,而是 200% 的净增幅。

这个差距意味着,原来你把 issue 扔给模型、大概率还要自己跟进处理的那类任务,现在有相当大的概率可以直接完成。当然,有个前提:要用高努力模式。Anthropic 特别说明,4.7 的性能跃升主要体现在"高难度任务",而非简单指令上——这也解释了为何官方同步推出了全新的 xhigh 超高强度推理模式。

这一代的进步逻辑很有趣:难度越高,提升越明显。对于简单任务,4.7 相比前代变化不大;但一旦涉及大型代码库的多步推理、跨文件依赖追踪和回归风险控制,4.7 的优势便会陡然扩大。

这不是一次平均分布的"全面微调",而是一次专门为复杂场景加码的升级。对于想把 AI 顶上核心工程岗位的团队来说,这个信号值得认真对待。

值得一提的是,Terminal-Bench 2.0(终端编码)上 4.7 是 69.4%,4.6 是 65.4%,GPT-5.4 打出的 75.1% 略高——但 GPT-5.4 标注了"self-reported harness",意味着用了自家专属测试框架,两者不是完全可比的条件。

另外还有一个不太显眼但值得记录的数字:Opus 4.7 在 MCP-Atlas(大规模工具调用)上拿到 77.3%,领先 GPT-5.4 的 68.1% 和 Gemini 3.1 Pro 的 73.9%。随着越来越多的 AI 应用开始依赖外部工具——搜索、数据库、代码执行、第三方 API——模型处理大量工具调用的稳定性越来越重要,这个维度的领先对构建复杂智能体系统的开发者来说是个好消息。

03 视野翻倍

:::

Opus 4.7 的图像输入上限提高到长边 2576 像素、约 375 万像素(3.75 megapixels),是此前 Claude 模型的 3 倍以上。

听上去是个参数调整,实际影响很具体。想想 Computer Use 的典型场景:让模型操控屏幕,读懂密集的数据仪表盘,在 IDE 里识别报错行,在 PDF 里找到特定条款,在多标签浏览器中定位目标按钮。这类任务有一个非常直接的瓶颈——模型能不能看清楚。

分辨率低的时候,AI 就像一个高度近视、又没戴眼镜的人盯着屏幕工作:能做,但错误率高,大字能看清,小字只能猜。375 万像素上限相当于给模型配了一副清晰度够用的眼镜。

ScreenSpot-Pro 视觉导航基准:Opus 4.7 高分辨率 vs 低分辨率 vs Opus 4.6
ScreenSpot-Pro 视觉导航准确率:Opus 4.7 高分辨率达到 87.6%(有工具),低分辨率 4.6 仅 83.1%;高清图像带来显著提升

ScreenSpot-Pro 基准专门测试模型在 GUI 界面上精准导航的能力。Opus 4.7 使用高分辨率图像时,无工具准确率是 79.5%,启用工具后 87.6%;低分辨率版本是 69.0% / 85.9%;而 Opus 4.6 只有低分辨率选项,57.7% / 83.1%。

仅仅因为能看清图像,模型的视觉导航准确率就提升了约 22 个百分点。这对于那些在真实 GUI 操作场景中使用 Claude 的人来说,是个相当直接的改善。

还有一个容易被忽视的应用场景是图表和技术文档分析。工程团队里大量有价值的信息存储在架构图、监控大盘截图、ERD 图、技术规范 PDF 里,过去这类内容扔给模型往往只能得到模糊的描述,细节全看不清。375 万像素的上限意味着,把一张密集的系统架构图截图发给模型,它现在有条件真正读懂里面的节点关系和标注文字,而不是靠猜测来描述轮廓。视觉推理基准 CharXiv 上,4.7 无工具达到 82.1%(4.6 是 69.1%),有工具时跳到 91.0%(4.6 是 84.7%)——这个提升背后,很大程度上就是分辨率带来的。

04 文档碾压

:::

OfficeQA Pro 测的是模型处理 Word、Excel、PPT 等 Office 文档并做推理的能力。4.7 在这个基准上拿到了 80.6%,4.6 是 57.1%,GPT-5.4 是 51.1%,Gemini 3.1 Pro 是 42.9%。

OfficeQA Pro 文档推理基准:Opus 4.7 大幅领先
OfficeQA Pro 文档推理:Opus 4.7(80.6%)全面领先 Opus 4.6(57.1%)、GPT-5.4(51.1%)和 Gemini 3.1 Pro(42.9%)

不是小幅领先,是全场第一且和第二名拉开 23 个百分点的差距。

企业里大量工作其实是文档工作:分析财报、审合同、整理会议纪要、拆解 RFP。这些任务过去都需要人一页一页地翻,或者依赖专门的文档处理工具。80.6% 的准确率意味着,把一份 20 页的合同丢进去让模型找关键条款,或者让它帮你读完那份 200 页的审计报告找出风险点,现在的可靠性已经达到可以放心用的程度了。

这一块能力的提升,我觉得可能被低估了。编码能力的提升大家都在讨论,但文档处理的市场规模其实更大,触达的人群也更广。

想象一下法务团队的日常:每天要读大量合同草案,标记风险条款,和对方律所来回修订。这件事目前即使有 AI 辅助,也大量依赖人工核对,因为模型在复杂文档推理上的错误率还不够低。OfficeQA Pro 80.6% 的准确率不是说模型可以完全取代律师,但它意味着初步审核、风险标记、条款比对这类工作可以大量外包给模型,人只需要对关键节点做判断。

同样的逻辑适用于财务团队、投行分析师、咨询顾问、政策研究员——任何每天要大量处理结构化文档的人。这次升级对他们的影响,可能不比对程序员的影响小。对于企业客户来说,这或许是这次发布里最值得认真评估的部分。

05 长文本

:::

上下文窗口的利用能力同样有提升,而且提升的形式很有意思。GraphWalks 是一个百万 token 级别的长文本推理基准。它的测试方式是把一张极大的关系图编码成超长文本,让模型沿着图里的路径做遍历推理——Parents 场景考查模型能不能追踪层级关系,BFS 场景考查模型能不能在密集连接的图里做广度优先搜索。

这不是"在文章末尾找答案"那种简单的长文本检索。它要求模型在海量文本里真正维持上下文、追踪推理链条——更接近人类读一本厚书时需要保持的那种"内容地图"。

GraphWalks 长文本推理基准:Opus 4.7 vs 4.6
GraphWalks 长文本推理:BFS 1M 场景下,Opus 4.7(58.6%)比 4.6(41.2%)提升 17 个百分点

4.7 在 Parents 1M 场景拿到 75.1%,4.6 是 71.1%,小幅领先。但在更复杂的 BFS 1M 场景:4.7 是 58.6%,4.6 只有 41.2%。17 个百分点的差距,在这个难度级别是相当明显的质变。

知识工作基准 GDPVal-AA 的 Elo 排名和这个结论相互印证:Opus 4.7 拿到 1753,超过 GPT-5.4 的 1674,而 4.6 是 1619,Gemini 3.1 Pro 是 1314。

GDPVal-AA 知识工作 Elo 排名
GDPVal-AA 知识工作 Elo 评分:Opus 4.7(1753)超越 GPT-5.4(1674),大幅领先 Gemini 3.1 Pro(1314)

GDPVal-AA 的设计初衷是评估 AI 在"有实际经济价值的工作"中的表现,而不只是考试答题。它模拟的是真实知识工作者面对的任务:研究分析、数据解读、撰写报告、决策支持。这个维度上,Anthropic 的旗舰目前排在同档位模型里的第一位。

长文本能力的实际意义可以这么理解:想象你需要让模型理解一个有几十万行代码的大型项目,或者读完一份几百页的尽调报告后提炼核心风险,或者追踪一段复杂的法律条款链条。这类任务不能靠截取片段来做,必须维持一个完整的"内容地图",随时在全局视角和局部细节之间切换。BFS 1M 场景下 17 个百分点的提升,说明 4.7 在这类需要持续追踪、反复交叉引用的任务上,已经比前代有了明显进步。

06 新功能

:::

除了能力本身,这次还带来了几个值得关注的新特性。

xhigh 努力级别。 Claude 的推理努力控制过去分为 low、normal、high、max 四档。现在 xhigh 介于 high 和 max 之间,为开发者提供了一个平衡点:推理强度高于 high,但 token 消耗比 max 更克制。直白说就是:max 模式有时候用力过猛,对于中等难度任务来说会产生很多不必要的推理链;xhigh 是一个更精准的中间档。

任务预算(Task budgets),公开测试中。 这个功能让你在调用 API 时给模型设定一个 token 消耗目标,引导它控制推理深度和输出长度。有点像给助手说"我只有 10 分钟,重点讲",模型会相应地调整自己的思考策略,而不是不管三七二十一地深度展开。对于成本敏感的产品场景,这是个很实用的控制手柄。

Claude Code 的两个更新。 新增了 /ultrareview 指令,可以对代码进行深度审查,适合在提交前做最后一道严格的自动化 review;另外 Max 订阅用户获得了 Auto Mode,允许 Claude Code 在无需手动逐步确认的情况下自动执行操作序列。

Auto Mode 是我觉得最值得注意的方向性信号。让模型一路跑完、不需要人坐在旁边一个个点"确认"——这比任何单项能力提升都更接近真正的自动化。现在是 Claude Code 的 Max 用户专属功能,但这类"端到端自主执行"的能力,迟早会向下渗透。

有一个值得单独说的改进是指令遵从能力。Anthropic 在公告里特别提到,4.7 的指令遵从有"实质性提升",以至于为 4.6 写的 prompt 在 4.7 上可能会产生不同的结果。这听起来像是警告,实则是好事:4.7 对特定格式、角色设定及输出约束的执行会更彻底——不再是"大概意思对了就行",而是真正按照你写的去做。当然,这也意味着如果你有些模糊的 prompt 之前靠模型"自己补全"才能工作,换 4.7 后可能需要重新写清楚。上线前最好跑一遍回归测试。

07 价格没变

:::

每百万输入 token 5 美元,输出 25 美元,和 Opus 4.6 完全相同。API 标识符是 claude-opus-4-7,今天起在以下平台均可使用:Claude 产品(claude.ai),Anthropic API,Amazon Bedrock,Google Cloud Vertex AI,Microsoft Azure AI Foundry。

这是 Anthropic 一贯的节奏:前一代价格降到可接受水平之后,新旗舰以相同价格发布,然后随着时间推移再降价。对于已经把 Opus 4.6 集成进产品的团队来说,切换到 4.7 不需要重新评估预算——直接换模型标识符,跑一遍测试,看看效果有没有提升就行。

有一点需要特别注意:Anthropic 提到,4.7 指令遵从能力的提升意味着"为 4.6 写的 prompt 可能在 4.7 上产生不同结果"。这意味着如果你的产品依赖 Opus 4.6 的特定输出格式或行为,切换前最好用自己的测试用例跑一遍回归,而不是直接上线。理论上"更听话"是好事,但行为变化本身需要提前核实。

08 表格里的悬念

:::

Anthropic 发布的 benchmark 对比表里,除了 Opus 4.7、4.6、GPT-5.4 和 Gemini 3.1 Pro,还有一列:Mythos Preview

SWE-bench Pro:77.8%(Opus 4.7 是 64.3%)
SWE-bench Verified:93.9%(Opus 4.7 是 87.6%)
Terminal-Bench 2.0:82.0%(Opus 4.7 是 69.4%)
Humanity's Last Exam(有工具):64.7%(Opus 4.7 是 54.7%)

Mythos Preview 在所有任务上都大幅领先 Opus 4.7。Anthropic 没有解释这是什么模型,公告里也找不到任何额外说明。

业界惯例里,把一个未发布模型放进自家的对比表,通常意味着:这是下一代旗舰,他们在预热。"Mythos"这个命名风格和 Anthropic 目前的 Claude 系列不同——有可能是全新的模型系列,也有可能只是内部代号。

无论如何,Mythos Preview 的出现说明了一件事:Opus 4.7 是 Anthropic 今天能给的最好答案,但不是他们手里的最后一张牌。

顺便说一句:这个 benchmark 表格同时还出现了 GPT-5.4 和 Gemini 3.1 Pro。就在几个月前,模型厂商的对比表里还在用 GPT-4 和 Gemini Pro 1.5 做参照。现在竞争的基准线已经完全不同了。GPT-5.4 和 Gemini 3.1 Pro 本身已经是这一代最强的竞品,Opus 4.7 在大多数任务上仍然领先——这才是真正值得记录的背景。

09 对我们意味着什么

:::

一,编码任务可以交更多出去了。 SWE-bench Pro 64.3% 不只是学术数字——Cursor 和 Rakuten 的实际生产数据直接印证了这一点。如果你在用 Claude Code 或类似工具写代码,建议重新测一遍你最常委托给模型的任务类型:切到 claude-opus-4-7,同样的 prompt,看看成功率有没有变化。

二,文档处理的自动化窗口打开了。 OfficeQA Pro 80.6% vs 竞品 42–57% 的差距,意味着企业文档处理这个方向,Opus 4.7 已经有了明显的能力领先。把你的文档分析工作流梳理一遍,看看哪些环节可以用模型替代人工翻阅。

三,高分辨率截图场景终于可以用了。 如果你之前因为模型"看不清"而放弃了 Computer Use 场景,375 万像素的上限是个重新试的理由。

四,Auto Mode 是方向信号,不只是功能更新。 端到端自主执行、不需要人工逐步确认——这个能力一旦可靠,会从根本上改变工作流的设计逻辑。现在是 Max 用户专属,但这个方向不会止步于此。

五,Mythos Preview 意味着 Anthropic 还有底牌。 今天的 Opus 4.7 是现在对外最强的旗舰,但 benchmark 表里那列比它强出一大截的未发布模型告诉我们:这不是终点。

我自己已经把默认模型切到 4.7 了。价格不变,能力更强——这个账算起来很简单。

这次升级让我觉得真正有意思的地方不是某一个具体的 benchmark 数字,而是能力提升的分布方式:视觉、长文本、文档推理、工具调用……这些全都是构建真实智能体应用时会遇到的核心能力瓶颈。Anthropic 这次的更新不像是把一个方向推到极致,更像是在全面夯实底座——而底座越扎实,上层应用能做的事就越多。

◇ ◆ ◇

数据来源:Anthropic · https://www.anthropic.com/news/claude-opus-4-7

53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询