微信扫码
添加专属顾问
我要投稿
Anthropic悄然发布Claude Opus 4.7,代码与文档处理能力全面超越GPT-5.4,性能提升显著却保持原价。核心内容: 1. Opus 4.7在代码能力、文档推理等关键指标上的突破性表现 2. 与Opus 4.6和GPT-5.4的详细性能对比数据 3. 真实生产环境测试结果验证其实际应用价值
Anthropic 今天(2026 年 4 月 16 日)上线了 Claude Opus 4.7。没有发布会,没有直播倒计时,就这么安静地发了。
价格没变——每百万输入 token 5 美元,输出 25 美元,和 Opus 4.6 完全一样。但性能有几处明显跳跃,值得仔细拆一遍。
这次的更新覆盖面很广:代码能力、视觉分辨率、文档推理、长文本理解、指令遵从,每个方向都有明显提升,而且每项都附带具体的 benchmark 数据和真实生产环境的测试结果作为支撑,不是光说不练。下面逐项拆开来看。
几个核心数字先摆出来,其余的慢慢说:
| 基准测试 | Opus 4.7 | Opus 4.6 | GPT-5.4 |
|---|---|---|---|
| SWE-bench Pro(智能体编码) | 64.3% | 53.4% | 57.7% |
| SWE-bench Verified | 87.6% | 80.8% | — |
| OfficeQA Pro(文档推理) | 80.6% | 57.1% | 51.1% |
| 视觉推理 CharXiv(无工具) | 82.1% | 69.1% | — |
| GDPVal-AA(知识工作 Elo) | 1753 | 1619 | 1674 |
文档推理这一行是最让我惊讶的:从 57.1% 跳到 80.6%,绝对提升超过 23 个百分点,同时把 GPT-5.4 的 51.1% 和 Gemini 3.1 Pro 的 42.9% 远远甩开。Office 文档处理通常不是发布会的主角,但企业场景里,这恰恰是每天都在发生的核心工作。这次 4.7 把它变成了自己的强项。
SWE-bench Pro 是目前业界公认最苛刻的代码能力评测之一。它从真实的 GitHub 开源仓库里挑选高难度 issue,让模型在没有提示、只给代码库的情况下独立定位问题、写出修复、跑通测试。这不是背单词,是真正意义上的软件工程。
Opus 4.7 拿到 64.3%,比 4.6 的 53.4% 提升约 11 个百分点,也超过了 GPT-5.4 的 57.7%。SWE-bench Verified 上,4.7 是 87.6%,4.6 是 80.8%。这不是统计噪音,是系统性提升。
学术 benchmark 之外,Anthropic 还引用了两个来自真实生产环境的数据。CursorBench——Cursor 公司设计的、专门测试 AI 在真实代码仓库里完成工程任务的基准——Opus 4.7 拿到 70%,4.6 只有 58%。另一个来自 Rakuten:在 Rakuten 的生产代码库中,4.7 解决的实际工程问题数量是 4.6 的 3 倍。
3 倍。这不是 30% 的常规进步,而是 200% 的净增幅。
这个差距意味着,原来你把 issue 扔给模型、大概率还要自己跟进处理的那类任务,现在有相当大的概率可以直接完成。当然,有个前提:要用高努力模式。Anthropic 特别说明,4.7 的性能跃升主要体现在"高难度任务",而非简单指令上——这也解释了为何官方同步推出了全新的 xhigh 超高强度推理模式。
这一代的进步逻辑很有趣:难度越高,提升越明显。对于简单任务,4.7 相比前代变化不大;但一旦涉及大型代码库的多步推理、跨文件依赖追踪和回归风险控制,4.7 的优势便会陡然扩大。
这不是一次平均分布的"全面微调",而是一次专门为复杂场景加码的升级。对于想把 AI 顶上核心工程岗位的团队来说,这个信号值得认真对待。
值得一提的是,Terminal-Bench 2.0(终端编码)上 4.7 是 69.4%,4.6 是 65.4%,GPT-5.4 打出的 75.1% 略高——但 GPT-5.4 标注了"self-reported harness",意味着用了自家专属测试框架,两者不是完全可比的条件。
另外还有一个不太显眼但值得记录的数字:Opus 4.7 在 MCP-Atlas(大规模工具调用)上拿到 77.3%,领先 GPT-5.4 的 68.1% 和 Gemini 3.1 Pro 的 73.9%。随着越来越多的 AI 应用开始依赖外部工具——搜索、数据库、代码执行、第三方 API——模型处理大量工具调用的稳定性越来越重要,这个维度的领先对构建复杂智能体系统的开发者来说是个好消息。
Opus 4.7 的图像输入上限提高到长边 2576 像素、约 375 万像素(3.75 megapixels),是此前 Claude 模型的 3 倍以上。
听上去是个参数调整,实际影响很具体。想想 Computer Use 的典型场景:让模型操控屏幕,读懂密集的数据仪表盘,在 IDE 里识别报错行,在 PDF 里找到特定条款,在多标签浏览器中定位目标按钮。这类任务有一个非常直接的瓶颈——模型能不能看清楚。
分辨率低的时候,AI 就像一个高度近视、又没戴眼镜的人盯着屏幕工作:能做,但错误率高,大字能看清,小字只能猜。375 万像素上限相当于给模型配了一副清晰度够用的眼镜。
ScreenSpot-Pro 基准专门测试模型在 GUI 界面上精准导航的能力。Opus 4.7 使用高分辨率图像时,无工具准确率是 79.5%,启用工具后 87.6%;低分辨率版本是 69.0% / 85.9%;而 Opus 4.6 只有低分辨率选项,57.7% / 83.1%。
仅仅因为能看清图像,模型的视觉导航准确率就提升了约 22 个百分点。这对于那些在真实 GUI 操作场景中使用 Claude 的人来说,是个相当直接的改善。
还有一个容易被忽视的应用场景是图表和技术文档分析。工程团队里大量有价值的信息存储在架构图、监控大盘截图、ERD 图、技术规范 PDF 里,过去这类内容扔给模型往往只能得到模糊的描述,细节全看不清。375 万像素的上限意味着,把一张密集的系统架构图截图发给模型,它现在有条件真正读懂里面的节点关系和标注文字,而不是靠猜测来描述轮廓。视觉推理基准 CharXiv 上,4.7 无工具达到 82.1%(4.6 是 69.1%),有工具时跳到 91.0%(4.6 是 84.7%)——这个提升背后,很大程度上就是分辨率带来的。
OfficeQA Pro 测的是模型处理 Word、Excel、PPT 等 Office 文档并做推理的能力。4.7 在这个基准上拿到了 80.6%,4.6 是 57.1%,GPT-5.4 是 51.1%,Gemini 3.1 Pro 是 42.9%。
不是小幅领先,是全场第一且和第二名拉开 23 个百分点的差距。
企业里大量工作其实是文档工作:分析财报、审合同、整理会议纪要、拆解 RFP。这些任务过去都需要人一页一页地翻,或者依赖专门的文档处理工具。80.6% 的准确率意味着,把一份 20 页的合同丢进去让模型找关键条款,或者让它帮你读完那份 200 页的审计报告找出风险点,现在的可靠性已经达到可以放心用的程度了。
这一块能力的提升,我觉得可能被低估了。编码能力的提升大家都在讨论,但文档处理的市场规模其实更大,触达的人群也更广。
想象一下法务团队的日常:每天要读大量合同草案,标记风险条款,和对方律所来回修订。这件事目前即使有 AI 辅助,也大量依赖人工核对,因为模型在复杂文档推理上的错误率还不够低。OfficeQA Pro 80.6% 的准确率不是说模型可以完全取代律师,但它意味着初步审核、风险标记、条款比对这类工作可以大量外包给模型,人只需要对关键节点做判断。
同样的逻辑适用于财务团队、投行分析师、咨询顾问、政策研究员——任何每天要大量处理结构化文档的人。这次升级对他们的影响,可能不比对程序员的影响小。对于企业客户来说,这或许是这次发布里最值得认真评估的部分。
上下文窗口的利用能力同样有提升,而且提升的形式很有意思。GraphWalks 是一个百万 token 级别的长文本推理基准。它的测试方式是把一张极大的关系图编码成超长文本,让模型沿着图里的路径做遍历推理——Parents 场景考查模型能不能追踪层级关系,BFS 场景考查模型能不能在密集连接的图里做广度优先搜索。
这不是"在文章末尾找答案"那种简单的长文本检索。它要求模型在海量文本里真正维持上下文、追踪推理链条——更接近人类读一本厚书时需要保持的那种"内容地图"。
4.7 在 Parents 1M 场景拿到 75.1%,4.6 是 71.1%,小幅领先。但在更复杂的 BFS 1M 场景:4.7 是 58.6%,4.6 只有 41.2%。17 个百分点的差距,在这个难度级别是相当明显的质变。
知识工作基准 GDPVal-AA 的 Elo 排名和这个结论相互印证:Opus 4.7 拿到 1753,超过 GPT-5.4 的 1674,而 4.6 是 1619,Gemini 3.1 Pro 是 1314。
GDPVal-AA 的设计初衷是评估 AI 在"有实际经济价值的工作"中的表现,而不只是考试答题。它模拟的是真实知识工作者面对的任务:研究分析、数据解读、撰写报告、决策支持。这个维度上,Anthropic 的旗舰目前排在同档位模型里的第一位。
长文本能力的实际意义可以这么理解:想象你需要让模型理解一个有几十万行代码的大型项目,或者读完一份几百页的尽调报告后提炼核心风险,或者追踪一段复杂的法律条款链条。这类任务不能靠截取片段来做,必须维持一个完整的"内容地图",随时在全局视角和局部细节之间切换。BFS 1M 场景下 17 个百分点的提升,说明 4.7 在这类需要持续追踪、反复交叉引用的任务上,已经比前代有了明显进步。
除了能力本身,这次还带来了几个值得关注的新特性。
xhigh 努力级别。 Claude 的推理努力控制过去分为 low、normal、high、max 四档。现在 xhigh 介于 high 和 max 之间,为开发者提供了一个平衡点:推理强度高于 high,但 token 消耗比 max 更克制。直白说就是:max 模式有时候用力过猛,对于中等难度任务来说会产生很多不必要的推理链;xhigh 是一个更精准的中间档。
任务预算(Task budgets),公开测试中。 这个功能让你在调用 API 时给模型设定一个 token 消耗目标,引导它控制推理深度和输出长度。有点像给助手说"我只有 10 分钟,重点讲",模型会相应地调整自己的思考策略,而不是不管三七二十一地深度展开。对于成本敏感的产品场景,这是个很实用的控制手柄。
Claude Code 的两个更新。 新增了 /ultrareview 指令,可以对代码进行深度审查,适合在提交前做最后一道严格的自动化 review;另外 Max 订阅用户获得了 Auto Mode,允许 Claude Code 在无需手动逐步确认的情况下自动执行操作序列。
Auto Mode 是我觉得最值得注意的方向性信号。让模型一路跑完、不需要人坐在旁边一个个点"确认"——这比任何单项能力提升都更接近真正的自动化。现在是 Claude Code 的 Max 用户专属功能,但这类"端到端自主执行"的能力,迟早会向下渗透。
有一个值得单独说的改进是指令遵从能力。Anthropic 在公告里特别提到,4.7 的指令遵从有"实质性提升",以至于为 4.6 写的 prompt 在 4.7 上可能会产生不同的结果。这听起来像是警告,实则是好事:4.7 对特定格式、角色设定及输出约束的执行会更彻底——不再是"大概意思对了就行",而是真正按照你写的去做。当然,这也意味着如果你有些模糊的 prompt 之前靠模型"自己补全"才能工作,换 4.7 后可能需要重新写清楚。上线前最好跑一遍回归测试。
每百万输入 token 5 美元,输出 25 美元,和 Opus 4.6 完全相同。API 标识符是 claude-opus-4-7,今天起在以下平台均可使用:Claude 产品(claude.ai),Anthropic API,Amazon Bedrock,Google Cloud Vertex AI,Microsoft Azure AI Foundry。
这是 Anthropic 一贯的节奏:前一代价格降到可接受水平之后,新旗舰以相同价格发布,然后随着时间推移再降价。对于已经把 Opus 4.6 集成进产品的团队来说,切换到 4.7 不需要重新评估预算——直接换模型标识符,跑一遍测试,看看效果有没有提升就行。
有一点需要特别注意:Anthropic 提到,4.7 指令遵从能力的提升意味着"为 4.6 写的 prompt 可能在 4.7 上产生不同结果"。这意味着如果你的产品依赖 Opus 4.6 的特定输出格式或行为,切换前最好用自己的测试用例跑一遍回归,而不是直接上线。理论上"更听话"是好事,但行为变化本身需要提前核实。
Anthropic 发布的 benchmark 对比表里,除了 Opus 4.7、4.6、GPT-5.4 和 Gemini 3.1 Pro,还有一列:Mythos Preview。
SWE-bench Pro:77.8%(Opus 4.7 是 64.3%)
SWE-bench Verified:93.9%(Opus 4.7 是 87.6%)
Terminal-Bench 2.0:82.0%(Opus 4.7 是 69.4%)
Humanity's Last Exam(有工具):64.7%(Opus 4.7 是 54.7%)
Mythos Preview 在所有任务上都大幅领先 Opus 4.7。Anthropic 没有解释这是什么模型,公告里也找不到任何额外说明。
业界惯例里,把一个未发布模型放进自家的对比表,通常意味着:这是下一代旗舰,他们在预热。"Mythos"这个命名风格和 Anthropic 目前的 Claude 系列不同——有可能是全新的模型系列,也有可能只是内部代号。
无论如何,Mythos Preview 的出现说明了一件事:Opus 4.7 是 Anthropic 今天能给的最好答案,但不是他们手里的最后一张牌。
顺便说一句:这个 benchmark 表格同时还出现了 GPT-5.4 和 Gemini 3.1 Pro。就在几个月前,模型厂商的对比表里还在用 GPT-4 和 Gemini Pro 1.5 做参照。现在竞争的基准线已经完全不同了。GPT-5.4 和 Gemini 3.1 Pro 本身已经是这一代最强的竞品,Opus 4.7 在大多数任务上仍然领先——这才是真正值得记录的背景。
一,编码任务可以交更多出去了。 SWE-bench Pro 64.3% 不只是学术数字——Cursor 和 Rakuten 的实际生产数据直接印证了这一点。如果你在用 Claude Code 或类似工具写代码,建议重新测一遍你最常委托给模型的任务类型:切到 claude-opus-4-7,同样的 prompt,看看成功率有没有变化。
二,文档处理的自动化窗口打开了。 OfficeQA Pro 80.6% vs 竞品 42–57% 的差距,意味着企业文档处理这个方向,Opus 4.7 已经有了明显的能力领先。把你的文档分析工作流梳理一遍,看看哪些环节可以用模型替代人工翻阅。
三,高分辨率截图场景终于可以用了。 如果你之前因为模型"看不清"而放弃了 Computer Use 场景,375 万像素的上限是个重新试的理由。
四,Auto Mode 是方向信号,不只是功能更新。 端到端自主执行、不需要人工逐步确认——这个能力一旦可靠,会从根本上改变工作流的设计逻辑。现在是 Max 用户专属,但这个方向不会止步于此。
五,Mythos Preview 意味着 Anthropic 还有底牌。 今天的 Opus 4.7 是现在对外最强的旗舰,但 benchmark 表里那列比它强出一大截的未发布模型告诉我们:这不是终点。
我自己已经把默认模型切到 4.7 了。价格不变,能力更强——这个账算起来很简单。
这次升级让我觉得真正有意思的地方不是某一个具体的 benchmark 数字,而是能力提升的分布方式:视觉、长文本、文档推理、工具调用……这些全都是构建真实智能体应用时会遇到的核心能力瓶颈。Anthropic 这次的更新不像是把一个方向推到极致,更像是在全面夯实底座——而底座越扎实,上层应用能做的事就越多。
◇ ◆ ◇
数据来源:Anthropic · https://www.anthropic.com/news/claude-opus-4-7
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2026-04-17
Claude Opus 4.7 发布,全网最详细解读
2026-04-16
claude opus 4.7,来了!不过Token 消耗可能更贵了
2026-04-16
Anthropic放出Opus4.7,附最新使用方法!
2026-04-16
Google官宣:AI写代码成功率从28%飙到96%!秘密武器竟是一个文件夹
2026-04-16
1M 上下文不是终点:Anthropic 正在把 Claude Code 变成"上下文操作系统"
2026-04-16
从Claude Code进化史,读懂Coding Agent的终局逻辑
2026-04-15
未来软件工程的分工是AI写代码,人类提炼规范 | OpenAI Frontier 团队成员对话实录
2026-04-15
Claude最强模型没那么神话,DeepSeek R1也能找到「大 bug」
2026-01-24
2026-04-15
2026-01-26
2026-01-23
2026-03-31
2026-03-13
2026-01-21
2026-02-14
2026-02-03
2026-02-03