我要投稿

Anthropic放出Opus4.7，附最新使用方法！

发布日期：2026-04-16 23:22:06 浏览次数： 2901

作者：次元乔伊

微信搜一搜，关注“次元乔伊”

Anthropic 又发新模型了。

名字也很直接，Claude Opus 4.7。

如果只看这个版本号，很多人第一反应可能是，又一个小版本迭代而已。但你把 Anthropic 这篇官宣认真读完，会发现它想传递的其实不是简单的「更强了一点」，而是他们在把一条非常明确的路线继续推深，让模型在真实复杂工作里更像一个能单独扛事的同事。

这件事一旦成立，影响就不只是 benchmark 漂不漂亮了。

它会直接影响 coding、Agent、computer use、文档处理、界面生成，甚至会影响现在越来越火的那种 vibe coding。你只管说需求，模型去做、去改、去验证、去收尾。过去这种说法里多少还有一点想象成分，到了 Opus 4.7 这一代，味道已经越来越不一样了。

先说结论，Opus 4.7 强在 5 件事

如果要把 Anthropic 这篇官宣压缩成最重要的五个点，我觉得是这几个。

第一，高级软件工程能力继续拉高。而且不是那种做几个 demo、补几段样板代码的提升，而是明确在最难、最复杂、最需要长时间持续执行的 coding 任务上变强。合作方里最扎眼的几个数字包括，CursorBench 从 58% 提到 70%，某个 93-task coding benchmark 相比 Opus 4.6 提升 13%，Notion 的复杂多步工作流里提升 14% 且工具错误降到原来的三分之一，Rakuten-SWE-Bench 的 production tasks 解决数甚至做到 3x。

第二，长任务稳定性更强。官方写得很明白，Opus 4.7 在复杂、长时间运行的任务里更严谨、更一致，也更能准确理解指令。Factory Droids 的反馈是任务成功率提升 10% 到 15%，而且更少停在半路；Bolt 说在 longer-running app-building work 里，最佳情况下也能比 Opus 4.6 再好 10%。

第三，开始更像一个会自我检查的执行者。这点特别重要。Anthropic 直接说了，Opus 4.7 会在交回结果之前，自己设计验证方式，确认输出是不是靠谱。Notion 提到它是第一个通过 implicit-need tests 的模型，Vercel 说它甚至会在 systems code 开工前先做 proofs，另一个合作方还给了个很夸张的例子，Opus 4.7 能自己写完整 Rust TTS 引擎，再把自己的语音输出喂给语音识别器，反向验证结果是不是贴近 Python reference。

第四，视觉能力明显增强。它现在能看更高分辨率的图片，而且从合作方反馈来看，这种提升不是边角料级别的，而是直接影响复杂技术图、化学结构图、界面和文档的理解。官方这次给了很明确的参数，长边最高支持 2,576 像素，约 3.75 megapixels，是此前 Claude 模型可处理图像细节的 3 倍以上。XBOW 的视觉敏锐度 benchmark 更是从 Opus 4.6 的 54.5% 直接跳到 98.5%。

第五，设计品味和职业输出质感变好了。这件事听起来有点虚，但其实很现实。Anthropic 的说法是，它在完成专业任务时更有 taste，会做出质量更高的界面、slides 和 docs。这个说法不是空口自夸，Harvey 给的 BigLaw Bench 分数是 90.9%，Databricks 的 OfficeQA Pro 里文档推理错误率比 Opus 4.6 少了 21%，而做 dashboards 和 data-rich interfaces 的合作方甚至直接说，这是目前世界上最强的模型。

如果把这五件事放在一起看，你就会明白为什么这波会被很多人理解成一种 vibe coding 狂欢。因为它不是单点变强，而是在把「你描述目标，模型自己持续往前做」这个体验整体抬高。

Opus 4.7 最值得看的，不是会写代码，而是会把事情做完

我觉得这次最关键的一句话，其实藏在官宣开头。

Anthropic 说，用户反馈是，Opus 4.7 已经可以把那些以前必须紧盯着的 hardest coding work 交给它，而且能更有信心。这个说法分量很重。它不是说「生成质量更高」，也不是说「单次代码题更厉害」，而是在说，你终于可以把更难、更长、更需要自己判断边界的工作，真正交出去一部分了。

这背后的变化其实非常大。

过去很多人说自己在用 AI 写代码，本质上还是一种加强版 autocomplete。你让它写个函数，补个组件，查个 bug，没问题。但只要任务一长，链条一多，工具一杂，模型就开始飘。要么中途停住，要么工具调用乱掉，要么给你一个看起来像完成了、其实没验证过的结果。

Opus 4.7 这次最强的地方，就是在努力解决这个问题。官方措辞里有几个词特别值得注意，rigor and consistency、precise attention to instructions、verify its own outputs before reporting back。翻成人话就是，它更能顶住长任务、更能按要求来，而且比上一代更像一个会自己复查的人。

这正是 coding agent 真正需要的能力。

你要的不是一个聪明但漂浮的模型。

你要的是一个能把事情从头带到尾，中间尽量少失误、少跑偏、少半途而废的模型。

为什么会被说成 vibe coding 狂欢

这两个月，vibe coding 这个词已经被说烂了，但很多人其实没太搞清楚它真正迷人的地方。

它不是「一句话生成一个 App」这么简单。

真正让人上头的，是那种创作摩擦被大幅降低的感觉。你脑子里有个想法，不需要先自己翻很多文档，不需要先自己搭很多基础设施，不需要每一步都亲自盯着，你只需要持续给方向，模型就会往前推。它会写、会试、会改、会补，会在一个你大致能控制、但又明显比过去轻得多的工作流里，把东西一点点做出来。

而 Opus 4.7 这次刚好是在最影响 vibe coding 体验的几个点上一起加分了。

代码更稳。

长任务更能扛。

工具错误更少。

视觉理解更强。

做 UI、slides、docs 的品味也更好了。

这意味着什么？意味着你不只是让它写逻辑，还可以更放心地让它碰前端、碰界面、碰数据面板、碰演示材料、碰文档。以前很多 vibe coding 的演示之所以好看，是因为大家只展示最顺的那一段。现在 Anthropic 明显想把这种体验从 demo 往真实日常工作推进。

官宣里合作方的反馈其实也都指向同一件事。有人说它在 async workflow、CI/CD 和长时间 coding 任务上明显更稳了；有人说它在工具调用和 planning 上有双位数提升；有人说它在复杂多步工作流里，能够在更少 token 和更少工具错误下，把事情持续做下去；还有人直接说，它是第一个通过 implicit-need tests 的模型，也就是它开始更懂那种你没说得很死、但任务里隐含需要完成的部分。这里还有几个特别具体的点，比如 Genspark 提到 loop resistance、consistency 和 graceful error recovery 都上了一个台阶，Warp 说它通过了此前 Claude 模型没过的 Terminal Bench 任务，CodeRabbit 则说 recall 提升超过 10%，而 precision 没掉。

这就是 vibe coding 里最让人兴奋，也最让人容易上头的部分。模型不再只是等你逐句 micromanage，它开始越来越像一个知道怎么接住任务的人。

这次不只是 coding，更是 taste 升级

我觉得很多人会低估这件事。

Anthropic 这次很少见地把 taste 拿出来讲，而且不是随口一提。他们明确说 Opus 4.7 在专业任务里的创造性和品味更好了，能产出质量更高的 interfaces、slides、docs。

这其实很说明问题。

因为如果 Anthropic 只想把它定位成一个纯工程模型，大可不必在官宣里强调这些。但他们现在显然已经不满足于「最会写代码」，他们想做的是那种真正能在专业工作里交付整体成果的模型。

你想想实际工作就知道了。真正有用的 AI，不是只会补后端函数。它还得能看懂图，理解页面结构，知道一个 dashboard 怎么排更顺，知道一页 slides 哪些字太多，知道一份 doc 什么地方该收、什么地方该展开。也就是说，它得开始具备某种跨代码、跨视觉、跨表达的整体判断。

这正是 Opus 4.7 这次最让我在意的地方。

它看起来不像是一个只会把 token 拼得更漂亮的模型了，它越来越像一个会在专业环境里做完整作品的模型。

视觉升级，可能比很多人想象中更重要

Anthropic 在官宣里提到，Opus 4.7 现在能看更高分辨率的图像，而且合作方反馈里直接提到，它在技术图、化学结构图、复杂界面上的理解都变强了。

这件事如果放在一年前，很多人可能只会觉得是 multimodal 常规更新。但放在今天，这意义其实不小。

因为 coding agent 这条路，一旦真往 computer use 和真实工作流走，视觉就不再是配角。你要看截图，要看页面布局，要看控制台，要看图表，要看复杂文档里的结构信息。一个模型如果代码强，但视觉弱，它迟早会卡在现实世界的最后几步上。

官宣里一个让我印象很深的例子，是 XBOW 的视觉敏锐度 benchmark，Opus 4.7 做到了 98.5%，而 Opus 4.6 是 54.5%。这个提升幅度已经不是「略有增强」，而是直接跨了一个坎。再加上官方明确写了现在支持更高分辨率图像输入，长边 2,576 像素、约 3.75MP，你就能理解这次视觉升级为什么会被很多 agent 团队看得这么重。

从这个角度看，Opus 4.7 其实是在补 AI agent 很关键的一块短板。不是让模型更像一个会看图的聊天机器人，而是让它更像一个能真正看懂电脑界面的工作者。

还有一个很少人会注意，但很重要的点，Anthropic 在控制它的危险能力

这篇官宣里还有一条不太适合做标题，但很值得注意的信息。

Anthropic 提到，上周他们刚公布 Project Glasswing，其中讨论了更强模型在网络安全领域的风险和收益。Claude Mythos Preview 这类更强能力的模型，他们暂时不会广泛放开，而是先在能力稍弱一点的模型上测试新的 cyber safeguards。Opus 4.7 就是第一步。

也就是说，Opus 4.7 一边在往前冲，一边也在被用作更强安全机制的测试场。Anthropic 明说了，他们给 Opus 4.7 上了自动检测和拦截高风险网络安全请求的 safeguard，并且专门给合法安全研究人员开放了 Cyber Verification Program。

这件事至少说明两点。

第一，Anthropic 自己很清楚，这类模型已经开始碰到更真实的能力边界了。

第二，他们现在的发布逻辑已经不是简单地「能放就放」，而是边增强能力，边摸索怎么控风险。

你可以不喜欢这种风格，但它确实说明，Anthropic 现在发模型，脑子里装的已经不只是跑分和 demo 了。

价格没涨，但含金量在涨

对开发者来说，这次还有几个很实际的信息。Opus 4.7 的价格和 Opus 4.6 保持一致，还是 每百万输入 token 5 美元，每百万输出 token 25 美元。模型名也很直接，API 里就是 claude-opus-4-7。

可用性这块也没有拐弯抹角，Anthropic 直接写了，今天就可以用，而且是全线铺开，Claude 产品、Claude API、Amazon Bedrock、Google Cloud Vertex AI、Microsoft Foundry 都上了。

另外还有几个很多开发者会在意的参数变化。第一，Opus 4.7 新增了一个 effort level，叫 xhigh，夹在 high 和 max 之间，让你在推理深度和延迟之间有更细的调节空间。Anthropic 甚至把 Claude Code 全计划的默认 effort 直接提到了 xhigh。第二，平台侧开始 public beta task budgets，允许开发者给长任务设 token 预算。第三，Claude Code 新增了 /ultrareview 命令，专门开一场 review session 去抓 bug 和设计问题，Pro 和 Max 用户还有 3 次 免费试用。第四，Max 用户还拿到了 expanded auto mode。

当然，升级也不是没有代价。官方专门提醒了两点，Opus 4.7 换了 tokenizer，同样的输入可能会比之前多出大约 1.0 到 1.35 倍 token；而且在更高 effort 尤其是 agentic settings 的后期轮次里，它会思考更多，所以输出 token 也可能上涨。Anthropic 自己的说法是，综合他们内部 coding eval 看，净效果仍然是划算的，但最好用真实流量自己测。

这意味着一件很朴素但很重要的事，如果你本来就在用 Opus 4.6，这次升级的心理门槛其实不高。成本结构没有突然变得更难接受，但你拿到的是一个更稳、更像样、更有 taste 的模型。

这也是为什么官宣里不少合作方都直接把它形容成 easy upgrade decision。不是因为大家喜欢追新，而是因为它提升的那些地方，恰好都打在最值钱的工作环节上。

所以，Opus 4.7 到底是不是现在最强 AI 模型

如果你问得非常严格，这个问题其实没有一个绝对答案。Anthropic 自己也很克制，他们甚至在官宣里直接写了，Claude Mythos Preview 在广泛能力上还更强，Opus 4.7 不是他们最强的那个模型。

但如果把问题换一下，问现在最强、最适合拿来做高级 coding、长任务执行、vibe coding、专业输出的公开可用模型是谁，那 Opus 4.7 确实已经非常有资格坐上牌桌中央了。尤其是你把这次官宣里那些具体信号合起来看，70% vs 58% 的 CursorBench 跳升、98.5% vs 54.5% 的视觉敏锐度、90.9% 的 BigLaw Bench、21% fewer errors 的文档推理、2,576px / 3.75MP 的图像输入规格、xhigh effort、task budgets、/ultrareview，这已经不是一个空泛的「更强」了，而是一整套可落地参数都在变。