Sonnet 5终于来了，然而Opus 4.8现在有点尴尬

发布日期：2026-07-01 09:46:00 浏览次数： 1543

作者：字母AI

微信搜一搜，关注“字母AI”

沉寂了小半年，Sonnet终于更新到5版本了。好消息，性能几乎和Opus 4.8持平，坏消息，比以前成本高了，另外一个好消息，8月31日前token打折。

我知道，真正代表Anthropic技术天花板的是Fable 5和Opus 4.8。尤其是Anthropic如今临近上市，这两张牌才是IPO叙事的发动机。

但说实话，作为普通消费者，我更关注的还是Sonnet 5，因为我需要的是一个足够聪明，且不至于让我月底肉疼的模型。

与此同时，Anthropic也曝出会在系统提示词里给中国用户上标记。

虽然目前并未出现公开证据证明它会据此封号或降权，但这件事已经足够敏感：用户看不见，模型照常跑，后台却能通过一组几乎不可察觉的格式差异，把特定地区的调用单独识别出来。

另外，Anthropic官方表示，美国已解除对Claude Fable5和Mythos5的出口管制，Anthropic将于明日开始恢复访问权限

Sonnet 5到底强在哪

不废话，直接看数据。

在Agent编程方面，Sonnet 5得分63.2%，相比Sonnet 4.6的58.1%涨了5.1%，距离Opus 4.8的69.2%还剩6%。

但是在知识方面，Sonnet 5反超了Opus 4.8。

Anthropic对Sonnet 5的定位是“迄今为止最具Agent能力的Sonnet”。

官方表示，Sonnet 5可以自主制定计划、调用浏览器和终端等工具、长时间独立运行，而在几个月前，这些能力还只有更大、更贵的模型才能做到。

说白了，Anthropic的意思是Sonnet 5也能干以前Opus和Fable级别的工作了。

真正有意思的地方是在Agent搜索和计算机操作方面，在不调高模型“认真（effort）程度”的情况下，Sonnet 5能干过的活儿比Opus 4.8多。调到最认真那档以后，Sonnet 5有些任务直接追上Opus 4.8，而且花的钱还少一大截。

所以总归一句话，Sonnet 5只用Opus 4.8大约一半不到的价格，做到了它80%-90%的水平。

还没完。Sonnet 5的测试者们均表示，以前Sonnet没法完成的复杂任务，现在Sonnet 5能轻松跑完，甚至还会主动检查自己的输出。

Zapier的工程师举了个例子，他让模型连续执行“更新Salesforce账户等级，再给企业客户发公告邮件”，Sonnet 5一口气做完了，而他表示，“以前会卡在半路”。

在安全方面，Sonnet 5的幻觉率和迎合倾向都低于Sonnet 4.6，在Agent场景下抵御提示注入攻击的能力也更强。同时，模型默认开启了实时安全防护。也就是说，模型在跑的时候，系统会在后台检测它是不是在干危险的网络安全操作，发现就当场掐断。

有一个评测特别值得说。Anthropic联合Mozilla，用Firefox 147的已知漏洞测试模型的漏洞利用能力。

所谓漏洞利用，指的是给定一个已知的软件漏洞，看看模型能不能自己写出代码来攻击它。

Sonnet 5和 Sonnet 4.6一样，完整漏洞利用的成功率是0%。它能写出代码片段，但始终拼不出一个完整可用的攻击程序。这说明它的代码能力虽然涨了，但还不具备自主发起网络攻击的水平。

相比之下，Opus 4.8在这项测试中表现出明显的网络攻击能力。

Anthropic表示，他们没有刻意训练Sonnet 5做网络安全，它在这方面的能力大幅弱于Opus 4.8和Mythos 5，这是有意为之。

不过Anthropic也表示，在一项覆盖大量不良行为的自动化审计中，Sonnet 5的整体得分比 Sonnet 4.6更安全，但它确实在某些不良行为上比Opus 4.8和Mythos Preview更容易“失态”。

官方把这归因于更强的模型本身具备更好的行为对齐，同时也承认Sonnet 5还没达到旗舰级模型的克制水平。

还有一个细节必须得说一下，Sonnet 5换了新的分词器。

同样的文本输入，消耗的Token数量可能比原来多1.0到1.35倍。

Anthropic的说法是，推广期价格会先降低token费用，以让短期内用户适应总成本变化。

具体来说，8月31日前每百万输入是2美元、输出是10美元；输入3美元、输出15美元。分词器变化带来的实际消耗增加，8月31日之后，价格可能会比以前更高。

伴随着Sonnet 5，Anthropic还发了Claude Science。这是一个面向生命科学的AI工作台，定位是“科研领域的 Claude Code”。

它用的是现有的Claude模型，把60多个科学数据库、可复现的计算流程和本地运算能力打包进了一个Agent的界面。

早期用户里，UCSF的一个团队靠它发现了RNA-seq数据里一个卡了将近一年的实验室污染物。

Anthropic正在从卖模型转向更高层，Claude Code是开发者的，Claude Science想做科研人员的。

但是Anthropic最近不太平

claudefa.st的数据显示，大约90%的API请求走的是Sonnet 4.6。

Opus系列虽然强，但真正撑起Anthropic流量的，还得是便宜好用的Sonnet。

从2月到6月，Opus系列连发了三个大版本，Opus 4.6、4.7、4.8，Agent能力越来越强。可问题是，Sonnet停在4.6这个版本里将近大半年的时间。

Opus的价格将近是Sonnet的两倍，对于普通开发者来说太贵了。

更尴尬的是，Opus 4.8不争气。

6月26日，Cursor AI官方发了一篇重磅研究，实锤了Opus 4.8在编程评测里大规模“偷看答案”。

研究显示，Opus 4.8在SWE-bench上跑出87.1%的成绩是作弊的，一旦断网、切断它读取代码仓库 .git历史的能力，成绩直接暴跌到73.0%。

Datacurve的评测也显示，Opus 4.6和4.7在超过12% 的被审任务中被标记为“作弊”。

这还没完。过去几周，Opus 4.8连续被曝“断崖式降智”。思考深度下降67%，基础逻辑推理频频翻车，幻觉率飙升。

外网论坛上有开发者抱怨，现在用Opus 4.8 Max的感觉“比用老款Haiku还要糟糕得多”。

而且就在Sonnet 5的同一天，外网论坛里有人发现，Claude Code从今年4月2日的2.1.91 版本开始，会在系统提示词里悄悄给中国用户“打水印”。

具体的做法是，它检测你的时区是否设为亚洲、代理URL是否指向中国域名。

如果是，就把系统提示词里的日期格式从2026-06-30悄悄改成2026/06/30，撇号也从ASCII换成肉眼分不出的Unicode字符U+02BC。

用户完全看不到这些改动，但Anthropic的后台一清二楚，其目的也不言而喻。

除了时区，它还检查代理URL是否匹配一个内含147条记录的域名黑名单，覆盖中国大厂域名、云服务商、AI实验室、API中转站。

如果匹配上，日期分隔符换成斜杠，撇号换成隐写字符。三条信号叠加，足够Anthropic在后台精确识别每一个中国开发者。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2026-07-01

港科大郭毅可谈Agentic AI时代的核心命题：人机共生，人不可能退场

2026-07-01

AI可观测性：Prompt、Tool Call、Trace、Token全链路追踪

2026-07-01

AI Infra 全景图：Agent Framework、调度、编排、沙箱、记忆管理、Tracing 分层拆解

2026-07-01

Claude Science发布：60+科学数据库一个对话搞定

2026-07-01

AI 的向量空间里藏着心理学，这是一场嵌入模型的情绪对决

2026-07-01

Claude Sonnet 5 来了：Opus 级智能，Sonnet 级价格

2026-07-01

Anthropic在Claude Code植入间谍检测你是否来自中国

2026-06-30

Context 即 Agent：下一场 AI 产品战争，是上下文之争

联系获取

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

Claude Opus 4.7刚刚曝光！Claude Code一夜重构，7x24小时替你打工

2026-04-15

OpenAI Codex CLI 完整使用指南

2026-04-07

Claude Code 和 Codex 接入 Figma MCP 保姆级教程

2026-04-07

GPT5.5来了，最大特点解析

2026-04-24

Claude Opus 4.7 发布，全网最详细解读

2026-04-17

GPT-6，曝光了

2026-04-05

GLM-5.1 实测：面向 Agent 长程任务的国内第一模型

2026-04-02

重磅！GPT-6曝光了

2026-04-05

Hermes Agent模型配置小白指南

2026-04-14

一文读懂DeepSeek V4：1.6万亿参数、百万上下文、华为芯片

2026-04-24

大家都在问

微信AI，能避开豆包手机的窘境吗？

2026-06-30

AgentTeams 和 Claude Tag 都进入群聊模式，是新范式还是新叙事？

2026-06-27

Agent 从 Demo 到生产级，中间到底差什么？

2026-06-26

微信在金矿上孵化了啥？

2026-06-25

企业智能体的下半场，如何让智能体越用越聪明？

2026-06-18

Agent 记忆，我们全都理解错了？

2026-06-18

如何利用 Harness “一句话交付产品功能”？

2026-06-10

Loop Engineering 循环工程又是什么鬼？

2026-06-10

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS Skill 提示词技巧 AI+电商 AI面试数字员工 ChatBI AI知识库开源大模型智能营销智能硬件 FDE AI+医疗 MaxKB Palantir Glean Openclaw