我要投稿

GPT5.5来了，最大特点解析

发布日期：2026-04-24 08:24:51 浏览次数： 2456

作者：深思SenseAI

微信搜一搜，关注“深思SenseAI”

01 等了七周，这次不一样

:::

GPT-5.4 发布七周之后，OpenAI 今天推出了 GPT-5.5。

七周。这个节奏已经不能叫「迭代」了，应该叫「连续轰炸」。从 GPT-5 到 GPT-5.1、5.2、5.3、5.4、5.5，每隔几周就有新版本，每次都有「更好、更快、更聪明」的说法，读者的感知已经被稀释得差不多了。我身边很多人已经不再跟踪每一次发布了，因为「又涨了 2% 的跑分」对他们来说感知不到差别。

但如果你认真读这次官方博客的措辞，你会发现一些奇怪的地方。这次的发布材料里，几乎看不到「更聪明的答案」「更准确的输出」「更自然的对话」这类以前常见的表达。取而代之的，是大量反复出现的词：「完成任务」「操作工具」「真实工作」「Agent 工作流」「长链条执行」「在真实环境里」。

GPT-5.5 的官方定位是「a new class of intelligence for real work」——不是「更好的聊天模型」，是「真实工作的新一类智能」。

「a new class of intelligence」这个措辞很大胆，OpenAI 不是随便用的。在他们的发布文案里，用「new class」来描述一个新版本，意味着他们自己认为这次的变化不是量变，而是质变——不只是「更好的同一类东西」，而是「不同种类的东西」。

这个措辞的转变，比任何跑分都值得多花五分钟想想。OpenAI 不是在悄悄地改变策略，他们在公开宣告：AI 的下一个核心战场，不在对话框里，在工作流里。不是「你能回答什么问题」，是「你能完成什么任务」。

打个比方：聊天 AI 像一个非常聪明的顾问，你问它问题，它给你建议，然后你自己去执行。agent 像一个你可以完全委托任务的人，你说「这个功能做完」「这份报告整理好」，然后它去办。前者提升了你的决策质量，后者直接减少了你的工作量。这两者的商业含义完全不同：聪明的顾问让你做决策更好，但你还是得执行，还是得用人力。能独立执行的协作者可以替代工作量，可以在你睡觉的时候继续推进任务，可以同时处理多个并行工作流。这是指数级的产能差异，不是线性提升。

GPT-5.5 的整个发布，在说的就是这件事：它不再只是一个聪明的顾问，它在变成一个可以独立执行的协作者。

今天能用上 GPT-5.5 的是 ChatGPT Plus、Pro、Business 和 Enterprise 用户，在 ChatGPT 和 Codex 里都有。GPT-5.5 Pro 只限 Pro、Business、Enterprise 用户。API 还在「very soon」的阶段。安全评测方面，他们对生物、化学、网络安全方向的能力分类为「High」但不是「Critical」——这是他们迄今为止最严格的安全审查，但边界被他们认为还在可控范围之内。

Decrypt 报道：GPT-5.5 今日发布，速度更快、能力更强、价格更贵（2026年4月23日）

02 最让我震惊的那个数字：ARC-AGI-2 的 85%

:::

GPT-5.5 在 ARC-AGI-2 上得了 85.0%。对比：GPT-5.4 是 73.3%，Claude Opus 4.7 是 75.8%，Gemini 3.1 Pro 是 77.1%。GPT-5.5 比第二名领先将近 8 个百分点，比上一代自我提升了 11.7 个点。这不是微调，是一个大跳跃。

ARC-AGI 这个基准特殊在哪里？设计者 François Chollet 的核心主张是：大多数 AI 跑分都可以靠记住训练集里的类似问题来刷高分，而 ARC-AGI 系列用全新的视觉推理谜题来测试，每次都是模型没见过的题型，没有捷径。ARC-AGI-2 是在第一版被顶级模型攻克之后专门重新设计的更难版本。在这上面大幅领先，说的是模型真正的推理泛化能力提升了，而不只是见过的训练数据更多了。

反过来想：如果 ARC-AGI-2 上的 85% 只是「记住了更多答案」，那 Chollet 的基准设计就失败了。要么是防作弊设计没有成功，要么是 GPT-5.5 真的在推理泛化上有了实质性提升。我倾向于相信后者，因为这和它在其他实际任务基准上的表现是一致的。

当然，跑分的争议永远存在。对于 SWE-Bench Pro，Claude Opus 4.7 得了 64.3%，比 GPT-5.5 的 58.6% 高，但 OpenAI 认为对方的成绩有「记忆化」嫌疑。Gemini 说自己的测试有外部机构认证，OpenAI 说对方的基准选得有利于自己。所有人都在赢，所有人都在被质疑。读者的最佳策略是看绝对数字而不是相对排名，等时间验证。

ARC-AGI-2 基准比较：GPT-5.5 以 85% 领先，比第二名 Gemini 3.1 Pro（77.1%）高出近 8 个点

03 编程能力：GPT-5.5 能完成需要人类 20 小时的任务

:::

Terminal-Bench 2.0：GPT-5.5 得了 82.7%。GPT-5.4 是 75.1%，Claude Opus 4.7 是 69.4%。这个基准测的不是写代码题，而是在命令行环境里完成真实的工程任务——配置环境、调试复杂问题、操作文件系统、处理依赖冲突。GPT-5.5 在这里把 Claude 甩出了将近 13 个百分点。

Expert-SWE（OpenAI 内部基准）：GPT-5.5 得了 73.1%，GPT-5.4 是 68.5%。这些任务的特点是：对人类专业工程师来说，通常需要 4 到 20 个小时来完成。不是写一个函数，是需要理解系统架构、追踪跨模块依赖关系、做出有影响面的改动的大型任务。

你注意到这个表达方式了吗？「需要人类 4 到 20 小时的任务」。他们在用「替代人类多少工时」来衡量模型。当 AI 公司开始用「相当于人类多少工时」来描述自己的模型，说明他们自己也认为评测的核心已经不是智力水平，而是劳动替代率了。这个转变，和 2024 年 AI 大多数讨论围绕「准确率」「幻觉率」「理解深度」是完全不同的谈法。

值得专门提的是 Codex 里的操作能力：GPT-5.5 在 Codex 里可以打开浏览器，点击界面元素，填表单，截图，根据截图里的内容判断任务是否完成，然后继续下一步。这不是代码生成，是真实的「computer use」——agent 在真实的软件界面上干活。我自己试了一下：把一个需要手动做十几步的工作流交给它，它会一步一步打开相关界面、操作、截图确认、然后继续。不是每次都完美，但成功率已经高到可以认真使用的程度。

GPT-5.5 Computer Use：在真实浏览器界面里点击操作、截图确认、继续推进

04 那个比跑分更重要的数字：OpenAI 内部 85%

:::

整个发布里，我觉得最重要的信息点，很多报道都没有认真对待它：OpenAI 在博客里提到，Codex 现在支撑了 OpenAI 内部 85% 以上的公司工作。不是 1%，不是实验性试点，是 85%。

为什么说这个数字比跑分更重要？因为跑分是在受控条件下测量的，而真实的内部使用是在混乱的、有各种边界情况的生产环境里发生的。能在内部 85% 的工作里被信任，意味着任务分解、上下文理解、工具选择、错误恢复、长链条执行——这些 agent 必须掌握的基础能力，已经达到了可以在真实组织里大规模信任的程度。

一个更现实的类比：当一家餐厅的厨师每天都在自己的馆子吃饭，你大概可以相信他们的食材和厨艺。OpenAI 用自己的 agent 跑自己 85% 的工作，这是一种很有说服力的背书。

我还注意到一个措辞：他们说的是「85% 以上的公司工作」，不是「85% 的工程工作」。这意味着覆盖面包括了工程之外的工作——产品分析、内容生产、决策支持，不只是写代码。这比「AI 帮工程师写代码」深得多。那是工具辅助；这是组织层面的工作流重构。

05 Tau2-bench 的 98%：真实业务部署门槛

:::

Tau2-bench Telecom 这个基准测试的是：一个 AI agent 能不能独立完成电信客服的工作流程。不是「理解客服意图」，是端到端地完成一笔客服工单——查账户、理解问题、找解决方案、执行操作、确认结果、关闭工单。是整个流程，不是其中某一步。

GPT-5.5 得了 98.0%，不经过任何专门的 prompt 调优。GPT-5.4 是 92.8%。98% 是一个什么水平？大多数自动化系统能做到 90% 已经算很好了——剩下 10% 靠人工兜底，总体还是有效的。98% 意味着只有 2% 的情况需要人工介入，每 50 笔工单里最多出一次错。对于批量的、流程化的客服场景，这个成绩已经超过了大多数人工客服在连续工作状态下的稳定性水平。这不是「实验室里很厉害」的数字，是「可以真的签合同部署、付钱替代人力」的数字。而且还是「不经过 prompt 调优」的情况——不需要花几周打磨 system prompt，直接接上去就是 98%。

BrowseComp：GPT-5.5 Pro 得了 90.1%，Gemini 3.1 Pro 是 85.9%。OSWorld-Verified（真实桌面应用操控）：78.7%，Claude Opus 4.7 是 78.0%，基本并列。这些分数描述的是同一件事：GPT-5.5 在真实环境里的任务完成率，已经超过了「可以认真考虑规模化部署」的门槛。值得注意的是，这些基准几乎全部是「真实环境操作任务」，而不是传统的「知识问答」或「文本生成」类基准——评测者和用户都已经默认了「语言理解已经不是瓶颈」，现在在考察的是能不能端到端完成一件事。

06 数学能力：Pro 版本几乎是 Claude 的两倍

:::

FrontierMath Tier 4 是目前公认最难的数学基准之一，为测试研究级数学推理而专门设计——不是高中竞赛题，是真实的博士级学术研究问题。

GPT-5.5 Pro：39.6%。Claude Opus 4.7：22.9%。GPT-5.5 Pro 的得分是 Claude 的 1.73 倍。在数学这个维度，差距非常明显。这是 GPT-5.5 Pro（高阶版）的成绩，不是标准版。39.6% 对 FrontierMath Tier 4 来说已经是极高的成绩，但也说明即使是最顶级的模型，解决最顶级的研究数学问题时依然有超过 60% 的失败率。数学研究的终点还远得很，但这个方向上的进步速度是真实的。

OpenAI 在博客里专门提到了 GPT-5.5 在科学研究辅助上的潜力，称其「在早期科学研究」领域有重要价值。GPT-5.2 发布时，他们提到研究人员用那一代模型证明了一个数学猜想的分支。如果这条路线在持续演化，GPT-5.5 Pro 的数学能力提升对学术界来说是一个值得认真关注的信号。

07 产品线和价格：涨价背后的逻辑

:::

GPT-5.5 的 API 价格是 GPT-5.4 的两倍：输入 $5/百万 token，输出 $30/百万 token。GPT-5.5 Pro API：$30 输入 / $180 输出。翻倍涨价，OpenAI 给出的辩护是「token 效率更高」：GPT-5.5 完成同样任务需要更少的 token，所以实际总成本不一定比 GPT-5.4 更贵。这个逻辑在原则上是对的——如果一个模型能用 500 token 做完另一个模型需要 1000 token 的事情，那么即使单价贵一倍，总价也是一样的。但历史上，AI 公司的「效率更高所以实际便宜」这类说法，最终有对有错，不能直接信，需要等 API 开放之后实测才能验证。

GPT-5.5 Pro 的 $30/$180 定价，是顶级模型里最贵的定价之一。但放在「能帮你做需要人类 4-20 小时的任务」的框架里看，哪怕按 $180 的输出单价，一次复杂任务的执行成本也远低于一个小时的工程师时薪。这个价值方程式，在 AI 还只会聊天的时候根本不成立——在 AI 可以完成真实任务的时候，变得非常有说服力。

上下文窗口：Codex 里是 400K token，API 接口支持到 1M token。1M token 意味着可以把一个大型项目的整个代码库放进去，让模型理解全局之后再做操作——对于大型 codebase 的 agent 任务来说是质变。之前那种「要先想想把什么内容裁掉才能塞进上下文」的纠结，在 1M window 面前基本消失了。

08 对我们意味着什么

:::

GPT-5.5 的发布，确认了一件我们已经感觉到、但还没有被官方说清楚的事情：AI 公司的主战场，从语言理解转向了任务执行。

这一代模型被评测的问题，不再是「你懂不懂这道题」，而是「你能不能完成这个需要人类工程师 4 到 20 小时的任务」「你能不能在真实电脑上操作这个应用」「你能不能独立跑完这条电信客服工单」。评测维度的转变，就是产品方向的转变。「理解语言」这件事，已经不再是区分顶级模型能力的维度了——真正在拉开差距的，是能不能把理解转化成可靠的行动，能不能在长链条任务里保持方向感，能不能在真实的、有错误的、有噪音的环境里持续往前推进而不崩溃。

这里有一个重要的「稳定性」概念：一个 agent 在单次任务里成功，和它在 50 次连续任务里都能成功，是两件完全不同的事情。前者可以是运气，后者需要真正的底层能力。Tau2-bench 的 98%、Terminal-Bench 的 82.7%，测量的都是后者：在反复、稳定的条件下，成功率能保持在什么水平。当这些数字超过 80%，生产环境的部署才开始变得现实。我们正处在那个临界点上，而且正在快速越过它。

OpenAI 内部 85% 的工作已经在 Codex 上跑——这不是一个预言，这是一个已经发生的数据点。下一个问题不是「AI 能不能做这件事」，而是「我们什么时候开始用」。对于正在构建产品和团队的人来说，那些「等 AI 再成熟一些再考虑」的工作流，成熟的时间点已经在快速缩短。GPT-5.5 发布的今天，某个竞争对手可能已经在把工程团队接入 Codex 了。