我要投稿

刚刚，GPT-5.4 发布，百万上下文、最强全能模型

发布日期：2026-03-06 06:47:15 浏览次数： 4268

作者：AGI Hunt

微信搜一搜，关注“AGI Hunt”

OpenAI 刚刚发布了 GPT-5.4，把推理、编程、Agent 工作流全部塞进了一个前沿模型里，还首次支持百万级上下文窗口。

GPT-5.4 有三个版本：ChatGPT 里叫 GPT-5.4 Thinking，API 和 Codex 里叫 GPT-5.4，追求极限性能的还有 GPT-5.4 Pro。

这次，OpenAI 把 GPT-5.2 的通用推理能力和 GPT-5.3-Codex 业界领先的编程能力合并到了一个模型里，同时在工具调用、电脑操控、办公文档处理等方面全面升级。

用 OpenAI 的话说：用更少的来回，更准确地完成复杂的实际工作。

百万上下文

GPT-5.4 在 Codex 和 API 中实验性支持 100 万 token 的上下文窗口。

100 万 token 是什么概念？

大约相当于 5000 页文档，或者一整个大型代码仓库。

这让 Agent 能够在超长的任务链中规划、执行和验证，不再因为「记性不够」半途而废。

再也不必上下文恐慌了。

超过标准 272K 上下文的部分，按 2 倍费率计费。开发者可以通过配置 model_context_window 和 model_auto_compact_token_limit 来启用。

同时，GPT-5.4 还能在长时间思考时更好地保持对早期上下文的感知，不会像以前那样想着想着就忘了前面在讲什么。

可以打断

这次在 ChatGPT 中最让人眼前一亮的，是 「中途打断」功能。

以前跟 ChatGPT 对话，它开始回答了，你只能干等着。万一方向跑偏了，只能等它说完再重新提问。

现在不用了。

GPT-5.4 Thinking 会先给出一个思考计划，你可以在它回答的过程中随时插嘴，补充信息、调整方向、纠正偏差，模型会立刻把你的新指令融入进去，继续生成。

比如你让它规划旅行路线，它正在推荐机票，你突然想改成自驾游，直接点「Update」按钮告诉它就行，不用从头来一轮。

对于 GPT-5 Pro 和 Deep Research 用户来说尤其有用，那些长时间的多步查询，中途能调整方向意味着省下大量的时间和 quota。

这是一个从「回合制对话」到「实时协作」的转变。目前已在网页端和 Android 上线，iOS 稍后跟进。

此外，GPT-5.4 Thinking 的深度网页搜索能力也有显著提升，特别是在高度具体的查询上，能更持久地跨多轮搜索找到最相关的信息源。

在 BrowseComp 测试中，GPT-5.4 达到 82.7%，比 GPT-5.2 的 65.8% 跃升了 17 个百分点。GPT-5.4 Pro 更是拿下 89.3% 的新纪录。

会操作电脑了

GPT-5.4 是 OpenAI 第一个原生支持 Computer Use 的通用模型。

什么叫 Computer Use？就是模型可以像人一样操控电脑：看屏幕截图，点鼠标，敲键盘，跨应用完成复杂任务。既能通过 Playwright 之类的库写代码操控，也能直接对着截图发出鼠标和键盘指令。

开发者还可以通过 developer message 调整模型行为，甚至配置自定义的安全确认策略来适配不同的风险等级。

在 OSWorld 测试中（模拟桌面环境操作），GPT-5.4 达到了 75.0% 的成功率。

做个对比：

GPT-5.2 是 47.3%
人类水平是 72.4%

GPT-5.4 超过了人类。

在浏览器操作测试 WebArena 上拿到 67.3%，在 Online-Mind2Web 上更是高达 92.8%（ChatGPT Atlas Agent Mode 为 70.9%）。

视觉大升级

Computer Use 背后的关键是视觉能力的飞跃。

GPT-5.4 新增了 original 图片输入模式，支持最高 1024 万像素的全分辨率图片（或 6000 像素最大边长），high 模式也升级到 256 万像素（2048 像素最大边长）。

在 MMMU-Pro 视觉理解测试中，GPT-5.4 不使用工具就达到 81.2%（GPT-5.2 为 79.5%），使用工具则达到 82.1%。

文档解析能力也更强了。在 OmniDocBench 上，GPT-5.4 即使不开推理，平均错误率也从 GPT-5.2 的 0.140 降到了 0.109。

API 早期测试用户反馈，在使用 original 或 high 模式后，定位能力、图像理解和点击准确率都有明显提升。

更强编程

GPT-5.4 整合了 GPT-5.3-Codex 的前沿编程能力，在 SWE-Bench Pro 上达到 57.7%（GPT-5.3-Codex 为 56.8%），同时延迟更低。

在 Terminal-Bench 2.0 上得分 75.1%，GPT-5.2 只有 62.2%。

但还是比 GPT-5.3-Codex 略差……

OpenAI 特别提到，GPT-5.4 在复杂前端任务上表现突出，生成的界面比以往所有模型都更美观、更可用。

Codex 里开 /fast 模式，token 生成速度能提升到 1.5 倍，用的是同一个模型、同样的智能水平，纯粹就是更快。开发者在 API 中可以通过 Priority Processing 获得同样的加速。

作为 Computer Use 和编程能力协同工作的示例，OpenAI 还发布了一个实验性的 Codex Skill：Playwright (Interactive)，可以在构建 Web 和 Electron 应用的过程中实时做可视化调试。边写边测，自己调自己。

极高 Token 效率

GPT-5.4 是 OpenAI 最省 token 的推理模型，解决同样的问题，消耗的推理 token 比 GPT-5.2 少得多，速度也更快。

此外，GPT-5.4 引入了 Tool Search 机制，解决了工具调用的老大难问题。

以前给模型配工具，所有工具的定义都要塞进 prompt 里。工具一多，光定义就吃掉上万 token，又贵又慢。

现在 GPT-5.4 只需要一个轻量的工具列表。需要用哪个工具时，模型会自己去查找那个工具的定义，临时加载。这样做还有个好处：保护了缓存，让请求更快更便宜。

OpenAI 用 MCP Atlas 基准测试做了验证：36 个 MCP 服务器全部启用，Tool Search 模式比传统模式减少了 47% 的 token 消耗，准确率不变。

对于那些动辄几万 token 工具定义的 MCP 服务器来说，这个提升非常实在。

工具调用准确率也在提升。在 Toolathlon 测试中，GPT-5.4 得分 54.6%（GPT-5.2 为 45.7%），用更少的轮次达到更高的准确率。在 MCP Atlas 上，GPT-5.4 得分 67.2%（GPT-5.2 为 60.6%）。

最不会胡说

GPT-5.4 是 OpenAI 目前最不容易产生幻觉的模型。

跟 GPT-5.2 相比：

单条回答中的错误声明减少了 33%
整条回答包含任何错误的概率降低了 18%

在知识工作测试 GDPval 上，GPT-5.4 在 44 个职业的实际工作任务中，83.0% 的情况下达到或超过了行业专业人员的水平。GPT-5.2 只有 70.9%。

办公场景也明显提升：

投行分析师的电子表格建模任务：87.3%（GPT-5.2 为 68.4%）
PPT 制作：人类评审有 68% 的概率更喜欢 GPT-5.4 的版本，因为视觉更丰富、美感更强、图片运用更好

跑分一览

我们挑几个关键的来看下：

编程：

SWE-Bench Pro：57.7%（GPT-5.2 为 55.6%）
Terminal-Bench 2.0：75.1%（GPT-5.2 为 62.2%）

电脑操作和视觉：

OSWorld：75.0%（GPT-5.2 为 47.3%，人类 72.4%）
MMMU-Pro：81.2%（GPT-5.2 为 79.5%）

工具和搜索：

BrowseComp：82.7%（GPT-5.2 为 65.8%）
Toolathlon：54.6%（GPT-5.2 为 45.7%）
MCP Atlas：67.2%（GPT-5.2 为 60.6%）

学术和推理：

ARC-AGI-2：73.3%（GPT-5.2 为 52.9%）
FrontierMath Tier 4：27.1%（GPT-5.2 为 18.8%）
Humanity's Last Exam（带工具）：52.1%（GPT-5.2 为 45.5%）
GPQA Diamond：92.8%（GPT-5.2 为 92.4%）

GPT-5.4 Pro 在多项测试中进一步拉高上限：ARC-AGI-2 达到 83.3%，BrowseComp 达到 89.3%，Humanity's Last Exam 达到 58.7%，FrontierMath Tier 4 达到 38.0%。

安全机制

GPT-5.4 被列为 OpenAI Preparedness Framework 下的**「高网络能力」等级**（与 GPT-5.3-Codex 相同），部署了对应的保护措施：

扩展的网络安全防护栈，包括监控系统、可信访问控制
对零数据留存（ZDR）平台上的高风险请求做异步拦截
减少了不必要的拒绝和过度谨慎的回答

OpenAI 还引入了一项新的开源评测：CoT Controllability，测试模型是否能故意隐藏自己的推理过程来逃避监控。结果显示 GPT-5.4 Thinking 做不到。这对安全来说是个好消息，说明思维链监控仍然是一个有效的安全工具。

价格

API 定价对比：

模型输入缓存输入输出
GPT-5.2$1.75/M$0.175/M$14/M
GPT-5.4$2.50/M$0.25/M$15/M
GPT-5.2 Pro$21/M—$168/M
GPT-5.4 Pro$30/M—$180/M

模型	输入	缓存输入	输出
GPT-5.2	$1.75/M	$0.175/M	$14/M
GPT-5.4	$2.50/M	$0.25/M	$15/M
GPT-5.2 Pro	$21/M	—	$168/M
GPT-5.4 Pro	$30/M	—	$180/M

单价比 GPT-5.2 贵了一些，但由于 token 效率提升，很多任务的总成本反而会降低。

Batch 和 Flex 定价半价，Priority 加速处理 2 倍价。

谁能用

ChatGPT 方面，GPT-5.4 Thinking 即日起向 Plus、Team、Pro 用户开放，替代 GPT-5.2 Thinking。Enterprise 和 Edu 用户可通过管理员设置开启早期访问。

GPT-5.2 Thinking 将保留三个月，6 月 5 日正式退役，期间可在 Legacy Models 中找到。

GPT-5.4 Pro 面向 Pro 和 Enterprise 用户。

API 方面，模型 ID 分别是 gpt-5.4 和 gpt-5.4-pro，现已可用。

OpenAI 表示，未来 Instant 系列和 Thinking 系列模型会以不同的节奏各自演进。

好了，这次又轮到 OpenAI 了：

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2026-06-04

ContextBucket：Agent 的"无限"记忆与工作区底座

2026-06-04

写给 Codex 小白用户的全网最详细教程：从 0 到 1，把它真正用起来

2026-06-03

Kimi Work Beta 版邀你体验：你的工作，分我一半

2026-06-03

实测MiniMax M3，全链路Agent要的三块拼图终于凑齐了

2026-06-03

Agent 越能干，你越不敢放手？ANOLISA给它穿上全套防护

2026-06-03

《审慎部署智能体AI服务》指南

2026-06-03

OpenClaw 和 Hermes 没凉，浅层使用先退场了

2026-06-03

Anthropic突然上线全新CLI：一行命令操控Claude全部API

联系获取

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

Claude Opus 4.7刚刚曝光！Claude Code一夜重构，7x24小时替你打工

2026-04-15

OpenAI Codex CLI 完整使用指南

2026-04-07

2026年国内如何注册 Claude 账号教程

2026-03-13

刚刚Qwen 3.6 Plus上线预览：1M上下文，阿里Coding/Agent翻身战打响

2026-03-31

Claude Code 和 Codex 接入 Figma MCP 保姆级教程

2026-04-07

独家| DeepSeek-V4终于要来了：梁文锋憋半年大招，多模态+长期记忆全面破局

2026-03-17

香港终于能直接用 Gemini 了，内地用户能用上吗？

2026-03-17

编程选GPT-5.4，还是GPT-5.3-Codex？

2026-03-21

GPT5.5来了，最大特点解析

2026-04-24

Claude Opus 4.7 发布，全网最详细解读

2026-04-17

大家都在问

当 AI 开始拥有“自主调度权”：Claude 4.8 这个新功能，到底有多可怕？

2026-06-03

哪些活，该交给Claude Code的 /workflows?

2026-06-02

面向 LLM 的架构设计：什么是真正的 AI Friendly 架构？

2026-06-01

如何使用Codex的Goals机制完成长程任务？

2026-05-26

Codex 的 computer use 功能，为什么这么好用？

2026-05-23

前有用友YonClaw，今有金蝶灵基，中国软件双雄的AI底牌谁能笑到最后？

2026-05-21

Harness Engineering：AI 能在真正"出事会炸"的后端系统里写代码吗？

2026-05-19

谁来给企业端即将大规模入职的Agent盖办公室？

2026-05-09

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS Skill 提示词技巧 AI+电商 AI面试数字员工 ChatBI AI知识库开源大模型智能营销智能硬件 FDE AI+医疗 MaxKB Palantir Glean Openclaw