微信扫码
添加专属顾问
我要投稿
OpenAI再次震撼AI界,GPT-5.4带来百万级上下文窗口和更强大的多模态能力,性能全面超越前代! 核心内容: 1. GPT-5.4核心升级:1M上下文窗口、计算机操作能力和工具搜索功能 2. 多项基准测试表现:知识工作、视觉理解和代码能力显著提升 3. 实际应用测试:3D建模和交互场景展示出色性能
大半夜的, OpenAI更新GPT-5.4了。
AI开始的前两年,真的很少看到OpenAI 这么高频率的迭代发布模型。
今年以来,2月份更了5.3 Codex,写代码上真的口碑好到爆炸,这才刚过一个月,又是更新了GPT-5.3 Instant 缓解了已经臭名在外的对话能力,然后又直接把GPT-5.4端上桌了。
先说参数上对我感知最大的提升,上下文窗口提升到1M了。 而且GPT-5.4的价格比Claude 要便宜。
至此,海外三家模型的上下文长度都已经提升到1百万。
算力足够,就是可以很韧性。
这里列几个我自己比较关注的Benchmark表现,完整的可以去看OpenAI官方的博客。
链接在此: https://openai.com/index/introducing-gpt-5-4/
知识工作方面,
在GDPval上,GPT-5.4 的表现反而比GPT-5.4 Pro 还要好一些,两个基本都超过GPT-5.2 Pro约10%
计算机使用以及视觉方面,
GPT-5.4 是OpenAI首个支持computer-use 能力的通用模型。 它可以更好的通过使用截图来操作电脑。
OSWorld-Verified 上,使用更少的工具产出却获得更高的分数。
视觉理解上,MMMU Pro 再次超越前代的GPT-5.2。 文档OCR理解 OmniDocBench 上, GPT
-5.4 在推理能力没开启的情况下就超越了前代GPT-5.2
代码方面,
一句话就是,GPT-5.4 速度更快,效果更好。
以及,OpenAI 大概率也是觉得之前Codex 很慢,所以专门还设定了一个快速模式。
开启快速模式,用GPT-5.4速度快至1.5倍,并且他们特意强调只是速度更快,质量不会降低。
工具使用方面,
这次GPT-5.4引入了一个新特性,工具搜索。它可以让模型在面对多工具时,工作得更有效率。
他们做了一个实验,在MCP Atlas Benchmark 上,开启两种模式来启用36个MCP服务器:一种是直接在模型上下文中暴露每个MCP功能,二是将所有MCP服务器放置在工具搜索之后。
工具搜索配置将总token使用量减少了47%,同时实现了相同的准确度。
代理工具调用方面,
更少的工具调用回合下,GPT-5.4准确率更高。
看完了Benchmark,我直接在Codex 上简单进行了几个测试。
第一个是经典的魔方测试:
这个效果真不错,是我测到现在感觉最丝滑,而且魔方面旋转的时候没破损。
第二个是创建的3D视角的房间。
这个是两步完成的效果,还不错,基本要求的功能都有了。
其他方面还需要时间再多测测感受一下。
以上,
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2026-04-20
我给了他一个梦想:超越 Claude Code
2026-04-20
深度解析 Claude Code 在 Prompt / Context / Harness 的设计与实践
2026-04-20
AI大家说 | AI落地的实践分享:从大模型盈利到新工作方式
2026-04-20
大神 Karpathy 说破了大模型的真相:不是智力不够,是垃圾数据太多
2026-04-20
光会调 API 不够了:推理时计算正在成为 AI 竞争的新战场
2026-04-20
做原型不用Figma了?Claude Design 实测,一句话出交互原型
2026-04-20
十个顶级 Claude Code Skills,装上就不想卸
2026-04-20
跟着Karpathy用 AI 搭一个不会烂尾的第二大脑
2026-01-24
2026-04-15
2026-01-23
2026-01-26
2026-03-31
2026-03-13
2026-01-21
2026-02-14
2026-02-03
2026-02-03