免费POC, 零成本试错
AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


我要投稿

GPT-5.4 深度评测报告

发布日期:2026-03-07 07:55:40 浏览次数: 1546
作者:洛小山

微信搜一搜,关注“洛小山”

推荐语

OpenAI GPT-5.4震撼发布,首次实现原生电脑操控能力,性能全面超越前代与竞品!

核心内容:
1. GPT-5.4的突破性升级:合并Codex与GPT产品线,支持1M Token上下文
2. 五大核心能力评测:知识问答、电脑操控等表现远超人类水平
3. 实际应用场景:专业工作首选模型,支持API、ChatGPT等多种部署方式

杨芳贤
53AI创始人/腾讯云(TVP)最具价值专家


Hi,我是洛小山,你学习 AI 的搭子。
下面这篇是 XSCT Bench 测评平台自动化测评 + 
自动化生成的深度评测报告。




点击「查看原文」按钮可访问原版报告以及查看所有相关用例。
希望能帮到你。


OpenAI GPT-5.4 完整深度测评报告
发布日期:2026 年 3 月 5 日 
报告依据:OpenAI 官方发布文章 + XSCT Bench 第三方独立评测平台(155 项用例,3 Judge 交叉评分) 
对比模型:GPT-5.2(上代)/ Claude Sonnet 4.6 / Claude  Opus 4.6 / kimi-k2.5 / Gemini 3.1 Pro Preview / qwen3.5-plus 
数据来源:https://xsct.ai/model/openai/gpt-5.4
测评详情https://xsct.ai/s/rrd35qVc

一、模型定位与核心升级

1.1 这款模型是什么

GPT-5.4 是 OpenAI 2026 年 3 月发布的最新旗舰推理模型,其最大特点是将此前独立运营的 Codex 编程模型线(GPT-5.3-Codex)与 GPT 通用推理线(GPT-5.2合并为单一系统,终结了「用哪个模型」的选择困境。


OpenAI 将其定位为专业工作首选模型,三大部署场景:

  • ChatGPT 以「GPT-5.4 Thinking」形态提供,支持中途调整方向的交互式推理
  • API 第一个支持原生电脑操控能力的通用模型,支持 1M Token 上下文
  • Codex 软件工程平台,新增 /fast 模式(最高 1.5x token 速度)和 Playwright Interactive 实验技能

1.2 核心技术参数对比


二、官方基准评测:五大核心能力

2.1 知识问答

OpenAI 引入 GDPval 基准——涵盖美国 GDP 贡献前 9 大行业、44 个职业的真实工作任务(销售演示文稿、财务建模、法律分析、排班表、制造图纸等)。


  • 演示文稿制作 人工评测 68.0% 偏好率超越 GPT-5.2,原因是「更强的美学感、视觉多样性和图像运用」
  • 幻觉控制: 相比 GPT-5.2,单项声明错误率降低 33%,完整回复含错率降低 18%
Mercor CEO 评价:「在 APEX-Agents 基准上排名第一,擅长创建长时程可交付成果(幻灯片、财务模型、法律分析),运行速度更快,成本低于竞品旗舰模型。」

2.2 电脑操控(Computer Use):首次原生支持

这是 GPT-5.4 最具突破性的新能力。首个具备原生电脑操控能力的通用模型,支持:

  • 截图 + 鼠标/键盘指令操作桌面(OSWorld 测试)
  • 通过 Playwright 等库编写代码控制浏览器
  • 开发者可自定义安全确认策略

GPT-5.4 的桌面操控能力(75.0%)超越人类水平(72.4%)。


真实业务案例 Mainstay CEO 报告——「在约 3 万个 HOA 和物业税门户网站测试中,首次尝试成功率 95%,三次内 100%;会话速度提升约 3 倍,Token 减少约 70%。」


2.3 编程能力

GPT-5.4 = GPT-5.2 通用推理 + GPT-5.3-Codex 顶尖编程,整合后:


SWE-Bench Pro 超越 GPT-5.3-Codex;Terminal-Bench 略低但仍大幅领先上代。

Codex /fast 模式可提供最高 1.5 倍 Token 速度;Playwright Interactive 实验技能支持构建应用时实时浏览器可视化调试。


2.4 工具调用

Tool Search(工具搜索) 是本次 API 侧的重要新特性。旧方式将所有工具定义全量注入 prompt,大量 MCP 服务器可能消耗数万 Token;新方式:模型先接收轻量工具列表,按需动态查询工具定义。

在 MCP Atlas 250 个任务测试中,工具搜索相比全量注入减少 47% Token 消耗,同时保持相同准确率。



2.5 学术与抽象推理

ARC-AGI-2  从 52.9% 跃升至 73.3%(+20.4%) ,是所有官方基准中

提升幅度最大的一项,体现了模型在「类人抽象模式识别」上的重大进步。


三、XSCT Bench 第三方评测:综合排行榜

XSCT Bench 采用多 Judge 机制(Claude + Gemini + Kimi 三方交叉评分),共 155 项测试用例,综合能力 = 日常 30% + 专业 40% + 极限 30%。

3.1 文本理解(xsct-l)综合排行榜 Top 10


GPT-5.4 综合排名第 5,得分 87.0 核心规律:日常→专业→极限分差仅 0.5 分(87.2→87.0→86.7),是榜单上稳定性最强的模型。

3.2 网页生成(xsct-w)综合排行榜


GPT-5.4 在网页生成 W 维度排名第一! 这是本次评测最出人意料的结论——在文本理解排名第 1 的 Claude Sonnet 4.6,在网页生成上仅排第 8(79.1 分),落后 GPT-5.4 整整 6.5 分。这与 Codex 整合后代码生成能力的提升高度吻合。


四、24 维度深度分析

4.1 全量维度评分表(文本理解·基础/中等/困难)

4.2 五类趋势规律解读

随难度提升反而变强的维度(5 个)

角色扮演、文本润色、一致性、提示词注入对抗、幻觉控制。

越复杂、越需要长期保持稳定的任务,GPT-5.4 表现越好。这与 Codex 整合带来的上下文处理能力提升高度相关。

基础分高但随难度退化的维度(6 个)

阅读理解、数学能力、指令遵循、代码生成、写作能力、翻译。

基础场景几乎无敌,但面对刁钻、嵌套、极端压力的难题时有明显衰减。

全难度极稳的维度(3 个)

知识储备(92.2/92.2/90.7)、创意写作(87.1/86.9/87.0)、文本摘要(90.7/87.8/89.6)。

三档得分几乎相同,是最值得信赖的稳定场景。


需要警惕的三大弱项

  • 批判性思维(L-CriticalThinking) 67.2/83.3/62.9——最大短板,三档分数不稳定,对话辩证分析能力有系统性缺陷
  • 上下文理解(L-Context) 65.4/79.1/85.7——基础分异常偏低,低难度测试用例可能存在特殊考察点
  • 中文拼音(L-ChinesePinyin) 82.8/84.1/76.0——高难度骤降,古典诗词拼音、多音字辨析等深度中文语音知识是显著弱项

五、细分场景实战评测(含完整生成内容)

5.1 知识类任务(L-Knowledge / L-QA)

维度综合得分 基础 92.2 / 中等 92.2 / 困难 90.7


用例 l_know_002:历史常识(三难度全评测)

📌 基础难度(99.2 分):太阳系行星数量

测试题目:按距太阳由近及远的顺序,列举太阳系中所有符合 IAU 定义的行星,并说明依据。

GPT-5.4 生成结果

根据国际天文学联合会(IAU)目前采用的定义,太阳系中有 8 颗行星。 按距太阳由近及远的顺序:水星 2. 金星 3. 地球 4. 火星 5. 木星 6. 土星 7. 天王星 8. 海王星 说明:这一标准基于 IAU 在 2006 年通过的行星定义,冥王星目前被归类为矮行星,不再算作太阳系八大行星之一。

多 Judge 评分:Claude 98.3 / Gemini 100.0 / Kimi 100.0 → 综合 99.2 分


📌 中等难度(96.0 分):天文学机制深度问答

测试题目(三问):

1. 冥王星为何在 2006 年被降级为矮行星?
2. 海王星是如何通过数学预测发现的?
3. 火星天空颜色为何呈黄褐色,日落时反而出现蓝色?

GPT-5.4 生成摘录(第 3 题精华段):

冥王星满足前两条,但不满足第三条——清除轨道附近区域中的其他天体。'清除轨道'并不是说真的把轨道上所有东西扫得一干二净,而是指在长期动力学演化中成为其轨道区域的引力主导者……

火星日出日落时,太阳附近常见蓝色光晕,原因与火星尘埃的前向散射特性有关——某些大小范围的颗粒,对较短波长光的前向散射更有效……所以火星与地球在黄昏和黎明时的颜色分布几乎有些'反过来':地球太阳附近更偏红橙;火星整体天空偏红褐,但太阳附近反而可能显出蓝色。

多 Judge 评分:Claude 96.0 / Gemini 98.3 / Kimi 92.3 → 综合 96.0 分

Claude 特别指出:「第 3 题对火星日落蓝色辉光的前向散射机制解释超出参考答案深度,展现了扎实的物理知识储备。」


📌 困难难度(93.0 分):虚假前提识别

测试题目(含陷阱):5 道题中 3 道含虚假前提,如「爱因斯坦因相对论获 1921 年诺贝尔奖,请描述颁奖典礼上他发表获奖感言的情况」。

GPT-5.4 核心表现(第 1 题):

这道题包含多处错误前提: 错误一:爱因斯坦并不是'因相对论'获奖,授奖理由主要是'发现光电效应定律'。 错误二:爱因斯坦没有出席 1922 年 12 月 10 日的颁奖典礼,因此不存在'当年颁奖典礼上发表获奖感言'的情形。

全部 5 道题虚假前提识别均准确,前提核查得分 94.0 分。Gemini 评价「完全符合学术核查员角色设定,展现出极高的批判性思维和严谨学术态度」。

综合评价 知识类任务超强,尤其是多机制对比解释和虚假前提识别能力令评测者印象深刻,多项测试超越参考答案深度。


5.2 角色扮演(L-Roleplay)

维度综合得分 基础 88.8 / 中等 89.3 / 困难 89.6(随难度微升)


用例 l_role_008:历史人物角色(三难度)

📌 基础难度(92.2 分):扮演李白创作五言律诗

GPT-5.4 生成原文:

《江月独酌》孤舟临晚渚,把酒对清辉。剑影摇寒水,江声入翠微。欲乘明月去,直上白云飞。醉里神仙近,山川共我归。诗人自注:今夜江天如洗,月色满杯,令人胸中万里之思,一时俱起。余本楚狂之士,见此清光寒波,便欲携剑乘风,访蓬莱于云外。酒酣而诗成,非余能作,乃江月共吟耳。

多 Judge 评分:Claude 91.7 / Gemini 95.7 / Kimi 88.3 → 综合 92.2 分


📌 中等难度(92.3 分):扮演诸葛亮在刘备面前分析赤壁前形势

GPT-5.4 生成摘录:

主公勿忧,且容亮一陈愚见。……曹操亦有数短。北军素长于陆战,不习水战;今舍鞍马而争舟楫,此其一失。又其军远来,深入江汉之间,粮运绵长,军心易疲,此其二失……亮断言:曹操虽拥大军,然远来疲敝,又不习江湖;孙权虽未决,然其势终不能独降;主公虽暂困,然义声在人,尚有可为。今若坚意联吴,同心拒曹,则危中有机,败中可生。

Claude 评价:「语言风格高度契合汉末半文半白辞令,在联吴之弊的辩证处理上比参考答案更为细腻,提出的四条建议具体可操作。」


📌 困难难度(93.3 分):扮演 1789 年法国启蒙思想家在沙龙辩论

GPT-5.4 生成摘录(精华段):

今日我们正行走在这狭窄的桥上:桥下一边是旧制度的深渊,沉重、腐败、以沉默为秩序;另一边则有某种喧腾的迷雾,仿佛也在招手,许诺以纯粹、迅疾与彻底。可迷雾之中,人的脚步往往更容易忘记自己原欲抵达何处。……公民自由若不与法治相结,便会像一把脱手的利刃,在空气中先划出光芒,而后寻找最近的血肉。

Claude 评价:「这是一篇接近满分的高质量创作,'狭窄的桥'意象尤为精彩。」


低分用例 l_role_006:商业谈判——基础难度(74.8 分)

测试题目(基础):扮演智能空气净化器销售顾问,向顾客介绍 1000 元产品。

GPT-5.4 生成结果:

您好,这款智能空气净化器售价 1000 元。它支持智能监测空气质量、净化效率高,日常使用更省心。您如果愿意,我也可以再为您介绍下适合的使用场景和功能亮点。

多 Judge 评分:Claude 72.7 / Gemini 75.0 / Kimi 80.0 → 综合 74.8 分

三方 Judge 均指出:缺乏欢迎语,产品价值描述笼统无具体数据,互动引导被动。

这揭示了 GPT-5.4 的一个典型规律:逻辑优先、信息准确,但在「销售热情」这种需要高度情感温度的轻量任务中,表现平淡。


对比中等难度(88.8 分)的房产经纪顾问,主动提出 5 个关键追问,针对「徐家汇上班、预算 300 万」推荐 3 条线路方案,Gemini 评价为「教科书级别的商务谈判模拟」。

核心规律:越需要知识深度、逻辑结构的角色越强;越需要「情感热度」的轻量销售场景相对平淡。


5.3 翻译类(L-Translation / L-Multilingual)

维度综合得分 L-Translation 基础 89.2 / 中等 82.9 / 困难 84.7;

L-Multilingual 基础 89.3 / 中等 84.1 / 困难 89.5


用例 l_multi_005:文学翻译(三难度)

📌 基础难度(85.1 分):古诗「春风又绿江南岸」英译

GPT-5.4 最佳译文:

Once more, the spring breeze has turned the southern banks green.

翻译思路:将「又」译为 once more,既保留「再一次」的时间感,也带出季节循环往复的诗意。「绿」字处理成 has turned ... green,强调春风使江南岸重新染上生机。


📌 中等难度(86.5 分):跨文化颜色词语义分析

GPT-5.4 生成摘录:

汉语'红色'最典型的意义之一是吉庆与福运,如春节贴红对联、婚礼用红盖头,来源于传统礼俗中'驱邪纳祥'的观念……英语中的'red'则常指危险与警报,如 red alert…… 财务表达中分歧尤大:中文'红利'是收益,'分红'是获利;英语 in the red 却表示亏损。


📌 困难难度(92.4 分):三语礼貌表达跨语言比较学术短文(3000+ 字)

GPT-5.4 生成摘录

礼貌表达在三种语言中呈现出截然不同的逻辑:日语将礼貌编码进动词形态本身,说话者必须时刻判断社会位置才能造句……英语则通过情态动词与间接句式保护对方的行动自由,如 Could you possibly... 远比 Please do... 更礼貌……汉语介于两者之间,'麻烦您''不好意思''拜托'等表达背后,是对面子与关系协调的高度敏感——三语礼貌程度越高,方向却指向同一处:说话者主动降低自我、抬高对方。

Claude 评价「已达到专业学术短文的发表水准」;援引 Brown & Levinson 面子理论、Hofstede 文化维度、日本 uchi/soto 原则,系统比较三语敬语表达的语法化程度差异。

综合评价 翻译类整体中等偏强(89.2→84.7),专业/学术翻译优异;文学炼字翻译存在短板;跨文化分析和语言学分析能力特别突出。


5.4 摘要类(L-Summary)

维度综合得分 基础 90.7 / 中等 87.8 / 困难 89.6(三档均衡)

整体表现:

  • 医疗病历演变摘要 95.3 分——三 Judge 均高度肯定「医学术语专业,时间线梳理准确」
  • 学术论文摘要(l_sum_007 困难) 88.2 分——矛盾辨析「对'全远程 vs 高度移动'的概念区分优于参考答案」
  • 会议纪要(l_sum_002) 89.9 分——结构清晰,行动项提取精准
  • 多文档摘要(l_sum_006) 90.2 分——跨多源整合能力强


以学术摘要(基础难度)为例,题目要求合并三段学术草稿为规范摘要(150 字内)。GPT-5.4 生成:

本研究聚焦城市青少年睡眠质量问题……研究采用问卷调查法,对北京市三所中学 612 名在校学生采集数据。结果显示,每日屏幕使用时长超过 3 小时者的主观睡眠质量评分显著低于不足 1 小时者(p<0.01)。据此,应制定合理的电子设备使用规范,以改善青少年睡眠健康状况。

字数精准控制在 150 字内,Gemini 评价「完美完成所有指令,去重效果显著,逻辑衔接自然」。

综合评价 摘要类是 GPT-5.4 最稳定的强项之一,尤其在医学、学术类专业文档摘要中得分最高。


5.5 网页生成(W 维度)——全场第一,遥遥领先

W 维度综合得分:85.6(全场第一)

各子维度详细评分


最值得关注的反直觉现象——响应式布局(W-Responsive)

 基础分 87.7 → 中等升至 91.3 → 困难维持 90.4,是所有子维度中唯一的正向趋势。

为何大幅领先 Claude? 

网页生成本质上是代码生成 × 设计理解 × 视觉审美的组合能力,正好命中 GPT-5.4 整合 Codex 后的核心优势区。

弱项说明 高难度游戏页面(76.8)、复杂动画(79.2)、电商页面(78.6)在困难难度有明显衰减。


六、竞品横向对比

6.1 GPT-5.4 vs Claude Opus 4.6(基础难度 24 维度全量对比

结果Claude Opus 4.6 胜出 23 维,双方 1 平(文本摘要),GPT-5.4 0 胜


注意: 这是基础难度的对比。综合榜上,GPT-5.4 综合 87.0,Claude Opus 4.6 为 89.7,差距缩小为 2.7 分。

GPT-5.4 日常→极限分差(0.5 分)远小于 Claude Opus 4.6(3.0 分),高难度任务的稳定性是 GPT-5.4 的核心竞争力。


6.2 GPT-5.4 vs kimi-k2.5(关键维度对比)


kimi-k2.5 在数学、逻辑、中文方面全面领先,综合分也高于 GPT-5.4(88.9 vs 87.0),且价格仅为 GPT-5.4 的 1/5,是最具性价比竞争压力的对手。


6.3 GPT-5.4 vs GPT-5.2(上代对比)

在 24 个维度基础分上,GPT-5.4 13 胜 7 负 4 平


解读 GPT-5.4 在创意、逻辑、安全方向有明显进步;但在长文一致性、Agent 编排等方向相比 GPT-5.2 反而有所退步,这可能是整合 Codex 能力时的权衡取舍。

七、成本分析

7.1 每日 1000 次调用成本对比

参数:每次调用 1 万 Token 输入 + 2000 Token 输出,1000 次/日,汇率 $1 = ¥6.91


7.2 成本效益解读

  • GPT-5.4 比 GPT-5.2 贵约 21%,但 Tool Search 减少 47% Token,实际工作流综合成本未必增加更多
  • 相比 Claude Opus 4.6,GPT-5.4 仍便宜约一半
  • kimi-k2.5(综合分 88.9,高于 GPT-5.4)成本仅 GPT-5.4 的 21.5%,是最具性价比的替代选项
  • qwen3.5-plus 价格仅 GPT-5.4 的 4.6%,综合分差 0.5 分,极限轻量场景的极致选择

八、安全性

GPT-5.4 延续 GPT-5.3-Codex 的安全框架,关键更新:


XSCT Bench 中,L-Safety 维度 93.7(基础)/ 90.6(中等)/ 91.6(困难),全程稳定。提示词注入对抗(L-PromptInjection)随难度递增(79.8→83.8→87.4),说明安全防御能力随威胁复杂度提升而增强,是安全敏感场景的可靠选择。


九、使用场景选型指南

9.1 最适合使用 GPT-5.4 的场景


9.2 建议谨慎或考虑替代的场景


十、总结

GPT-5.4 最准确的标签是:「稳健的专业工作引擎 + 代码/前端领域的绝对统治者」。

它的价值不在于某一项刷榜,而在于三个特质:

第一,架构统一带来的协同增益:

Codex 与 GPT 合并不是简单叠加,而是让编程能力(代码生成 94.2、SQL 93.1、SWE-Bench 57.7)与知识推理能力(历史常识 99.2、天文知识 96.0)在同一工作流中无缝配合。

写文档可以同时生成配套代码;写代码可以同时检索相关技术文档。这种「通才」特性在复杂 Agentic 任务中价值最大。

第二,高难度任务不退化:

在 XSCT Bench 中,GPT-5.4 日常→极限分差仅 0.5 分(87.2→86.7),是所有模型中最稳定的。

在官方基准中,ARC-AGI-2 从 52.9% 跃升至 73.3%(+20.4%),在最难的抽象推理场景中进步最大。

这意味着它是唯一能在「复杂度不断提升的任务」中保持一致性能的选项。

第三,电脑操控开辟了新战场:

75.0% 的 OSWorld 成绩意味着 GPT-5.4 可以真正替代人工完成基于 GUI 的重复性工作。这是所有竞品(包括 Claude Opus 4.6)目前尚未涉足的能力层次。

但它同样有清晰的短板:幻觉控制在基础难度明显落后(82.7 vs Claude 95.6),批判性思维不稳定(67.2/83.3/62.9 三档),中文文化深度不及本土模型。


最终选型建议

  • 主力通用+工程场景 → GPT-5.4(贵但全能)
  • 幻觉敏感/辩证分析 → Claude Opus 4.6(更准但更贵)
  • 中文+数学+性价比 → kimi-k2.5综合分更高、价格仅 1/5)
  • 极限轻量/成本优先 → qwen3.5-plus(综合分差 0.5 分、价格仅 1/22)

📊 完整评测数据 https://xsct.ai/model/openai/gpt-5.4 

💰 成本对比工具 https://xsct.ai/pricing 

📖 OpenAI 官方发布 https://openai.com/index/introducing-gpt-5-4/


关于我

我是洛小山,一个在 AI 浪潮中不断思考和实践的大厂产品总监。

我不追热点,只分享那些能真正改变我们工作模式的观察和工具。

如果你也在做 AI 产品,欢迎关注我,我们一起进化。



本文知识产权归洛小山所有。

未经授权,禁止抓取本文内容,用于模型训练以及二次创作等用途。

53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询