我要投稿

GPT-5.4实测全记录，当我让它操控我的电脑微信...

发布日期：2026-03-06 18:45:02 浏览次数： 2356

作者：JackCui

微信搜一搜，关注“JackCui”

奥特曼半夜两点突然毫无征兆发布5.4新模型，我想各位都知道了！

美国作息我是真遭不住！

同时我有个疑问，GPT你为什么非要大半夜肘击自己？

5.3 Instant才上了不到两天？5.4又被你抛了出来？

而且 DeepSeek 你看看人家，我期待的 V4 在哪里～～

言归正传，早上已经有很多媒体列举了 5.4 的诸多迭代优势。

如代码能力的提升，构建应用时能够实时操控，让模型边写代码，边同步修改

更夸张的是，GPT 果真让 5.4 支持了最高 1M Token 的上下文窗口！

但真正引起我兴趣的，是早上一篇推特爆了的帖子，

Hyperbolic 联合创始人金宇晨在 X 平台吐槽，

GPT-5.4 Pro 是他用过最喜欢迪化思考（过度分析）的模型，

仅仅发了一句简单的「Hi」，模型直接烧掉了 80 美元。

模型到底怎么样？我实测了它的推理能力、写作能力。

以及 Codex CLI 在操作电脑上，表现如何。

一、推理能力

前阵子Claude解图论猜想那件事，不知道大家看了没有。

没看过的，我简单讲下。

写《计算机程序设计艺术》的算法祖师爷高德纳，88岁高龄，在斯坦福发了一篇论文。

他自己研究了几周没解出来的图论猜想，被Claude Opus 4.6用31步给解了。

不是总结，不是分析，是真的找到了构造方法。

高德纳本人也说：自己不得不重新评估生成式AI在数学研究中的作用。

那这道题大概什么难度？

简单说，是在一个三维网格空间里找三条哈密顿环的问题。

要求三条路径刚好把所有边覆盖完，一条边只能属于一条环。

如果单纯想靠暴力枚举？纯是做梦。

但Claude用了31次探索，最后第31步找到了纤维分解这条路，构造出了通用规律。

高德纳随后给出了严格的数学证明。

这才是数学研究，得在没有答案的地方走出第一步。

然后先说明一下，5.4网页版的知识库截至时间是25年8月。

因此我将这道题发过去，想让 GPT-5.4 也试一下，

他大概花费20分钟解析出来，总的思考时长大概在14分钟，

可思考的过程，并非独立思考，而是因为它很快便联网搜到了claude那篇思考解题的论文，

并且是借着论文的话来给我重新讲了一遍。

ber哥们，什么小猿搜题？

当然我并不死心。

我让它试着推导m>2找到分解，那个还没被证实的猜想，也就是Claude也没有完全解决的那个开放部分。

结果不出所料。

GPT直接摆烂，表示确实没办法推理。

怎么评价呢，坦诚说不会，也算是一种美德吧。

二、审美能力

换个有趣点的话题：

早上看到5.4在MMMU-Pro视觉推理测试中，取得81.2%的准确率，远高于GPT-5.2。

简单说一下，MMMU-Pro 是面向多学科专业知识的多模态理解与推理基准，主要聚焦在客观，基于领域知识的视觉领域。

所以我出了一道非常基础的题。

我放了两张低像素的图，就问了它一句：你觉得哪张效果更好？

结果GPT非常笃定，选了右边。

毫无争议的选择了右边，蒙娜丽莎的微微一笑。

当然，两张图确实都称不上好看，这个我承认。

一万个人眼中有一万个哈姆雷特，AI同理。

我也把同样的问题给了5.2，他选择：要分情况。

问题不在对错，而是这种笃定。

其实5.4也并不是在判断审美，只是识别出了高权重的经典图片，然后压上了一个统计概率最高的答案。

不过这只是一个小测试，目的是想检验下在审美方面有没有提升。

三、写作方面

简单测试了一下小作文：

说实话效果很一般，非常的大白话，排比句拉满。

同样的提问方式，去让claude 4.6 sonnet写了一下，

究竟谁好谁坏，各位自行评判。

如果让我来看，我只能说想文本创作的能力，大家其实都半斤八两，

claude写的太文邹邹了，感觉像是犯了“文青病”。

GPT 则像个初中生，被强行要求应付学校布置的作文。

四、编程及原生操控

我用Three.js让5.4给我创建了一颗钻石，

正好一石二鸟，审美和前端3D建模能力一起测。

结果.......

你给我说这是钻石？

第一眼看到，我真以为它给我发了一块煤（其实是背景太黑）

不光光影没了，折射没了，透明感也没有。

唯独除了形状，还能依稀跟钻石对上。

再跟Gemini 3 Pro（右）和 Claude 4.6 Sonnet（左）的钻石生成结果做了下对比。

对比完之后，我发现GPT 5.4这颗钻石，

真的是返璞归真，直接归成碳了。

然后是今天被吹到最多的一个功能：电脑操控。

我看到很多人转发的评测，都说5.4几乎可以操作你电脑上的一切。

那我也来试试。

我想用 Codex 走 GPT-5.4，但是不知为何，我的最新版 Codex cli 就是没有 5.4，只有 5.3 codex，那就姑且一用。

再实测之前，我搜了一下它操控电脑的底层逻辑，就是靠截图。

截一张，分析一张，再截一张，再分析一张。

https://developers.openai.com/api/docs/guides/tools-computer-use/

这意味着它看到的永远是上一秒的屏幕，不是这一秒的。

我也自己跑了几轮 Codex 测试。

结论是这样的：系统原生应用，它确实能用。

比如日历，它可以直接调用系统级别的接口，操控流程相对顺畅，确实有点东西。

可一旦换成第三方应用，比如微信，问题就开始出现。

我先让它给联系人发消息，它确实能搜到人，也能发出去。

测试的时候让它给 JackCui 发了条：你在干什么，执行成功。

但bug也有。

就是联系人名字里，如果带了个横杠，就简单一个横杠，直接给它整迷糊了。

本来是要发消息的操作，直接变成了搜索。

有时候发的消息也会错误，时不时还会变成了脸滚键盘。

所以我目前的感受是，系统原生应用支持还可以。

越复杂的指令，操作越容易翻车。

当然，如果有小伙伴自己也测试了，也欢迎来评论区聊聊实际效果。

到底能不能达到传说中成为 AI 员工的程度？

五、价格与使用建议

最后一个问题，token 价格。

GPT-5.4，比5.2更贵了！

具体贵多少如图所示：

说实话，看完价格之后，我已经失去续费 gpt-5.4-pro的欲望了。

我理解大公司要盈利，我理解训练成本高，我理解他们要维持护城河。

但每次看到token的单价，我还是那句：这帮人是真把token当金子在卖。

所以说真的。

DeepSeek V4 到底什么时候来？

所以甭管别人吹 GPT-5.4 有多强。

我体验下来，一些地方确实能达到预期，但有一些地方就...

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2026-06-05

今天起，ChatGPT 会「做梦」了_tag2

2026-06-05

基于顶级 Agent（Claude Code）的 Harness 工程搭建式业务 Agent 评测方案_tag2

2026-06-05

Beyond Zero：Google 正在重写 Agent 时代的企业零信任架构_tag2

2026-06-04

ContextBucket：Agent 的"无限"记忆与工作区底座

2026-06-04

写给 Codex 小白用户的全网最详细教程：从 0 到 1，把它真正用起来

2026-06-03

Kimi Work Beta 版邀你体验：你的工作，分我一半

2026-06-03

实测MiniMax M3，全链路Agent要的三块拼图终于凑齐了

2026-06-03

Agent 越能干，你越不敢放手？ANOLISA给它穿上全套防护

联系获取

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

Claude Opus 4.7刚刚曝光！Claude Code一夜重构，7x24小时替你打工

2026-04-15

OpenAI Codex CLI 完整使用指南

2026-04-07

2026年国内如何注册 Claude 账号教程

2026-03-13

刚刚Qwen 3.6 Plus上线预览：1M上下文，阿里Coding/Agent翻身战打响

2026-03-31

Claude Code 和 Codex 接入 Figma MCP 保姆级教程

2026-04-07

独家| DeepSeek-V4终于要来了：梁文锋憋半年大招，多模态+长期记忆全面破局

2026-03-17

香港终于能直接用 Gemini 了，内地用户能用上吗？

2026-03-17

编程选GPT-5.4，还是GPT-5.3-Codex？

2026-03-21

GPT5.5来了，最大特点解析

2026-04-24

Claude Opus 4.7 发布，全网最详细解读

2026-04-17

大家都在问

当 AI 开始拥有“自主调度权”：Claude 4.8 这个新功能，到底有多可怕？

2026-06-03

哪些活，该交给Claude Code的 /workflows?

2026-06-02

面向 LLM 的架构设计：什么是真正的 AI Friendly 架构？

2026-06-01

如何使用Codex的Goals机制完成长程任务？

2026-05-26

Codex 的 computer use 功能，为什么这么好用？

2026-05-23

前有用友YonClaw，今有金蝶灵基，中国软件双雄的AI底牌谁能笑到最后？

2026-05-21

Harness Engineering：AI 能在真正"出事会炸"的后端系统里写代码吗？

2026-05-19

谁来给企业端即将大规模入职的Agent盖办公室？

2026-05-09

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS Skill 提示词技巧 AI+电商 AI面试数字员工 ChatBI AI知识库开源大模型智能营销智能硬件 FDE AI+医疗 MaxKB Palantir Glean Openclaw