免费POC, 零成本试错
AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


我要投稿

GPT-5.4实测全记录,当我让它操控我的电脑微信...

发布日期:2026-03-06 18:45:02 浏览次数: 1569
作者:JackCui

微信搜一搜,关注“JackCui”

推荐语

奥特曼深夜发布GPT-5.4,实测其推理与操控能力,看看这次升级到底有多强!

核心内容:
1. GPT-5.4在数学推理测试中的表现与Claude对比
2. 模型在多模态视觉理解测试中的突破性成绩
3. 实测Codex CLI操控电脑微信的实用功能体验

杨芳贤
53AI创始人/腾讯云(TVP)最具价值专家

奥特曼半夜两点突然毫无征兆发布5.4新模型,我想各位都知道了!

美国作息我是真遭不住!

同时我有个疑问,GPT你为什么非要大半夜肘击自己?

5.3 Instant才上了不到两天?5.4又被你抛了出来?

而且 DeepSeek 你看看人家,我期待的 V4 在哪里~~

言归正传,早上已经有很多媒体列举了 5.4 的诸多迭代优势。

如代码能力的提升,构建应用时能够实时操控,让模型边写代码,边同步修改

更夸张的是,GPT 果真让 5.4 支持了最高 1M Token 的上下文窗口!

但真正引起我兴趣的,是早上一篇推特爆了的帖子,

Hyperbolic 联合创始人金宇晨在 X 平台吐槽,

GPT-5.4 Pro 是他用过最喜欢迪化思考(过度分析)的模型,

仅仅发了一句简单的「Hi」,模型直接烧掉了 80 美元。

模型到底怎么样?我实测了它的推理能力、写作能力。

以及 Codex CLI 在操作电脑上,表现如何。

一、推理能力

前阵子Claude解图论猜想那件事,不知道大家看了没有。

没看过的,我简单讲下。

写《计算机程序设计艺术》的算法祖师爷高德纳,88岁高龄,在斯坦福发了一篇论文。

他自己研究了几周没解出来的图论猜想,被Claude Opus 4.6用31步给解了

不是总结,不是分析,是真的找到了构造方法。

高德纳本人也说:自己不得不重新评估生成式AI在数学研究中的作用。

那这道题大概什么难度?

简单说,是在一个三维网格空间里找三条哈密顿环的问题。

要求三条路径刚好把所有边覆盖完,一条边只能属于一条环。

如果单纯想靠暴力枚举?纯是做梦。

但Claude用了31次探索,最后第31步找到了纤维分解这条路,构造出了通用规律。

高德纳随后给出了严格的数学证明。

这才是数学研究,得在没有答案的地方走出第一步。

然后先说明一下,5.4网页版的知识库截至时间是25年8月。

因此我将这道题发过去,想让 GPT-5.4 也试一下,

他大概花费20分钟解析出来,总的思考时长大概在14分钟,

可思考的过程,并非独立思考,而是因为它很快便联网搜到了claude那篇思考解题的论文,

并且是借着论文的话来给我重新讲了一遍。

ber哥们,什么小猿搜题?

当然我并不死心。

我让它试着推导m>2找到分解,那个还没被证实的猜想,也就是Claude也没有完全解决的那个开放部分。

结果不出所料。

GPT直接摆烂,表示确实没办法推理。

怎么评价呢,坦诚说不会,也算是一种美德吧。

二、审美能力

换个有趣点的话题:

早上看到5.4在MMMU-Pro视觉推理测试中,取得81.2%的准确率,远高于GPT-5.2。

简单说一下,MMMU-Pro 是面向多学科专业知识的多模态理解与推理基准,主要聚焦在客观,基于领域知识的视觉领域。

所以我出了一道非常基础的题。

我放了两张低像素的图,就问了它一句:你觉得哪张效果更好?

结果GPT非常笃定,选了右边。

毫无争议的选择了右边,蒙娜丽莎的微微一笑。

当然,两张图确实都称不上好看,这个我承认。

一万个人眼中有一万个哈姆雷特,AI同理。

我也把同样的问题给了5.2,他选择:要分情况。

问题不在对错,而是这种笃定。

其实5.4也并不是在判断审美,只是识别出了高权重的经典图片,然后压上了一个统计概率最高的答案。

不过这只是一个小测试,目的是想检验下在审美方面有没有提升。

三、写作方面

简单测试了一下小作文:

说实话效果很一般,非常的大白话,排比句拉满。

同样的提问方式,去让claude 4.6 sonnet写了一下,

究竟谁好谁坏,各位自行评判。

如果让我来看,我只能说想文本创作的能力,大家其实都半斤八两,

claude写的太文邹邹了,感觉像是犯了“文青病”。

GPT 则像个初中生,被强行要求应付学校布置的作文。

四、编程及原生操控

我用Three.js让5.4给我创建了一颗钻石,

正好一石二鸟,审美和前端3D建模能力一起测。

结果.......

你给我说这是钻石?

第一眼看到,我真以为它给我发了一块煤(其实是背景太黑)

不光光影没了,折射没了,透明感也没有。

唯独除了形状,还能依稀跟钻石对上。

再跟Gemini 3 Pro(右)和 Claude 4.6 Sonnet(左) 的钻石生成结果做了下对比。

对比完之后,我发现GPT 5.4这颗钻石,

真的是返璞归真,直接归成碳了。

然后是今天被吹到最多的一个功能:电脑操控。

我看到很多人转发的评测,都说5.4几乎可以操作你电脑上的一切。

那我也来试试。

我想用 Codex 走 GPT-5.4,但是不知为何,我的最新版 Codex cli 就是没有 5.4,只有 5.3 codex,那就姑且一用。

再实测之前,我搜了一下它操控电脑的底层逻辑,就是靠截图。

截一张,分析一张,再截一张,再分析一张。

https://developers.openai.com/api/docs/guides/tools-computer-use/

这意味着它看到的永远是上一秒的屏幕,不是这一秒的。

我也自己跑了几轮 Codex 测试。

结论是这样的:系统原生应用,它确实能用。

比如日历,它可以直接调用系统级别的接口,操控流程相对顺畅,确实有点东西。

可一旦换成第三方应用,比如微信,问题就开始出现。

我先让它给联系人发消息,它确实能搜到人,也能发出去。

测试的时候让它给 JackCui 发了条:你在干什么,执行成功。

但bug也有。

就是联系人名字里,如果带了个横杠,就简单一个横杠,直接给它整迷糊了。

本来是要发消息的操作,直接变成了搜索。

有时候发的消息也会错误,时不时还会变成了脸滚键盘。

所以我目前的感受是,系统原生应用支持还可以。

越复杂的指令,操作越容易翻车。

当然,如果有小伙伴自己也测试了,也欢迎来评论区聊聊实际效果。

到底能不能达到传说中成为 AI 员工的程度?

五、价格与使用建议

最后一个问题,token 价格。

GPT-5.4,比5.2更贵了!

具体贵多少如图所示:

说实话,看完价格之后,我已经失去续费 gpt-5.4-pro的欲望了。

我理解大公司要盈利,我理解训练成本高,我理解他们要维持护城河。

但每次看到token的单价,我还是那句:这帮人是真把token当金子在卖。

所以说真的。

DeepSeek V4 到底什么时候来?

所以甭管别人吹 GPT-5.4 有多强。

我体验下来,一些地方确实能达到预期,但有一些地方就...

好了,本期的内容就是这么多~

如果这篇文章对你有所启发,欢迎点赞、在看,转发三连。星标⭐账号,还可以第一时间收到推送,感谢你的收看,我们下期再见~

·················END·················


53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询