微信扫码
添加专属顾问
我要投稿
奥特曼深夜发布GPT-5.4,实测其推理与操控能力,看看这次升级到底有多强!核心内容: 1. GPT-5.4在数学推理测试中的表现与Claude对比 2. 模型在多模态视觉理解测试中的突破性成绩 3. 实测Codex CLI操控电脑微信的实用功能体验
奥特曼半夜两点突然毫无征兆发布5.4新模型,我想各位都知道了!
美国作息我是真遭不住!
同时我有个疑问,GPT你为什么非要大半夜肘击自己?
5.3 Instant才上了不到两天?5.4又被你抛了出来?
而且 DeepSeek 你看看人家,我期待的 V4 在哪里~~
言归正传,早上已经有很多媒体列举了 5.4 的诸多迭代优势。
如代码能力的提升,构建应用时能够实时操控,让模型边写代码,边同步修改
更夸张的是,GPT 果真让 5.4 支持了最高 1M Token 的上下文窗口!
但真正引起我兴趣的,是早上一篇推特爆了的帖子,
Hyperbolic 联合创始人金宇晨在 X 平台吐槽,
GPT-5.4 Pro 是他用过最喜欢迪化思考(过度分析)的模型,
仅仅发了一句简单的「Hi」,模型直接烧掉了 80 美元。
模型到底怎么样?我实测了它的推理能力、写作能力。
以及 Codex CLI 在操作电脑上,表现如何。
前阵子Claude解图论猜想那件事,不知道大家看了没有。
没看过的,我简单讲下。
写《计算机程序设计艺术》的算法祖师爷高德纳,88岁高龄,在斯坦福发了一篇论文。
他自己研究了几周没解出来的图论猜想,被Claude Opus 4.6用31步给解了。
不是总结,不是分析,是真的找到了构造方法。
高德纳本人也说:自己不得不重新评估生成式AI在数学研究中的作用。
那这道题大概什么难度?
简单说,是在一个三维网格空间里找三条哈密顿环的问题。
要求三条路径刚好把所有边覆盖完,一条边只能属于一条环。
如果单纯想靠暴力枚举?纯是做梦。
但Claude用了31次探索,最后第31步找到了纤维分解这条路,构造出了通用规律。
高德纳随后给出了严格的数学证明。
这才是数学研究,得在没有答案的地方走出第一步。
然后先说明一下,5.4网页版的知识库截至时间是25年8月。
因此我将这道题发过去,想让 GPT-5.4 也试一下,
他大概花费20分钟解析出来,总的思考时长大概在14分钟,
可思考的过程,并非独立思考,而是因为它很快便联网搜到了claude那篇思考解题的论文,
并且是借着论文的话来给我重新讲了一遍。
ber哥们,什么小猿搜题?
当然我并不死心。
我让它试着推导m>2找到分解,那个还没被证实的猜想,也就是Claude也没有完全解决的那个开放部分。
结果不出所料。
GPT直接摆烂,表示确实没办法推理。
怎么评价呢,坦诚说不会,也算是一种美德吧。
换个有趣点的话题:
早上看到5.4在MMMU-Pro视觉推理测试中,取得81.2%的准确率,远高于GPT-5.2。
简单说一下,MMMU-Pro 是面向多学科专业知识的多模态理解与推理基准,主要聚焦在客观,基于领域知识的视觉领域。
所以我出了一道非常基础的题。
我放了两张低像素的图,就问了它一句:你觉得哪张效果更好?
结果GPT非常笃定,选了右边。
毫无争议的选择了右边,蒙娜丽莎的微微一笑。
当然,两张图确实都称不上好看,这个我承认。
一万个人眼中有一万个哈姆雷特,AI同理。
我也把同样的问题给了5.2,他选择:要分情况。
问题不在对错,而是这种笃定。
其实5.4也并不是在判断审美,只是识别出了高权重的经典图片,然后压上了一个统计概率最高的答案。
不过这只是一个小测试,目的是想检验下在审美方面有没有提升。
简单测试了一下小作文:
说实话效果很一般,非常的大白话,排比句拉满。
同样的提问方式,去让claude 4.6 sonnet写了一下,
究竟谁好谁坏,各位自行评判。
如果让我来看,我只能说想文本创作的能力,大家其实都半斤八两,
claude写的太文邹邹了,感觉像是犯了“文青病”。
GPT 则像个初中生,被强行要求应付学校布置的作文。
我用Three.js让5.4给我创建了一颗钻石,
正好一石二鸟,审美和前端3D建模能力一起测。
结果.......
你给我说这是钻石?
第一眼看到,我真以为它给我发了一块煤(其实是背景太黑)
不光光影没了,折射没了,透明感也没有。
唯独除了形状,还能依稀跟钻石对上。
再跟Gemini 3 Pro(右)和 Claude 4.6 Sonnet(左) 的钻石生成结果做了下对比。
对比完之后,我发现GPT 5.4这颗钻石,
真的是返璞归真,直接归成碳了。
然后是今天被吹到最多的一个功能:电脑操控。
我看到很多人转发的评测,都说5.4几乎可以操作你电脑上的一切。
那我也来试试。
我想用 Codex 走 GPT-5.4,但是不知为何,我的最新版 Codex cli 就是没有 5.4,只有 5.3 codex,那就姑且一用。
再实测之前,我搜了一下它操控电脑的底层逻辑,就是靠截图。
截一张,分析一张,再截一张,再分析一张。
https://developers.openai.com/api/docs/guides/tools-computer-use/
这意味着它看到的永远是上一秒的屏幕,不是这一秒的。
我也自己跑了几轮 Codex 测试。
结论是这样的:系统原生应用,它确实能用。
比如日历,它可以直接调用系统级别的接口,操控流程相对顺畅,确实有点东西。
可一旦换成第三方应用,比如微信,问题就开始出现。
我先让它给联系人发消息,它确实能搜到人,也能发出去。
测试的时候让它给 JackCui 发了条:你在干什么,执行成功。
但bug也有。
就是联系人名字里,如果带了个横杠,就简单一个横杠,直接给它整迷糊了。
本来是要发消息的操作,直接变成了搜索。
有时候发的消息也会错误,时不时还会变成了脸滚键盘。
所以我目前的感受是,系统原生应用支持还可以。
越复杂的指令,操作越容易翻车。
当然,如果有小伙伴自己也测试了,也欢迎来评论区聊聊实际效果。
到底能不能达到传说中成为 AI 员工的程度?
最后一个问题,token 价格。
GPT-5.4,比5.2更贵了!
具体贵多少如图所示:
说实话,看完价格之后,我已经失去续费 gpt-5.4-pro的欲望了。
我理解大公司要盈利,我理解训练成本高,我理解他们要维持护城河。
但每次看到token的单价,我还是那句:这帮人是真把token当金子在卖。
所以说真的。
DeepSeek V4 到底什么时候来?
所以甭管别人吹 GPT-5.4 有多强。
我体验下来,一些地方确实能达到预期,但有一些地方就...
好了,本期的内容就是这么多~
如果这篇文章对你有所启发,欢迎点赞、在看,转发三连。星标⭐账号,还可以第一时间收到推送,感谢你的收看,我们下期再见~
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2026-03-06
GPT-5.4「原生操控电脑」实测封神!OpenClaw天选模型来了
2026-03-06
刚刚!小米手机可以养小龙虾🦞了
2026-03-06
GPT-5.4发布,AI的最强之争已经结束了!
2026-03-06
Claude Code 工具调用上下文爆炸?新版占用归零
2026-03-06
OpenRouter,AI时代的印钞机
2026-03-06
AI越来越牛马了,GPT-5.4 发布!可以操作电脑
2026-03-06
谷歌NotebookLM深夜大更新!直接把PPT变成电影,效果太炸裂
2026-03-06
OpenAI 深夜大更新,全世界最好的模型又回来了?!
2026-01-24
2026-01-10
2026-01-01
2026-01-26
2025-12-09
2025-12-21
2026-01-09
2026-01-09
2025-12-30
2026-01-27
2026-03-03
2026-03-01
2026-02-27
2026-02-27
2026-02-26
2026-02-24
2026-02-24
2026-02-14