支持私有化部署
AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


体验了一天,我对 GPT-5 失望了!

发布日期:2025-08-08 16:43:32 浏览次数: 1520
作者:孟健AI编程

微信搜一搜,关注“孟健AI编程”

推荐语

GPT-5实测体验:期待中的AI霸主为何让人失望?

核心内容:
1. GPT-5官方数据亮眼但实测表现落差
2. 与Claude在工具调用和中文支持上的对比
3. 当前版本存在的三大使用痛点分析

杨芳贤
53AI创始人/腾讯云(TVP)最具价值专家

大家好,我是孟健。

昨天晚上,AI 圈发生了大事件——GPT-5 来了!

OpenAI 正式发布了 GPT-5,这是他们迄今为止在编码和智能体任务方面表现最佳的模型。

官方数据显示,GPT-5 在 SWE-bench Verified 测试中得分 74.9%,在 Aider polyglot 测试中得分 88%,都达到了行业领先水平。

理论上,它是目前最强的模型,大版本的更新,整个科技圈都在沸腾。

我看到 Cursor 第一时间推出了 GPT-5 支持,且赠送免费积分,心想这下可以见证历史了。

于是,我今天就赶紧对它进行了一个实测。

结果...让我有点失望。

Cursor 的 GPT-5 支持

直接更新 Cursor 的最新版本,就可以看到 GPT-5 的模型选项了:

目前 Cursor 支持的版本是 272k 的上下文,按照 Cursor 的说法是"launch week"免费试用,所以大家赶紧去试试,目前速度也很快。

不过,依然对国内有限制,需要海外代理才能正常访问。

Augment 的意外惊喜

今天,我又发现 Augment 竟然也支持模型选择了!

这打破了 Augment 之前一直黑盒模型的作风,看起来官方也在对 GPT-5 进行实际的验证和评测:

这个变化很有意思,说明连 Augment 这样的专业工具都在重新审视模型选择的重要性。

官方的乐观评价

Cursor 官方其实也给出了自己的实测,他们应该是之前就已经拿到了内部体验资格:

整体对 GPT-5 的评价不错,看起来是超越 Claude,成为当前的 SOTA 了。

但是,实际体验真的如此吗?

我的真实体验:从期待到失望

其实一开始,表现的还挺不错的。

先让它修复一个报错问题:

加一些功能,都能精准的加上:

这时候我还挺兴奋的,心想 GPT-5 果然名不虚传。

但是给了它一个比较复杂一点的插件问题,折腾了 1 个小时,都没有搞定:

这时候我开始怀疑了,是不是我的问题描述不够清楚?

对比测试:GPT-5 vs Claude

接着,我又用 Augment 测试了同样的提示词。

GPT-5 的表现:

GPT-5 会长篇大论地进行分析,它的返回结果让人感到头疼,很偏理论:

Claude 的表现:

而切换成 Claude,明显感觉不一样,不会长篇大论的输出理论,而是真实调用工具去尝试解决问题:

最后,Claude 帮我解决了问题,我再切回到 GPT-5,结果它又给我改坏了...

这种对比太明显了,一个在纸上谈兵,一个在真刀真枪地干活。

三个明显的问题

通过一天的折腾,我发现 GPT-5 有三个明显的问题:

1. 中文支持不够好

GPT-5 总是回复英文,即使我用中文提问,它也经常用英文回答。

这对于中文用户来说,体验很不友好。Claude 在这方面就做得好很多,能够很自然地用中文交流。

2. 工具调用能力不足

GPT-5 对 MCP(Model Context Protocol)支持不好,不能很好地调用 tools。

而 Claude 第一时间就会去调用 tools 解决问题,这种差异在实际编程场景中非常明显。

3. 过于理论化

GPT-5 更偏理论,总是输出一大段分析,Claude 更偏实际,能够真正解决问题,少说多做。

另外,早上 GPT-5 的速度还挺快,等到了中午之后,应该是用的人多了,GPT-5 开始明显变慢了。

这种体验的不稳定性,对于需要高效工作的开发者来说,是很致命的。

我的思考:AI 的人性化很重要

感觉起来,GPT-5 还是太"AI"了,没有 Claude 的人性化。

什么是人性化?

就是能够理解你真正想要什么,而不是给你一堆看起来很专业但实际没用的分析。

就是能够直接动手解决问题,而不是在那里长篇大论地讲道理。

就是能够用你习惯的语言和方式与你交流,而不是一副高高在上的学术腔调。

在编程这个实用性极强的领域,我更需要的是一个能干活的助手,而不是一个只会分析的顾问。

有点失望了

整体而言,我对 GPT-5 还是比较失望的。

不是说它不强,而是它的强没有体现在我最需要的地方。

也许 GPT-5 在某些学术测试或者理论分析上确实更强,但在实际的编程工作中,至少在我的体验里,它不如 Claude 实用。

当然,这只是我个人一天的体验,可能不够全面。


如果你也体验了 GPT-5,欢迎在评论区分享你的感受:

  • 你觉得 GPT-5 比 Claude 强吗?

  • 在什么场景下你觉得 GPT-5 表现更好?

  • 你有没有遇到类似的问题?

让我们一起讨论,也许能帮助彼此更好地使用这些 AI 工具。


精选文章

出息了,我竟然和大佬们同框了!

Claude Opus 4.1 实测:最强模型,但我只聊了 3 轮就被封了!

Cursor,我卸载了!

浪费我一上午!你们真的实测了 GLM-4.5 吗?

凯文·凯利预测 AI 时代 2049:第一个 10 亿美元超级个体即将诞生

独家!腾讯内测 AI 编程工具曝光,这次真的不错!(文末限量邀请码)

花 3 块钱替代 Cursor?我试了 Kimi+cc,有点意思

马斯克又画饼了?Grok4 跑分第一,实测翻车!

Agent 开发的 12-Factor 军规来了!" data-itemshowtype="0" linktype="text" data-linktype="2">重磅!硅谷 AI Agent 开发的 12-Factor 军规来了!

53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询