支持私有化部署
AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


浪费我一上午!你们真的实测了 GLM-4.5 吗?

发布日期:2025-08-02 15:51:11 浏览次数: 1517
作者:孟健AI编程

微信搜一搜,关注“孟健AI编程”

推荐语

GLM-4.5宣传很美好,实测却让人失望,跑分与真实表现差距明显。

核心内容:
1. GLM-4.5官方跑分数据与实际使用体验的对比
2. PPT生成功能从惊艳到平庸的测试结果
3. 编程实测中暴露的低级错误和性能问题

杨芳贤
53AI创始人/腾讯云(TVP)最具价值专家

大家好,我是孟健。

昨晚,智谱 AI 突然发布了 GLM-4.5,号称"全球第二、国产第一、开源第一"。

看到这个宣传,我内心是激动的——又一个国内的黑马模型要出现了?

于是我第一时间测试,想看看这个"国产之光"到底有多强。

结果...让我有点失望。

跑分很美好,现实很骨感

先说说官方的跑分数据,确实很亮眼:

看起来很厉害对吧?355B 参数,32B 激活参数,MoE 架构,128K 上下文...

但是,跑分和实际使用完全是两回事。

PPT 生成:从惊艳到平庸

智谱之前的实验模型做 PPT 确实很强,我对 4.5 抱有很高期待。

结果第一个测试:

嗯,结果怎么说呢?我个人认为比原来平庸了。

生成的 PPT 千篇一律都是"图左文右"的布局,毫无创意可言。

而且在测试过程中频繁遇到限速错误,不知道是访问人数过多导致的模型降级,还是服务器扛不住压力。

对比一下之前模型生成的效果:

感觉差距有点明显。

Claude Code 集成:配置简单,体验糟糕

既然官方说 GLM-4.5 在编程方面表现优秀,我决定在 Claude Code 中测试一下。

配置过程确实很简单,首先去控制台申请 API Key:

https://z.ai/manage-apikey/apikey-list

然后设置以下的环境变量:

export ANTHROPIC_BASE_URL=https://api.z.ai/api/anthropic

export ANTHROPIC_AUTH_TOKEN={YOUR_API_KEY}

输入 claude 指令进入,确保环境变量被加载到了:

配置完成后,我使用 Cursor 不让用了?我花 3 天测试 4 个平替工具(附详细测评)这篇文章的同款提示词来实测一下:

@ai-daily-generator

帮我换一个数据源:https://news.aibase.com/zh/news

你可以用playwright去看看它的页面结构和翻页接口

编程实测:智商堪忧的表现

刚开始运行的时候,我还觉得挺好的,一切正常,包括调用 playwright MCP 都比较好:

然而,后面的处理越来越不对劲,我感觉在浪费 token 了。

第一个问题:变量未替换的低级错误

这种基础的变量替换都能出错,让我对模型的代码理解能力产生了质疑。

第二个问题:API 调试来回折腾

第三个问题:测试环节反复纠结

我真的感觉到它来回折腾,浪费大量 token。

第四个问题:虚假的"修复完成"

超时几次后,它直接告诉我修复完了,但实际上问题根本没解决。

然后,我让它自己发现问题,它折腾了好久,最后告诉我,有可能是调试代码导致的。

我:???

最终结果:直接降级方案

直接给我把方案降级了,连基本功能都不实现了。

于是,我默默地关掉了它。

跑分与实测的巨大鸿沟

这能跟 claude 比?我觉得跟 K2 都差了十万八千里!

官方还专门做了"Real-World Evaluation",在 52 个编程任务上与 Claude 4 Sonnet、Kimi-K2 对比,声称"largely comparable experience"。

但我的实测体验告诉我:差距不是一点半点。

浪费我一早上的时间。

我必须说几句扎心的话:

国产 AI 确实在进步,这点我承认。但是,进步不等于可以吹牛。

看了几个公众号,看得我热血沸腾。

但用了一上午,我只想说: 醒醒吧!

当然,我不知道是不是评测的时候人太多了,导致它模型降级了还是什么。

如果你有不同的感受,欢迎交流~。

互动话题:

  • 你测试过 GLM-4.5 吗?体验如何?

  • 你觉得国产 AI 还需要多久才能真正追上国外?

  • 对于 AI 产品,你最看重什么?跑分还是实际体验?

欢迎在评论区分享你的观点,让我们一起推动国产 AI 的真正进步!


往期精选

凯文·凯利预测 AI 时代 2049:第一个 10 亿美元超级个体即将诞生

独家!腾讯内测 AI 编程工具曝光,这次真的不错!(文末限量邀请码)

Cursor 不让用了?我花 3 天测试 4 个平替工具(附详细测评)

花 3 块钱替代 Cursor?我试了 Kimi+cc,有点意思

退订了 Cursor Ultra,我真的疯了!这就是被卡脖子的感觉吗?

Agent 开发的 12-Factor 军规来了!" data-itemshowtype="0" linktype="text" data-linktype="2">重磅!硅谷 AI Agent 开发的 12-Factor 军规来了!

马斯克又画饼了?Grok4 跑分第一,实测翻车!

Cursor 1.2 来了!打工人的 AI 编程助手,终于学会了"排队办事"

AI Agent 凭什么火?看懂 60 年软件演进史,你就明白了

Cursor 读不了 PDF、PPT?装了这个 MCP,瞬间变身万能阅读器!

53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询