微信扫码
添加专属顾问
我要投稿
GLM-4.5宣传很美好,实测却让人失望,跑分与真实表现差距明显。核心内容: 1. GLM-4.5官方跑分数据与实际使用体验的对比 2. PPT生成功能从惊艳到平庸的测试结果 3. 编程实测中暴露的低级错误和性能问题
大家好,我是孟健。
昨晚,智谱 AI 突然发布了 GLM-4.5,号称"全球第二、国产第一、开源第一"。
看到这个宣传,我内心是激动的——又一个国内的黑马模型要出现了?
于是我第一时间测试,想看看这个"国产之光"到底有多强。
结果...让我有点失望。
先说说官方的跑分数据,确实很亮眼:
看起来很厉害对吧?355B 参数,32B 激活参数,MoE 架构,128K 上下文...
但是,跑分和实际使用完全是两回事。
智谱之前的实验模型做 PPT 确实很强,我对 4.5 抱有很高期待。
结果第一个测试:
嗯,结果怎么说呢?我个人认为比原来平庸了。
生成的 PPT 千篇一律都是"图左文右"的布局,毫无创意可言。
而且在测试过程中频繁遇到限速错误,不知道是访问人数过多导致的模型降级,还是服务器扛不住压力。
对比一下之前模型生成的效果:
感觉差距有点明显。
既然官方说 GLM-4.5 在编程方面表现优秀,我决定在 Claude Code 中测试一下。
配置过程确实很简单,首先去控制台申请 API Key:
https://z.ai/manage-apikey/apikey-list
然后设置以下的环境变量:
export ANTHROPIC_BASE_URL=https://api.z.ai/api/anthropic
export ANTHROPIC_AUTH_TOKEN={YOUR_API_KEY}
输入 claude 指令进入,确保环境变量被加载到了:
配置完成后,我使用 Cursor 不让用了?我花 3 天测试 4 个平替工具(附详细测评)这篇文章的同款提示词来实测一下:
@ai-daily-generator
帮我换一个数据源:https://news.aibase.com/zh/news
你可以用playwright去看看它的页面结构和翻页接口
刚开始运行的时候,我还觉得挺好的,一切正常,包括调用 playwright MCP 都比较好:
然而,后面的处理越来越不对劲,我感觉在浪费 token 了。
第一个问题:变量未替换的低级错误
这种基础的变量替换都能出错,让我对模型的代码理解能力产生了质疑。
第二个问题:API 调试来回折腾
第三个问题:测试环节反复纠结
我真的感觉到它来回折腾,浪费大量 token。
第四个问题:虚假的"修复完成"
超时几次后,它直接告诉我修复完了,但实际上问题根本没解决。
然后,我让它自己发现问题,它折腾了好久,最后告诉我,有可能是调试代码导致的。
我:???
最终结果:直接降级方案
直接给我把方案降级了,连基本功能都不实现了。
于是,我默默地关掉了它。
这能跟 claude 比?我觉得跟 K2 都差了十万八千里!
官方还专门做了"Real-World Evaluation",在 52 个编程任务上与 Claude 4 Sonnet、Kimi-K2 对比,声称"largely comparable experience"。
但我的实测体验告诉我:差距不是一点半点。
浪费我一早上的时间。
我必须说几句扎心的话:
国产 AI 确实在进步,这点我承认。但是,进步不等于可以吹牛。
看了几个公众号,看得我热血沸腾。
但用了一上午,我只想说: 醒醒吧!
当然,我不知道是不是评测的时候人太多了,导致它模型降级了还是什么。
如果你有不同的感受,欢迎交流~。
互动话题:
你测试过 GLM-4.5 吗?体验如何?
你觉得国产 AI 还需要多久才能真正追上国外?
对于 AI 产品,你最看重什么?跑分还是实际体验?
欢迎在评论区分享你的观点,让我们一起推动国产 AI 的真正进步!
往期精选
凯文·凯利预测 AI 时代 2049:第一个 10 亿美元超级个体即将诞生
独家!腾讯内测 AI 编程工具曝光,这次真的不错!(文末限量邀请码)
Cursor 不让用了?我花 3 天测试 4 个平替工具(附详细测评)
花 3 块钱替代 Cursor?我试了 Kimi+cc,有点意思
退订了 Cursor Ultra,我真的疯了!这就是被卡脖子的感觉吗?
Agent 开发的 12-Factor 军规来了!" data-itemshowtype="0" linktype="text" data-linktype="2">重磅!硅谷 AI Agent 开发的 12-Factor 军规来了!
Cursor 1.2 来了!打工人的 AI 编程助手,终于学会了"排队办事"
AI Agent 凭什么火?看懂 60 年软件演进史,你就明白了
Cursor 读不了 PDF、PPT?装了这个 MCP,瞬间变身万能阅读器!
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2025-08-02
扣子要做 Agent 时代的 Infra,附开源版搭建全流程
2025-08-02
不再纠结,Dify VS 开源Coze 真实对比,一文看懂差异与选择
2025-08-02
用开源版Coze,做个市场调研分析助手
2025-08-02
扣子coze开源了,又仿佛没开,像素级对比开源版扣子到底少了啥?
2025-08-02
CodeBuddy解读开源项目源代码与框架
2025-08-02
牛掰!一键云部属开源 Coze Studio,让企业服务智能体24小时不停歇
2025-08-02
谈一下Coze与JoyAgent开源
2025-08-02
如何将硅基流动接入到n8n 工作流,白嫖DeepSeek、Qwen、智谱等AI大模型
2025-07-23
2025-06-17
2025-06-17
2025-07-23
2025-07-14
2025-07-27
2025-07-12
2025-05-29
2025-07-29
2025-05-12
2025-08-02
2025-08-02
2025-07-31
2025-07-31
2025-07-31
2025-07-30
2025-07-30
2025-07-30