我要投稿

浪费我一上午！你们真的实测了 GLM-4.5 吗？

发布日期：2025-08-02 15:51:11 浏览次数： 2383

作者：孟健AI编程

微信搜一搜，关注“孟健AI编程”

昨晚，智谱 AI 突然发布了 GLM-4.5，号称"全球第二、国产第一、开源第一"。

看到这个宣传，我内心是激动的——又一个国内的黑马模型要出现了？

于是我第一时间测试，想看看这个"国产之光"到底有多强。

结果...让我有点失望。

跑分很美好，现实很骨感

先说说官方的跑分数据，确实很亮眼：

看起来很厉害对吧？355B 参数，32B 激活参数，MoE 架构，128K 上下文...

但是，跑分和实际使用完全是两回事。

PPT 生成：从惊艳到平庸

智谱之前的实验模型做 PPT 确实很强，我对 4.5 抱有很高期待。

结果第一个测试：

嗯，结果怎么说呢？我个人认为比原来平庸了。

生成的 PPT 千篇一律都是"图左文右"的布局，毫无创意可言。

而且在测试过程中频繁遇到限速错误，不知道是访问人数过多导致的模型降级，还是服务器扛不住压力。

对比一下之前模型生成的效果：

感觉差距有点明显。

Claude Code 集成：配置简单，体验糟糕

既然官方说 GLM-4.5 在编程方面表现优秀，我决定在 Claude Code 中测试一下。

配置过程确实很简单，首先去控制台申请 API Key：

https://z.ai/manage-apikey/apikey-list

然后设置以下的环境变量：

export ANTHROPIC_BASE_URL=https://api.z.ai/api/anthropic

export ANTHROPIC_AUTH_TOKEN={YOUR_API_KEY}

输入 claude 指令进入，确保环境变量被加载到了：

配置完成后，我使用 Cursor 不让用了？我花 3 天测试 4 个平替工具（附详细测评）这篇文章的同款提示词来实测一下：

@ai-daily-generator

帮我换一个数据源：https://news.aibase.com/zh/news

你可以用playwright去看看它的页面结构和翻页接口

编程实测：智商堪忧的表现

刚开始运行的时候，我还觉得挺好的，一切正常，包括调用 playwright MCP 都比较好：

然而，后面的处理越来越不对劲，我感觉在浪费 token 了。

第一个问题：变量未替换的低级错误

这种基础的变量替换都能出错，让我对模型的代码理解能力产生了质疑。

第二个问题：API 调试来回折腾

第三个问题：测试环节反复纠结

我真的感觉到它来回折腾，浪费大量 token。

第四个问题：虚假的"修复完成"

超时几次后，它直接告诉我修复完了，但实际上问题根本没解决。

然后，我让它自己发现问题，它折腾了好久，最后告诉我，有可能是调试代码导致的。

我：？？？

最终结果：直接降级方案

直接给我把方案降级了，连基本功能都不实现了。

于是，我默默地关掉了它。

跑分与实测的巨大鸿沟

这能跟 claude 比？我觉得跟 K2 都差了十万八千里！

官方还专门做了"Real-World Evaluation"，在 52 个编程任务上与 Claude 4 Sonnet、Kimi-K2 对比，声称"largely comparable experience"。

但我的实测体验告诉我：差距不是一点半点。

浪费我一早上的时间。

我必须说几句扎心的话：

国产 AI 确实在进步，这点我承认。但是，进步不等于可以吹牛。

看了几个公众号，看得我热血沸腾。

但用了一上午，我只想说： 醒醒吧！

当然，我不知道是不是评测的时候人太多了，导致它模型降级了还是什么。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2026-06-18

开源中医 Skill：把倪海厦课程变成可检索知识库

2026-06-18

Gemma 4 QAT 模型现已推出: 支持日常端侧设备与消费级 GPU 本地流畅运行

2026-06-17

GLM-5.2 技术解读：智谱百万上下文的新一代旗舰模型

2026-06-16

26.1%的AI编程技能有漏洞：NVIDIA开源 SkillSpector 能扫出什么？

2026-06-12

当 AI Coding Agent 成为基础设施：我们为什么要开源 LoongSuite Pilot

2026-06-09

CPU 跑得比 Whisper GPU还快的开源语音识别，本地部署

2026-06-09

别再问我什么是爱马仕！

2026-06-09

Open Design：开源界的 Claude Design 替代品，61.7K Star，21+ Agent 都能跑，本地第一

联系获取

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

Hermes Agent 出来了，聊聊它凭什么跟 OpenClaw 掰手腕

2026-03-30

很多人突然不玩小龙虾而用Hermes Agent了。我替你试了，跟小龙虾到底有啥不同？

2026-04-09

Google Gemma 4 开源｜全面解读

2026-04-03

字节跳动开源 DeerFlow 2.0：下一代超级 Agent 引擎，一键搞定复杂工作流！

2026-03-23

震惊！刚刚，Anthropic掀了桌子：OpenClaude横空出世，大模型闭源时代彻底终结？

2026-04-01

刚刚，Claude Code开源了！51万行代码，全网狂欢

2026-03-31

龙虾绝配：Qwen 3.5 27B！跑在家里，成本为 0

2026-03-30

Ollama 本地部署 Gemma 4 完全指南

2026-04-18

Google Gemini CLI 完整使用指南

2026-04-18

CoPaw深度解析：源码架构和功能实践

2026-03-31

大家都在问

26.1%的AI编程技能有漏洞：NVIDIA开源 SkillSpector 能扫出什么？

2026-06-16

企业级 AI Agent 为什么集体转向“基座 + Skills”？

2026-05-30

Hermes Agent 深度解析：为什么它能“越用越懂你”？

2026-05-16

百度把Nano Banana塞进4090，疯了？

2026-04-22

Kimi K2.6 开源了！还附送了 300 个 Agent 员工？

2026-04-21

Hermes 凭什么两个月接棒 OpenClaw？

2026-04-15

很多人突然不玩小龙虾而用Hermes Agent了。我替你试了，跟小龙虾到底有啥不同？

2026-04-09

震惊！刚刚，Anthropic掀了桌子：OpenClaude横空出世，大模型闭源时代彻底终结？

2026-04-01

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS Skill 提示词技巧 AI+电商 AI面试数字员工 ChatBI AI知识库开源大模型智能营销智能硬件 FDE AI+医疗 MaxKB Palantir Glean Openclaw