微信扫码
添加专属顾问
我要投稿
GLM4.5实测表现不及预期,UI设计和功能实现仍有差距,建议观望等待优化。 核心内容: 1. GLM4.5在UI设计细节上落后于Claude4和DeepSeek R1 2. 功能丰富度和视觉呈现存在明显不足 3. 卡片生成能力虽可但仍有提升空间
7月29号下午6点,智谱开源了GLM-4.5,不得不说给国产之光们点赞,目前国内模型慢慢要走上及格线的有:
DeepSeek R1 0528、Doubao 1.6 Thinking、Kimi K2、Qwen 3 Coder,遗憾的是,还没有一个是真正可以用来Vibe Coding的。
根据智谱发布的图片,Coding分数相当高,黄叔实测下来,远远没有到接近Claude 4的水准,大家可以再等等。
今天我们快速过一下,从UI设计,卡片生成,再到Vibe Coding几部分来过一下,最后说说黄叔的感受。
在5月28日黄叔评测R1 0528的文章里,详细的做了前端审美和Claude 4的对比,坦白说,两者已经在同一水平线了,实测下来,GLM 4.5还没有到R1的水准,细节大家往下看:
以下所有对比图中,左1都是GLM-4.5生成的效果,右侧为Claude4和DeepSeek R1
首先是一个待办APP首页的对比;
GLM-4.5完成了必要的信息架构设计,标签、优先级、完成状态等细节也都有体现,符合基本的设计规范,但在细节处的视觉设计中与Claude4和DeepSeek R1依然存在差距,例如没有在待办列表中同时体现出待办的已完成/未完成状态。底部tab未选中的图表颜色过重。
下图指定的音乐播放页面的对比:
GLM-4.5在音乐播放页面直接显示了播放列表,但没有放置更多的常见功能,在功能丰富度上稍逊一筹,在整体的配色设计上(例如歌曲图片卡片部分)与Claude4和DeepSeek R1差距较大。
下图是知识付费APP的首页,GLM-4.5的设计图更像是可自适应的网页,不像移动端APP,在首页的最重要位置放置了意义不大的欢迎词,下方推荐课程部分的排版也较另两者差。
再来一个健身APP的首页,GLM-4.5在文字颜色与背景颜色的搭配上存在问题导致文字很不清晰,Claude4.0左侧的图片没有成功加载出来,功能入口只使用了icon,相对于右侧使用图片的形式略差一些。3者整体持平。
最后是一组社交APP对话页面,虽然发送按钮显示错误,但整体水平基本持平:
下面这张是用黄叔自己的文章《2个月涨粉10000+,多篇文章阅读过万!黄叔是如何在AI浪潮中找到清晰方向的?》内容生成的一张卡片,提示词使用了杂志风格。
可以看到虽然三个模型对杂志风的理解稍有不同,但设计输出的质量都非常不错,这里仔细评判的话,GLM-4.5虽然文字显示范围有些问题,但整体可以说处于同一水平线。因为提示词中明显说明了使用偏棕色的背景色,Claude4.0没有遵从。就像是老板给员工交代了一个任务,虽然员工完成的不错但和老板想要的不一样。
继续换个风格看一下,这次我们用日本平面设计风格:
在生成这两张卡片时,提示词中设计风格部分只使用了非常简单的“日本平面设计风格”。三个模型在推理过程中,都比较准确的理解了日式风格。
下面是一个美漫风格的卡片:
这三张卡片对比下来GLM-4.5明显不太符合美漫风格,常见的圆点点缀、爆炸特效、大幅度重投影都没有使用。Claude4和DeepSeek R1则对美漫风格的理解更胜一筹。
最后是一张二次元科幻风的卡片对比:
这个案例Claude4.0在颜色搭配和光影效果上做的更好一些,DSR1相对简单了一些,使用单色还是比较难体现出科幻的氛围和光影感。GLM-4.5 则给出了一些惊喜,我们看到的彩虹斜线实际上是一个动态的效果,带有旋转变色的特效。
整体来看,GLM 4.5 稍差一些,审美明显弱,整个卡片的规整度也松散,但算是比较接近了。
测完前端视觉实现上的基础能力后,我们来看下更多Coding的能力:
在使用GLM开发网页小游戏时遇到了一些问题,俄罗斯方块游戏在基本功能是齐全的,下一个方块、暂停继续、重新开启、元素旋转等都正常使用,但当触发消除时网页会直接卡死。
再次尝试则成功了,包括方块落到最下面一行时快速左右切换插入空隙的操作也是OK的:
又测试了一下开发类似微信跳一跳的网页版小游戏,角色、平台、鼠标点按时间控制跳跃距离等都可以正常使用,但无法控制方向。
很勉强及格的水准,毕竟俄罗斯方块这种基本上是Coding入门水准。
使用Chatwise第一次生成主体网页,第二次加入GLM4.5 API Key:
继续开发一个朋友圈截图上传后分析异性的小功能,这个包含有简单的后端API处理,但不管是接入了Claude Code,用OpenRouter接入TraeCN 2.0,还是在Chat.z.ai上开启全栈模式(超过40分钟没有跑出来),都不能正常跑通:
这是Claude 4在Trae、Cursor、Kiro、CodyBuddy上面全部可以一次跑通,5分钟里必出结果的Case。
并且我观察在TraeCN里的Chat内容,出现了多次不应该出现的问题:
目前看,GLM 4.5足够便宜,吞吐Token的速度也比较快,但用来做Vibe Coding肯定还不及格,有这么几个严重缺陷:
当然,黄叔也用Chatwise接入GLM4.5测了不少博主们的Case,如果只是单纯前端部分,还是挺好的:
我的感觉是接近可用了,相信国内几个Coding模型再升级1-2次后,会超过Claude 3.7真正可用,因为Vibe Coding大家在前端都开始做的差不多后,会逐渐进入深水区后端,而目前国内大模型在这一块都还很勉强。
所以,黄叔充了50元爽玩月卡,还是感觉冲动了:
因为,现在Claude 4仍然是硬通货。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2025-07-29
智谱放大,源神又启动啦
2025-07-29
GLM-4.5 发布,六大主流模型混战测评,谁能一键生成“ 真·可用 ”的应用?
2025-07-29
Coze既可开源也能本地部署,n8n和coze哪家强?
2025-07-29
开源版 Coze 实测,搭建 Agent,Vibe Coding 都多余了!
2025-07-29
开源 Ai Agent 智能体,能用、能改、能学,美滋滋!
2025-07-29
一手实测GLM4.5满血版Claude Code,可算有将推理/代码/Agent融为一体的大模型了!
2025-07-29
PPIO上线智谱GLM-4.5:面向推理、代码与智能体的开源SOTA模型
2025-07-29
GLM-4.5详测,这次智谱真的重回巅峰了
2025-07-23
2025-06-17
2025-06-17
2025-07-23
2025-07-14
2025-07-12
2025-05-29
2025-05-12
2025-05-14
2025-05-20
2025-07-29
2025-07-29
2025-07-28
2025-07-28
2025-07-27
2025-07-27
2025-07-27
2025-07-26