微信扫码
添加专属顾问
我要投稿
国产开源模型GLM-5震撼发布,性能直逼Claude Opus 4.5,为国内开发者带来顶级AI编码体验。核心内容: 1. GLM-5的技术突破与性能表现 2. 与GPT-5.3-codex和Claude Opus 4.5的对比分析 3. 国内开发者使用GLM-5的实用建议与优势
前几天,在GPT-5.3-codex和Opus 4.6中门对狙的文章里,我在评论区里评论说,要是DeepSeek能赶上Opus 4.5,我高低得给它磕两个。
我是没想到,我现在可能得给智谱磕两个了。
非常坦诚的讲,在我日常开发过程中,我可能还是会选择GPT-5.3-codex + codex的组合,但是,我也深刻的清楚,并不是所有人,都有条件去买ChatGPT的会员的。
那如果你用不了GPT-5.3-codex的话,那我无比真诚的建议你,不用犹豫,就用GLM-5就行,这就是国内,你现在能用上的,最好、最棒、性价比最高的大模型。
Claude Code + GLM-5,是你无需魔法,国内可用,最低门槛体验AI Coding魅力的组合。
先老规矩,看下跑分和性能。
首先,GLM-5从355B(32B激活)扩展到744B参数(40B激活),参数量大了一倍,智能提升确实挺多,而且成本没有加特别多。
跑分上,目前在Artificial Analysis上仅次于那两个大爹,开源第1。
然后整体能力上。
相较于GLM-4.7,GLM-5全线能力基本都有了大幅提升,而且逼近Opus 4.5。
有一个比较有特点的,就是BrowseComp基准,这个我之前也说过,测的是Agent在网上搜索信息的能力,GLM-5得分75.9,直接超第二名普通的GPT-5.2有10个点,这个已经非常强了。
而另外两个最顶级的模型没放在里面,一个是GPT-5.2 Pro得分是77.9,Opus 4.6得分是84,GLM-5其实已经逼近最一线的水平了,能跟GPT-5.2 Pro打个平手,这事本身就挺强的了。
然后其他的,比如现实场景下改仓库代码的测试机SWE-bench,终端环境中agent能力的基准Terminal-Bench 2.0,agent工具使用的τ²-Bench,还有测试模型调用MCP能力的MCP-Atlas基准上,基本比Opus都只差那么临门一脚了。
说实话,一个国产模型,还开源出去,能到这个水平,已经非常非常让人自豪了。
同时在我看好的系统工程能力、长任务能力,在跑分上也能得到印证。
比如下面图上的Long-horizon基准,也就是长链条复杂任务,就能充分体现模型自主进行Agent长程多步规划和执行的能力。
这个跑分看下来就很清晰了,也和我实测下来的感受一致,在真正需要做大开发的时候,它的长程任务上,确实是对标Opus 4.5的存在。
GLM-5的上下文窗口和GLM-4.7一样,目前还是200k的上下文窗口,输出是128K。
不过GLM-5有一个非常离谱的一点,就是这玩意我试下来,非常的省token,就是干活的感觉,非常精准,跟GPT-5.3-codex有的一拼,这点有多重要用过Opus 4.6的都懂,那上下文和消耗量,简直了。
然后就是价格上,一个是API价格,真的,国产模型,这价格便宜的让人心疼。
Opus 4.5和4.6,都是$5/$25每百万token(输入/输出)。
而GLM-5大概只有Claude的七分之一。
很香,真的香。
另一方面那自然是不得不提的Coding Plan了,也是现在玩Vibe Coding的主流用法,基本都是买包月套餐,对标Claude Max和ChatGPT Pro的。
价格是Claude Max套餐的2/3,Token额度是他们的3倍。
甚至因为卖的过于火爆,算力不够,前两个套餐额度,直接被抢空了。。。
没错,一个包月套餐,被抢空了。。。
这个太离谱了。
白天的时候大家可以蹲一蹲,网址在此:
https://bigmodel.cn/glm-coding
当你有了GLM-5的权限之后,想用的话,我最推荐的还是在Claude Code里面用。
因为Claude Code就是目前确实最通用的Coding Agent产品,Codex是单纯的例外,主要跟GPT适配的太好。
而在Claude code里接入GLM-5挺简单的。
这一点智谱做的很好,他们做了一个Coding Tool Helper工具就是可以快速将你的GLM编码套餐加载到你使用的编码工具中。
直接打开终端,然后输入:
# 进入命令行界面,执行如下运行 Coding Tool Helpernpx @z_ai/coding-helper
你就正常登录。
目前支持的编码工具 Claude Code、OpenCode、Crush、Factory Droid。
跟着配置就好,配置好以后,我们运行Claude Code。
你就可以使用GLM-5了。
我也做了几个case,给大家直观的感受一下,GLM-5的能力。
前天我拿到GLM-5的资格的时候,正好有个需求要开发,就是一个全平台分发文章的需求。
做自媒体的朋友们应该知道,文章写完不是真正的结束,而是刚刚开始。
我一般写完微信公众号文章需要把文章同步分发到其他平台,这是个很大的工作量,而且有的编辑器还不一样,会出现乱码,文本格式丢失问题,我真。。。
之前是用一个开源工具自己改的,但是其实没有那么好用,所以最近其实一直想自己开发一个。
所以,我当时就想,不如用GLM-5 Coding一个这样的全平台内容同步分发的这么个小产品吧。
开发完以后,发现效果居然还不错。
就是下面图中的这样,大概的功能就是把我微信公众号的文章链接放进去,然后点击想要同步的平台,就可以同步过去。
当时开发的时候其实Prompt给的巨简单。
开发一个全平台内容分发Chrome 扩展,实现:点击插件后进入内容分发页面(独立页面,非小 popup)输入微信公众号链接,自动提取标题、封面、正文(保留格式)右侧大尺寸富文本编辑器展示和编辑内容底部平台复选列表(小红书、知乎等)点击同步后,打开目标平台发布页面,自动填充内容
当时给过去以后,GLM-5的体感上,其实就比之前GLM-4.7强很多了。
按惯例,他先提供给我了一些关键设计让我去选择。
我也秉持着先开发一个最小MVP的原则去的。
所以选的都比较谨慎。
接着GLM-5就给了超详细的规划。
速度不慢,很快就搞定了。
总体的完成度和实用性很好,不过因为最开始最小MVP的原则,分发的平台有点少,后续我直接让他添加其他的平台,两轮就完成了。
整体其实都还可以,但是在使用的时候,遇到了一个BUG。
就是我放入公众号链接后,让他提取标题、封面、正文,他标题和封面倒是可以成功提取出来,但是关键部分,也就是正文提取内容总是不全,会缺失一大截,图片也获取不到。
改了两三轮,还是有BUG,然后我上Opus 4.5,居然也没改成功。。。
最后打开了GPT-5.3-codex,一轮,完成了。。。
GLM-5跟Opus 4.5的差距没那么大,其实是有道理的。
说实话,主要还是,GPT-5.3-codex这玩意真的强的有点变态。
所以这个case,其实就是GLM-5做的整体规划和方案设计,然后最后遇到一个棘手的BUG上Codex解决的,整体体验上,我录制了一遍效果展示的视频,总体体验下来还是挺不错的。
然后还有另一个我觉得特别好玩的case。
就是,看到公司同事终于在用电脑模拟器,打欢乐斗地主。。。
当时他吐槽说,要是有记牌器就好了。。。
于是,我就想,这是个好思路,虽然不会帮他作弊,但是可以试一下大模型的能力。
上GLM-5试了一下,这个开发过程,还真的有点意思。
用的提示词很简单,就一句话。
“我正在我的电脑上玩欢乐斗地主PC模拟器版本,帮我写一个记牌插件。”
反正我是完全不知道怎么实现,更不知道怎么跟PC模拟器打通。。。
我就说了这么一个需求,GLM-5,他会自己进行更深入的咨询,包括识别方式、技术路线、功能需求,都会一一和我确认。
比如在实现方式上,他提供自动识别记牌、手动点击记牌等方案让我选择,每个方案还会给出不同的技术实现路线。
还有功能需求的确定,我这里选择了基础记牌。
第一轮对话下来,记牌器整体框架都搭建好了。
虽然我选择的是自动识别模式,但他很贴心地把自动开发和手动开发两种模式都做了。
手动模式第一轮其实就直接开发完了,就可以用了。
它的使用逻辑是需要我自己去看对方出什么牌,我就点击那张牌,牌数会自动减一。
但是这个逻辑太蠢了,一点都不自动,一点也不AI。
对方打一个牌,我还得手动点点点,这也太呆逼了。
所以我还是想要用自动识别模式,但第一轮对话后自动识别功能并没成功。
他这里自动识别的操作逻辑是这样的。
游戏开始的时候,我手动勾选出牌区域,他就会自动识别这个区域出的所有牌,并自动记牌。
但实际上,我选中出牌区域后,它没法识别出的牌。明明这边都打起来了,它这边一直等待识别。。。
我让它进一步修改。但是这样的bug它并没有一次改出来,改了一版后同样报错。
这个时候,它自己选择添加了调试功能。
我看了一下,应该是这个功能实现的链路主要有两部分,屏幕勾选区域截图,截图扑克牌识别,所以他需要调试确定哪个环节出了问题。
这一步,可能是模拟器的原因,还涉及到比较复杂的跟屏幕的交互和监控,所以我得帮他一起测试一下。
他显示出我勾选区域的截图,也有OCR结果,这样我一下就能明白到底是哪个环节出了问题。
然后我就发现,每隔半秒截图的功能没问题,核心问题是,OCR一直识别不出结果。
bug找到了,后面的活就方便了,我就交给他直接搞了。
GLM-5自己开发了一套方案,他给出的识别方案是这样的,给每张牌都上传模板。
就像这样。
然后他会对游戏页面截图进行灰度处理、二值化,然后和模板进行模式匹配,从而实现识别。
这个灰度处理和二值化,说实话我没听懂,我也怕GLM-5给我的不是最优解,所以打开了Opus 4.6和GPT-5.3-codex,让他们也同时出一套解决方案看看有没有更优解。
没想到跟GLM-5出的方案,是一模一样的,搞得还真没毛病。
这突然一下显得我有点小肚鸡肠,不信任GLM-5了= =
模板处理完之后,很快,他就把这个系统开发完了。
由于我注册的是新号,估计新手村对面是人机,出牌特别快。我本来还担心识别速度会跟不上。
没想到,识别效果出乎意料的好。除了大小王识别有点问题,其他全都能准确识别,哪怕是接连出顺子,也能精准识别。
相当牛逼了。。。
要知道,这真的不是那种普通的前端网页,这个实现方式,还是稍微有那么点复杂的。
GLM-5,完成的非常的好。
大小王的识别问题我初步想了一下,是因为上传的模板中,字母是一样的,只是颜色不一样。
图片经过灰度处理后大小王不就一样了吗,那肯定分不清。不过大小王还是比较好记的,所以也没管这个。
而且,这是我一两个小时不到就做出来的东西,而且是已经可以实战用上的东西,这个效率,还是相当恐怖的。。。
同时,这里我也提醒大家上网打牌的时候,特别是现在这个阶段,在网上用真钱去做一些游戏的时候,真的要谨慎一点,因为你不知道对面会不会像我一样,随手Vibe Coding一个外挂。。。
除了这两个之外,我还随手,复刻了一个QQ农场。
而且还有很多细节,比如如果我不收已经熟了的作物他会枯萎,然后农场里还会随机长出杂草、虫子。
相当有意思。
在数据存储上,还知道用浏览器LocalStorage作为数据存储,这是一个典型的前端单机游戏存储方案,很适合这种轻量级项目,大概的流程就是下面这个样子。
而且这个QQ农场消耗的token,也就十三万。。。
太离谱了。
从这些case其实已经非常客观的能看出来,GLM-5的开发能力,还是很强的,在一些规划、架构能力上,是真的可以比肩Opus 4.5的,虽然在精准的BUG修改上,离现在最变态的GPT-5.3-codex还有一些差距,但是我已经非常非常开心了。
而且还有个场景,GLM-5做的也很好,就是构建Skills。
这个其实也挺考验模型的理解和执行能力的。
我很喜欢用咱们的老演员yt-dlp测试GLM-5打包Skills的能力。
帮我把这个开源工具https://github.com/yt-dlp/yt-dlp打包成一个Skill,只要我后续给出视频链接,就可以帮我下载视频。GLM-5封装的基本没有任何问题,一轮效果,B站视频就能成功下载了。
而下载youtube视频,它也精准的提出了,需要我给一个Cookies,他才能帮我下载,我依稀记得,当时用Opus 4.5打包这个Skills,对话了6、7轮,改了N版,他也没告诉我要Cookies这事,就在那自己傻逼兮兮的告诉我改好了,可以下了,一下又报错。。。
看着此情此景,回想半年前。
那时候,如果你问我,国产大模型能不能在Coding领域跟OpenAI和Anthropic正面刚,我会说很难。
差距太大了,不是一点半点,是那种让人绝望的差距。
但现在,GLM-5出来了,确实能摸到Opus 4.5的水平。虽然跟最新的Opus 4.6和GPT-5.3-codex还有差距,但这个差距已经从代差缩小到了可以追赶的范围。
这是一个很重要的变化。
而且更重要的是,GLM-5是开源的,价格更是Claude的N分之1。
能力接近,开源免费,价格便宜。
而开源,更是意味着,B端能用上,企业能用上。
AI编程这件事,在国内,门槛真的,正在急剧降低。
以前你想用顶级的AI编程能力,得买ChatGPT的会员,得有魔法,得付得起那个价格。
现在不用了。
GLM-5给了你一个平替选择,虽然在全球领域,他距离那个老变态,他还不是最好的,但已经是跻身T1行列了,而且人人也都能用得起。
这会让更多人开始尝试AI编程,会让更多人感受到AI的魅力。
而当更多人用起来之后,社区会更活跃,反馈会更多,模型会迭代更快。
这是一个正向循环。
这也代表,我们在人才、在算力、在资金各方面都缺少的地不是,是能追上的。
当然,追上不代表胜利。
OpenAI和Anthropic还在快速迭代,下一个版本可能又把差距拉开。
但至少,我们已经进入了同一个赛道,在同一个维度上竞争。
这就是进步。
我非常非常推荐大家,去试试GLM-5吧,真的还不错。
站在今天这个节点,我其实很想说跟冯骥一样的话:
我真的很庆幸,这个开源模型。
来自智谱,来自中国。
在ds和sd之后的另外一个Coding世界里,也有了中国身位。
惟愿。
国运昌隆。
以上,既然看到这里了,如果觉得不错,随手点个赞、在看、转发三连吧,如果想第一时间收到推送,也可以给我个星标⭐~谢谢你看我的文章,我们,下次再见。
>/ 作者:卡兹克、林机梦逗、tashi
>/ 投稿或爆料,请联系邮箱:wzglyay@virxact.com
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2026-02-12
57分钟、6次交互、上千行深度思考!GLM-5从0到1开发因果关系图谱抽取及可视化系统实录
2026-02-12
GLM-5开源:迈向Agentic Engineering新范式
2026-02-12
OpenClaw核心组件与飞书部署实践
2026-02-11
后发先至,新模型发布,全球进入DeepSeek狂欢周,连珠炮响了!
2026-02-11
Agent “案底”可追溯:前 GitHub CEO 再创业,把思考过程写进 Git
2026-02-11
GitHub 上狂揽 1.3 万 Star!港大开源的轻量版 Clawdbot。
2026-02-11
OpenClaw近一半用户来自中国,大家在FOMO什么?
2026-02-11
从Manus到Clawdbot:被动到主动,满足供给到提供需求
2025-11-19
2026-01-27
2026-01-29
2026-01-12
2025-12-22
2026-01-30
2025-11-17
2025-12-10
2026-01-28
2025-12-23
2026-02-11
2026-02-05
2026-01-28
2026-01-26
2026-01-21
2026-01-21
2026-01-20
2026-01-16