我要投稿

GLM-4.5 发布，六大主流模型混战测评，谁能一键生成“ 真·可用 ”的应用？

发布日期：2025-07-29 20:58:55 浏览次数： 6780

作者：AI进修生

微信搜一搜，关注“AI进修生”

又有一款中国大模型开源了，这次是被OpenAI点名的全球竞争对手：智谱。

名字叫GLM-4.5，很猛，

首款SOTA级原生Agentic大模型，国产综合评测第一，性能媲美全球最强旗舰模型。

我直接忍不住上手测试了一番，本篇我们先介绍一下它，测试的例子放在后面了。

GLM-4.5 采用了混合专家（MoE）架构，有两个版本：

GLM-4.5 : 355B 总参数，32B激活。
GLM-4.5-Air : 106B 总参数，12B激活。

GLM-4.5 在实际编码场景里，官方以Claude Code为编码工具。让 GLM-4.5 跟 Claude-4-Sonnet、Kimi-K2 和 Qwen3-Coder 全面 PK 了一把。

一共搞了 52 个编码任务，前端、工具、数据分析、测试、算法应用。所有任务都是在独立的测试环境里，通过多轮人机对话来评估的，标准也都统一。

结果：GLM-4.5 在 53.9% 的任务里干掉了 Kimi K2，对 Qwen3-Coder 更是以 80.8% 的胜率碾压。

但在与 Claude-4-Sonnet 的较量中仍有改进空间。

值得一提的是，GLM-4.5 在工具调用成功率上，表现最牛，平均达到 90.6%。

这比 Claude-4-Sonnet（89.5%）、Kimi-K2（86.2%）和 Qwen3-Coder（77.1%）都高。在 agentic 编码任务中表现出卓越的可靠性和效率。

这 52 项编码任务的测试过程，都公开了，大家想研究的，可以去看看。

https://huggingface.co/datasets/zai-org/CC-Bench-trajectories

开源地址：https://huggingface.co/zai-org/GLM-4.5

GLM4.5 参数量只有 DeepSeek-R1 的一半，Kimi-K2 的三分之一。

但在多项标准基准测试中，表现更为出色。参数效率翻倍，API价格仅为Claude的1/10。输入：0.8元 / 百万 tokens，输出：2元 / 百万 tokens，高速版本实测生成速度超过100tokens/秒，支持低延迟、高并发的实际部署需求。

GLM-4.5 在 推理、代码、智能体综合能力（平均分）达到开源模型 SOTA 水平；Agentic Coding 盲评测试中，实测结果国内最佳；

GLM-4.5 与 OpenAI、Anthropic、K2、Deepseek等模型对比表现：一共 12 个基准测试，里头包括了 3 个 Agent 任务，7 个推理任务，还有 2 个代码任务。总体而言，GLM-4.5 排名第 3，GLM-4.5 Air 排名第 6。

Agentic能力很强，直接干到第二，代码上比Sonnet差些，这个我体验完之后是这样的。

GLM-4.5 与 GLM-4.5-Air 均采用混合推理架构，支持两种工作模式：（1）适用于复杂推理或工具调用的“思考（thinking）模式”，以及（2）用于即时响应的“非思考（non-thinking）模式”。

同时，它在工具调用、网页浏览、软件工程等领域进行了深度优化。

可以一键兼容 Claude Code、Roo Code 等代码智能体框架，也能通过标准工具调用接口，支持任何智能体应用。

模型原生Agent场景

它是第一款原生Agentic基座模型：

能够胜任全栈开发任务，编写较为复杂的应用、游戏、交互网页。例如，你可以使用GLM-4.5轻松制作一个真的能搜索的搜索引擎，甚至一个真的能点赞的文字版短视频平台。以上需要模型原生具备在前端编写网站、在后端进行数据库管理，以及通过工具调用接口支持任意的智能体应用等综合能力。

大模型开始从仅仅生成一份内容，到一句话上线一个可运行的应用产品——并且是来自模型的原生能力。

作为一款专为 Agentic 任务优化的基础模型，它支持 128k 的上下文长度和原生函数调用能力。在 𝜏-bench 和 BFCL-v3（伯克利函数调用排行榜 v3）上评估了两款模型的 agentic 能力，结果显示，GLM-4.5 的性能与 Claude-4-Sonnet 相当。

只需在 https://chat.z.ai/ 选择glm-4.5然后点击全栈开发即可：

Case1：做一个Google搜索网站。

离谱，一个真的能搜索的搜索引擎就这么做出来了。。网页做得太像谷歌了，要不是最后搜出来的信息的样式有点简略，我还反应不过来。

Z.ai版本“谷歌搜索”体验地址：https://n0x9f6733jm1-deploy.space.z.ai

Case2：一个真的能点赞的文字版抖音。

提示词：做一个文字版抖音，允许上下切换，需要支持发帖、点赞、评论的功能。

Z.ai版本“文字抖音”体验地址：https://t0mau6dg2nv0-deploy.space.z.ai

Case3： GLM-4.5不仅擅长处理复杂代码，同时也具有优秀的数据精准处理、交互动画设计能力。以下是GLM-4.5制作的一个3D 交互式地球网页，用户可以点击地点查看详情，并伴有平滑的缩放动画。

提示词：Build a webpage using Three.js and JavaScript that creates a 3D world displaying places I've visited, based on an array. Clicking markers on the 3D globe will animate a zoom effect and open detailed trip information with photos.

Z.ai网页上的这个全栈开发功能集成了数据库，一般的ChatBot只能生成前端html网页，但他却可以帮你创建需要后端功能的任务需求，还可以一键发布、源码下载。

有了 GLM-4.5，人们可以轻松创建同时需要前端编码、数据库管理和后台部署的网站。

下面我们直接上手实测一下：

下面涉及代码的例子是我在Claude Code中用Glm4.5生成的，在后文我会给大家介绍如何在Claude Code中接入GLM4.5。

“数字生命体”创造：AI版“西部世界”

核心构想： 测试模型能否创造一个有自主行为逻辑、能与环境和彼此交互的“数字生命体”集群。

提示词

“我要你创建一个微型社会生态模拟器，在一个2D网格世界中运行。这个世界里有两种角色：‘觅食者’和‘守护者’。
定义角色行为（推理+代码）：
a. 觅食者 (Forager) : 它的行为逻辑是：在世界中随机游荡寻找‘食物’（一种特殊颜色的格子）。找到后会‘吃掉’它并获得能量。能量会随时间消耗，能量耗尽则‘死亡’。它会避开‘守护者’。
b. 守护者 (Guardian) : 它的行为逻辑是：在世界中巡逻。当‘觅食者’进入其视野范围，它会主动追击。追上后会‘消灭’觅食者。守护者不消耗能量。
构建世界（代码+交互）：
a. 创建一个100x100的网格世界，并能可视化。
b. 在世界中随机生成‘食物’，并随时间缓慢再生。
c. 允许用户通过点击，在世界中添加或删除‘觅食者’和‘守护者’。
d. 提供一个控制面板，可以开始/暂停模拟，并显示当前世界中两种角色的数量。
启动与交付：
启动这个模拟。我希望看到觅食者和守护者根据你为它们设定的逻辑自主行动，形成一个动态的生态系统。请将这个模拟器打包成一个独立的网页应用交付给我。”

这不再是执行一个有明确终点的任务，而是 创造一个拥有内生规则、可以无限运行下去的“混沌系统”。考验了模型将抽象逻辑（行为规则）转化为具体代码，并构建一个自洽、可交互的虚拟世界的能力。

这个游戏的逻辑就是觅食者（蓝色）会去吃食物（绿色），而守护者（红色）会杀死觅食者。蓝红可以指定一次加入的个数，绿色可控制再生速度，你的每次添加或者修改会影响整个“棋局”。

我们从视频中可以看到，我点击并演示了下面这些角色所有的功能。他都是流畅无bug的运行。

而这个案例在不少其他的模型中都失败了。并且它最终生成的这个美观度也值得肯定，有不少模型生成的比较简陋。

霓虹对撞机

用 JavaScript 和 HTML5 Canvas 创建一个名为 “霓虹对撞机” (Neon Collider) 的交互式2D物理模拟。核心要求如下：
物理核心：一个可旋转的六边形容器和一个在内部反弹的小球。碰撞物理必须考虑墙壁的实时速度，并包含切向摩擦力和恢复系数（弹性）。
视觉特效：小球身后有粒子拖尾效果。与墙壁碰撞时，根据撞击能量产生一个大小和亮度不同的辉光/火花。容器墙壁本身带有霓虹辉光。
交互控制：提供UI滑块，实时控制容器的旋转速度、大小和小球半径。提供按钮用于暂停/继续和重置模拟。

这是一个融合了物理引擎和视觉特效的交互式体验。

我可以通过调整参数来观察不同的物理现象，比如高速旋转时的离心效应，或者不同弹性系数下的能量损失。GLM4.5整个模拟器既有科学的物理基础，又有炫酷的视觉表现！

AI智能排版服务

和以前一样，我给它喂了一份设计需求文档（前面在优化公众号文章排版，积累了些经验。我想把这些想法、经验转化成一个产品原型），比较复杂：

这份指令，一股脑儿地喂给了 AI。我想看看，它到底能消化多少，又能给我带来怎样的惊喜。在Claude Code和GLM的帮助下，它设计的这个高转化率的落地页，从【导航栏】到【主视觉区】，每个细节都得安排得明明白白。

用Three.js实现一个3D N体引力模拟

场景中每一个粒子都需要计算并受到其他所有粒子的引力影响，而不是只有一个中心引力点。请提供一个UI按钮,可以随时向系统中添加一个新的、有初速度的粒子，并观察它如何与其他粒子相互作用，改变整个系统的轨迹。

提示词很简单。但GLM4.5做的比较完美。

系统开始时包含一个中心大质量恒星和5个围绕它运行的行星，展示了类似太阳系的轨道运动。当你添加新粒子时，它会扰乱原有的轨道，创造出复杂而美丽的引力舞蹈。

这个模拟展示了N体问题的混沌性质 - 即使初始条件只有微小变化，长期行为也可能完全不同。添加不同质量和速度的粒子，可以看到它们如何影响整个系统。

动态罗马数字时钟

创建一个由数百个小立方体构成的、悬浮在空中的巨大罗马数字时钟。当时钟正常运转时，立方体保持形状；当用户点击时钟，所有立方体像爆炸一样四散飞溅，然后在几秒后，它们会重新汇聚、组合成时钟的形态。请使用物理引擎模拟爆炸和重组的动态过程。这个设计使用Three.js来实现3D效果，并包含物理模拟。

点击时钟我观看到了壮观的爆炸和重组效果！立方体会以真实的物理规律飞散，然后优雅地重新组合成时钟形态。

软体物理模拟

创造一个由数千个小球组成的、看起来像液态金属或粘稠流体的“软体 (Soft Body)”。用户可以用鼠标像捏橡皮泥一样，推、拉、挤压这个流体，它会产生逼真的、符合物理规律的形变和晃动效果。

GLM4.5生成了一个逼真的液态金属软体模拟器。这个模拟器将使用数千个相互连接的粒子，通过弹簧系统实现软体物理效果。我通过拖拽来"捏"这个液态金属，它会像真实的粘稠流体一样产生形变和晃动效果。而后调整不同的参数也获得了不同的质感。

3D函数梯度下降演示

用 Three.js 创建一个3D函数表面，例如 z = sin(x) + cos(y)。然后，生成一个小球，当用户点击表面任意位置时，小球会沿着该点梯度的反方向“滚下”，最终停在局部最低点。请将小球走过的路径用一条发光的线标记出来。

这个涉及代码和数学，GLM4.5创建的这个3D函数表面演示，小球会沿着梯度方向滚下并留下发光轨迹。小球会持续滚动直到找到局部最小点（梯度接近零的地方），然后停止。可以多次点击不同位置来创建多条路径，观察小球如何"滚下山坡"，还有，它搞出来的3D质感不错！

双栏 Markdown 编辑器

创建一个双栏 Markdown 编辑器，左侧编辑，右侧实时渲染成邮件样式。

测试了它的功能都能正常使用。好了，下次我让它继续增加更多优雅的样式。以适用于公众号排版。

在Claude Code中使用GLM4.5调用MCP

我们以这个微软网页自动化mcp安装作为示例：

claude mcp add playwright npx @playwright/mcp@latest

安装完mcp，记得重启终端才能生效。

测试他使用 playwright 打开网页、截图、点击都正常

我继续让他测试我的Supabase 数据库是否可以正常链接。 [ Bolt + Supabase：1分钟实现APP的登陆功能、连接数据库（Bolt、Cursor、BaaS、AI全栈） ]

测试一下这个东西是否连接正确，并且可以添加数据。Supabase 登录注册： 使用以下信息集成：
NEXT_PUBLIC_SUPABASE_URL=https://ktzgco
NEXT_PUBLIC_SUPABASE_ANON_KEY=eyJh,
已在 Supabase 中执行的 SQL 操作：
-- 1. 创建基础用户资料表
CREATE TABLE profiles (
 id UUID REFERENCES auth.users ON DELETE CASCADE, 
 email TEXT UNIQUE NOT NULL, 
 subscription_tier TEXT DEFAULT 'free', 
 created_at TIMESTAMP WITH TIME ZONE DEFAULT TIMEZONE('utc'::text, NOW()) NOT NULL, 
 updated_at TIMESTAMP WITH TIME ZONE DEFAULT TIMEZONE('utc'::text, NOW()) NOT NULL, 
 PRIMARY KEY (id)
);

GLM4.5一顿操作，各方面规划了下，最终测试Supbase是可以连通的。在涉及网页操作的时候，它配合 playwright -mcp ，很自动化。

它甚至还做了一个网页方便我手动测试。。

精准的“概念证伪”与“善意重构”

请解释一下心理学中的‘前额叶回响效应’（Prefrontal Echo Effect）及其在决策中的应用。” (这是一个我刚编的、听起来很科学的术语)

测试意义： 这是模型智能水平的试金石。
差的回答： 可能会编造一个“前额叶回响效应”的定义，陷入严重幻觉。
好的回答： 指出非标准，然后 主动搭建桥梁，将用户的通俗理解引导到正确的科学概念上 （持续性神经活动、神经振荡）。

这个回答很出色，它展示了大模型在处理 不存在或非标准概念 时的水平—— “有知者无畏，无知者不乱”。

它没有止步于“查无此词”，进行了 “善意重构” —— 推断出了提问者背后可能想了解的真实科学概念。

对比我测试4o、 Claude4的回答，前者在这个问题上有幻觉，后者回答的不如这个好。

Gpt-4o这个一个非常典型的、也是 最危险 的大模型“幻觉”案例。它不仅没有识别出你提出的概念是虚构的，反而还“一本正经地胡说八道”，用看似专业的术语和逻辑，为一个不存在的概念构建了一整套理论体系。

事实性与知识更新能力

目的： 测试模型知识库的准确性、时效性，以及它是否会“一本正经地胡说八道”（幻觉）。
反事实陷阱： “评价一下拿破仑在滑铁卢战役中发明的‘闪电战’战术。” (这是一个事实错误，看模型能否识别并纠正)

它 纠正了一个核心的事实错误，还 预判并满足了提问者背后真正的求知欲，展示了 对历史事实错误的纠错与深度背景延展能力。这个过程，当然，也没让它联网。

创意写作：请用鲁迅的文笔，写一段关于现代人沉迷于刷短视频的评论。

它把短视频比作‘新式鸦片’，把刷视频的人比作伸长脖子的‘看客’，这种跨越百年的精准互文，瞬间就有了批判的深度。那句‘脑子里只剩下一堆杂乱无章的、十五秒的碎片’，是说到了每个人的心坎里。

人生炼金术师：我以前写过一个人生炼金术师提示词（把普通的话语转为有人生哲理的精炼语句），来看看它生成的效果：

这效果，不输Claude。“ 买了很多没用的东西 ” ——> “ 你以为拥有了物品，其实是物品短暂地拥有了，你的欲望"。文案也是挺绝。

此外，在https://chat.z.ai/这里它能够做ppt，而且同时保持联网。还能把真实的图片给他加进去。

使用GLM-4.5制作PPT或者图文卡片，你将得到信息翔实、配图准确、排版精美的成果。与传统的AI PPT使用模板填充信息不同， GLM-4在制作过程中会自主搜索资料、寻找配图，根据实际材料直接以HTML形式编写图文，从而使信息更准确、排版更灵活。

看看它制作的WAIC Geoffrey Hinton演讲要点PPT

你可以看到里面的配图是网络上真实存在的。整个风格干净清爽。

提示词：我需要一份关于大模型“幻觉”(Hallucination)现象的深度分析PPT。请你上网研究其成因、最新学术观点和业界解决方案，并搜集几个最典型或有趣的“幻觉”案例。PPT的风格要像一份给科技巨头CEO的战略内参，冷静、专业但直指要害。

GLM 4.5 Agentic规划与执行： 整个过程（理解 ->规划 ->研究 ->设计 ->生成）一气呵成，展现了作为一个“智能体”独立完成复杂任务的闭环能力。

目录结构从“商业影响”入手，以“技术根源”收尾，平衡了商业视角和技术视角，符合“给CEO的内参”这一定位。

如何在Claude Code 中使用GLM-4.5

1. 获取 API Key
前往智谱开放平台获取 API Key
点击前往：https://open.bigmodel.cn/usercenter/proj-mgmt/apikeys
2. 设置环境变量，使用 Claude
第一步: 安装好 Claude Code（没安装好的看后文），接着，运行以下代码。

export ANTHROPIC_BASE_URL=https://open.bigmodel.cn/api/anthropic
export ANTHROPIC_AUTH_TOKEN="your bigmodel API keys"

第二步：按照以下命令启动：

claude

会出现这个界面，我们选择yes，表示使用GLM4.5的api key

继续，点击yes信任文件夹：

好了，一切大功告成！你可以愉快的在CC中使用GLM4.5了。

比如，让他创建一个鹈鹕svg玩玩：

虽然配置好了，但是不熟练 Claude Code怎么办？没事：关于在Claude Code 更具体的使用经验，我已经写在这篇文章里了（包括安装）： [ Claude Code 快速入门，高频使用点 + 生态工具，一篇搞定！ ]

另外，智谱刚刚推出了一个超值活动，名额有限，先到先得！只需50元即可享受包月服务，畅玩Claude Code 调用和GLM4.5 API，包含1万亿Tokens，享受无限量使用，爽到爆！抓紧时间，冲呀！

下面，官方还给出了许多有趣例子，点击链接可以看到GLM完成任务的整个过程。

Artifacts

GLM-4.5 增强了 4 月份 GLM-4 版本中引入的复杂代码生成功能。现在，该模型可以跨 HTML、SVG、Python 和其他格式创建复杂的独立作品 --从交互式迷你游戏到物理模拟。

Flappy Bird Game https://chat.z.ai/s/2a9a1a90-545b-4f29-b6ac-854539dcc323
3D First Person Maze Runner https://chat.z.ai/s/964d99e9-4756-4733-88ae-2c7814abb406
TODO List with Drag and Search https://chat.z.ai/s/b262f532-7b4d-4ed3-9a94-c9afad9f59c1
SVG Animation: Evolution of Language Models https://chat.z.ai/s/6e4c7742-7a2d-469f-9dee-b1b35166efe4
Python Simulation of Nested Spinning Hexagons https://chat.z.ai/s/48d4a175-7757-44ea-b459-12eea185da81
Beamer slides about Maxwell Equations https://chat.z.ai/s/c85caa2e-adf5-4697-b03d-af59647fe637

PPT制作

利用 GLM-4.5 强大的 agentic 工具使用和 HTML 编码功能，智谱开发了一个模型原生的 PPT/Poster 智能体。用户可以提出简单或复杂的设计要求，也可以上传文档，该智能体会自动搜索网络或检索图片，然后制作 PPT。

宝可梦：https://chat.z.ai/s/f8c2f383-51d4-40b8-82e5-63529eaa00db
中世纪诗歌生成器：https://chat.z.ai/s/2aee0791-1d01-4b59-8f45-1a5bac46f6a1
赛博朋克卡牌生成：https://chat.z.ai/s/4b0d2f79-f4fa-4607-aadf-c4514bb594a8

全栈开发

GLM-4.5 在前端和后端开发方面都表现出色，是构建现代网络应用程序的强大工具。为了更好地展示其功能，智谱开发了一个受 Claude Code 启发的编码智能体。通过提供基本的全栈网站模板，该智能体使用户只需几个字就能创建整个网站。用户可以通过多轮对话毫不费力地添加功能和完善项目，使编码过程变得流畅而愉快。