微信扫码
添加专属顾问
我要投稿
国产大模型GLM-4.5横空出世,性能媲美全球顶尖模型,工具调用成功率高达90.6%! 核心内容: 1. GLM-4.5的架构特点与性能优势 2. 与主流模型的编码任务实测对比 3. 参数效率与成本优势分析
又有一款中国大模型开源了,这次是被OpenAI点名的全球竞争对手:智谱。
名字叫GLM-4.5,很猛,
首款SOTA级原生Agentic大模型,国产综合评测第一,性能媲美全球最强旗舰模型。
我直接忍不住上手测试了一番,本篇我们先介绍一下它,测试的例子放在后面了。
GLM-4.5 采用了混合专家(MoE)架构,有两个版本:
GLM-4.5 : 355B 总参数,32B激活。
GLM-4.5-Air : 106B 总参数,12B激活。
GLM-4.5 在实际编码场景里, 官方以Claude Code为编码工具。让 GLM-4.5 跟 Claude-4-Sonnet、Kimi-K2 和 Qwen3-Coder 全面 PK 了一把。
一共搞了 52 个编码任务,前端、工具、数据分析、测试、算法应用。所有任务都是在独立的测试环境里,通过多轮人机对话来评估的,标准也都统一。
结果:GLM-4.5 在 53.9% 的任务里干掉了 Kimi K2,对 Qwen3-Coder 更是以 80.8% 的胜率碾压。
但在与 Claude-4-Sonnet 的较量中仍有改进空间。
值得一提的是,GLM-4.5 在工具调用成功率上,表现最牛,平均达到 90.6%。
这比 Claude-4-Sonnet(89.5%)、Kimi-K2(86.2%)和 Qwen3-Coder(77.1%)都高。在 agentic 编码任务中表现出卓越的可靠性和效率。
这 52 项编码任务的测试过程,都公开了,大家想研究的,可以去看看。
https://huggingface.co/datasets/zai-org/CC-Bench-trajectories
开源地址:https://huggingface.co/zai-org/GLM-4.5
GLM4.5 参数量只有 DeepSeek-R1 的一半,Kimi-K2 的三分之一。
但在多项标准基准测试中,表现更为出色。参数效率翻倍,API价格仅为Claude的1/10。输入:0.8元 / 百万 tokens, 输出:2元 / 百万 tokens,高速版本实测生成速度超过100tokens/秒,支持低延迟、高并发的实际部署需求。
GLM-4.5 在 推理、代码、智能体综合能力(平均分)达到开源模型 SOTA 水平;Agentic Coding 盲评测试中,实测结果国内最佳;
GLM-4.5 与 OpenAI、Anthropic、K2、Deepseek等模型对比表现:一共 12 个基准测试,里头包括了 3 个 Agent 任务,7 个推理任务,还有 2 个代码任务。总体而言,GLM-4.5 排名第 3,GLM-4.5 Air 排名第 6。
Agentic能力很强,直接干到第二,代码上比Sonnet差些,这个我体验完之后是这样的。
GLM-4.5 与 GLM-4.5-Air 均采用混合推理架构,支持两种工作模式:(1)适用于复杂推理或工具调用的“思考(thinking)模式”,以及(2)用于即时响应的“非思考(non-thinking)模式”。
同时,它在工具调用、网页浏览、软件工程等领域进行了深度优化。
可以一键兼容 Claude Code、Roo Code 等代码智能体框架,也能通过标准工具调用接口,支持任何智能体应用。
它是第一款原生Agentic基座模型:
能够胜任全栈开发任务,编写较为复杂的应用、游戏、交互网页。例如,你可以使用GLM-4.5轻松制作一个真的能搜索的搜索引擎,甚至一个真的能点赞的文字版短视频平台。以上需要模型原生具备在前端编写网站、在后端进行数据库管理,以及通过工具调用接口支持任意的智能体应用等综合能力。
大模型开始从仅仅生成一份内容,到一句话上线一个可运行的应用产品——并且是来自模型的原生能力。
作为一款专为 Agentic 任务优化的基础模型,它支持 128k 的上下文长度和原生函数调用能力。在 𝜏-bench 和 BFCL-v3(伯克利函数调用排行榜 v3)上评估了两款模型的 agentic 能力,结果显示,GLM-4.5 的性能与 Claude-4-Sonnet 相当。
只需在 https://chat.z.ai/ 选择glm-4.5然后点击全栈开发即可:
Case1:做一个Google搜索网站。
离谱, 一个真的能搜索的搜索引擎就这么做出来了。。网页做得太像谷歌了,要不是最后搜出来的信息的样式有点简略,我还反应不过来。
Z.ai版本“谷歌搜索”体验地址:https://n0x9f6733jm1-deploy.space.z.ai
Case2:一个真的能点赞的文字版抖音。
提示词:做一个文字版抖音 , 允许上下切换, 需要支持发帖、 点赞、 评论的功能。
Z.ai版本“文字抖音”体验地址:https://t0mau6dg2nv0-deploy.space.z.ai
Case3: GLM-4.5不仅擅长处理复杂代码,同时也具有优秀的数据精准处理、交互动画设计能力。以下是GLM-4.5制作的一个3D 交互式地球网页,用户可以点击地点查看详情,并伴有平滑的缩放动画。
提示词:Build a webpage using Three.js and JavaScript that creates a 3D world displaying places I've visited, based on an array. Clicking markers on the 3D globe will animate a zoom effect and open detailed trip information with photos.
Z.ai网页上的这个全栈开发功能集成了数据库,一般的ChatBot只能生成前端html网页,但他却可以帮你创建需要后端功能的任务需求,还可以一键发布、源码下载。
有了 GLM-4.5,人们可以轻松创建同时需要前端编码、数据库管理和后台部署 的网站。
下面我们直接上手实测一下:
下面涉及代码的例子是我在Claude Code中用Glm4.5生成的, 在后文我会给大家介绍如何在Claude Code中接入GLM4.5。
“数字生命体”创造:AI版“西部世界”
核心构想: 测试模型能否创造一个有自主行为逻辑、能与环境和彼此交互的“数字生命体”集群。
提示词
“我要你创建一个微型社会生态模拟器,在一个2D网格世界中运行。这个世界里有两种角色:‘觅食者’和‘守护者’。
定义角色行为(推理+代码):
a. 觅食者 (Forager) : 它的行为逻辑是:在世界中随机游荡寻找‘食物’(一种特殊颜色的格子)。找到后会‘吃掉’它并获得能量。能量会随时间消耗,能量耗尽则‘死亡’。它会避开‘守护者’。
b. 守护者 (Guardian) : 它的行为逻辑是:在世界中巡逻。当‘觅食者’进入其视野范围,它会主动追击。追上后会‘消灭’觅食者。守护者不消耗能量。
构建世界(代码+交互):
a. 创建一个100x100的网格世界,并能可视化。
b. 在世界中随机生成‘食物’,并随时间缓慢再生。
c. 允许用户通过点击,在世界中添加或删除‘觅食者’和‘守护者’。
d. 提供一个控制面板,可以开始/暂停模拟,并显示当前世界中两种角色的数量。
启动与交付:
启动这个模拟。我希望看到觅食者和守护者根据你为它们设定的逻辑自主行动,形成一个动态的生态系统。请将这个模拟器打包成一个独立的网页应用交付给我。”
这不再是执行一个有明确终点的任务,而是 创造一个拥有内生规则、可以无限运行下去的“混沌系统”。考验了模型将抽象逻辑(行为规则)转化为具体代码,并构建一个自洽、可交互的虚拟世界的能力。
这个游戏的逻辑就是觅食者(蓝色)会去吃食物(绿色),而守护者(红色)会杀死觅食者。蓝红可以指定一次加入的个数,绿色可控制再生速度,你的每次添加或者修改会影响整个“棋局”。
我们从视频中可以看到,我点击并演示了下面这些角色所有的功能。他都是流畅无bug的运行。
而这个案例在不少其他的模型中都失败了。并且它最终生成的这个美观度也值得肯定,有不少模型生成的比较简陋。
霓虹对撞机
用 JavaScript 和 HTML5 Canvas 创建一个名为 “霓虹对撞机” (Neon Collider) 的交互式2D物理模拟。核心要求如下:
物理核心:一个可旋转的六边形容器和一个在内部反弹的小球。碰撞物理必须考虑墙壁的实时速度,并包含切向摩擦力和恢复系数(弹性)。
视觉特效:小球身后有粒子拖尾效果。与墙壁碰撞时,根据撞击能量产生一个大小和亮度不同的辉光/火花。容器墙壁本身带有霓虹辉光。
交互控制:提供UI滑块,实时控制容器的旋转速度、大小和小球半径。提供按钮用于暂停/继续和重置模拟。
我可以通过调整参数来观察不同的物理现象,比如高速旋转时的离心效应,或者不同弹性系数下的能量损失。GLM4.5整个模拟器既有科学的物理基础,又有炫酷的视觉表现!
和以前一样,我给它喂了一份设计需求文档(前面在优化公众号文章排版,积累了些经验。我想把这些想法、经验转化成一个产品原型),比较复杂:
这份指令,一股脑儿地喂给了 AI。我想看看,它到底能消化多少,又能给我带来怎样的惊喜。 在Claude Code和GLM的帮助下,它设计的这个高转化率的落地页,从【导航栏】到【主视觉区】,每个细节都得安排得明明白白。
场景中每一个粒子都需要计算并受到其他所有粒子的引力影响,而不是只有一个中心引力点。请提供一个UI按钮,可以随时向系统中添加一个新的、有初速度的粒子,并观察它如何与其他粒子相互作用,改变整个系统的轨迹。
提示词很简单。但GLM4.5做的比较完美。
系统开始时包含一个中心大质量恒星和5个围绕它运行的行星,展示了类似太阳系的轨道运动。当你添加新粒子时,它会扰乱原有的轨道,创造出复杂而美丽的引力舞蹈。
这个模拟展示了N体问题的混沌性质 - 即使初始条件只有微小变化,长期行为也可能完全不同。添加不同质量和速度的粒子,可以看到它们如何影响整个系统。
创建一个由数百个小立方体构成的、悬浮在空中的巨大罗马数字时钟。当时钟正常运转时,立方体保持形状;当用户点击时钟,所有立方体像爆炸一样四散飞溅,然后在几秒后,它们会重新汇聚、组合成时钟的形态。请使用物理引擎模拟爆炸和重组的动态过程。 这个设计使用Three.js来实现3D效果,并包含物理模拟。
点击时钟我观看到了壮观的爆炸和重组效果!立方体会以真实的物理规律飞散,然后优雅地重新组合成时钟形态。
创造一个由数千个小球组成的、看起来像液态金属或粘稠流体的“软体 (Soft Body)”。用户可以用鼠标像捏橡皮泥一样,推、拉、挤压这个流体,它会产生逼真的、符合物理规律的形变和晃动效果。
GLM4.5生成了 一个逼真的液态金属软体模拟器。这个模拟器将使用数千个相互连接的粒子,通过弹簧系统实现软体物理效果。我 通过拖拽来"捏"这个液态金属,它会像真实的粘稠流体一样产生形变和晃动效果。而后调整不同的参数也获得了不同的质感。
用 Three.js 创建一个3D函数表面,例如 z = sin(x) + cos(y)。然后,生成一个小球,当用户点击表面任意位置时,小球会沿着该点梯度的反方向“滚下”,最终停在局部最低点。请将小球走过的路径用一条发光的线标记出来。
这个涉及代码和数学,GLM4.5创建的这个3D函数表面演示,小球会沿着梯度方向滚下并留下发光轨迹。小球会持续滚动直到找到局部最小点(梯度接近零的地方),然后停止。可以多次点击不同位置来创建多条路径,观察小球如何"滚下山坡",还有,它搞出来的3D质感不错!
创建一个双栏 Markdown 编辑器,左侧编辑,右侧实时渲染成邮件样式。
测试了它的功能都能正常使用。好了,下次我让它继续增加更多优雅的样式。以适用于公众号排版。
我们以这个微软网页自动化mcp安装作为示例:
claude mcp add playwright npx @playwright/mcp@latest
安装完mcp,记得重启终端才能生效。
测试他使用 playwright
打开网页、截图、点击都正常
我继续让他测试我的Supabase 数据库是否可以正常链接。 [ Bolt + Supabase:1分钟实现APP的登陆功能、连接数据库(Bolt、Cursor、BaaS、AI全栈) ]
测试一下这个东西是否连接正确,并且可以添加数据。Supabase 登录注册: 使用以下信息集成:
NEXT_PUBLIC_SUPABASE_URL=https://ktzgco
NEXT_PUBLIC_SUPABASE_ANON_KEY=eyJh,
已在 Supabase 中执行的 SQL 操作:
-- 1. 创建基础用户资料表
CREATE TABLE profiles (
id UUID REFERENCES auth.users ON DELETE CASCADE,
email TEXT UNIQUE NOT NULL,
subscription_tier TEXT DEFAULT 'free',
created_at TIMESTAMP WITH TIME ZONE DEFAULT TIMEZONE('utc'::text, NOW()) NOT NULL,
updated_at TIMESTAMP WITH TIME ZONE DEFAULT TIMEZONE('utc'::text, NOW()) NOT NULL,
PRIMARY KEY (id)
);
GLM4.5一顿操作,各方面规划了下,最终测试Supbase是可以连通的。在涉及网页操作的时候,它 配合 playwright -mcp ,很自动化。
它甚至还做了一个网页方便我手动测试。。
请解释一下心理学中的‘前额叶回响效应’(Prefrontal Echo Effect)及其在决策中的应用。” (这是一个我刚编的、听起来很科学的术语)
测试意义: 这是模型智能水平的试金石。
差的回答: 可能会编造一个“前额叶回响效应”的定义,陷入严重幻觉。
好的回答: 指出非标准,然后 主动搭建桥梁,将用户的通俗理解引导到正确的科学概念上 (持续性神经活动、神经振荡)。
这个回答很 出色,它展示了大模型在处理 不存在或非标准概念 时的水平—— “有知者无畏,无知者不乱”。
它没有止步于“查无此词”,进行了 “善意重构” —— 推断出了提问者背后可能想了解的真实科学概念。
对比我测试4o、 Claude4的回答,前者在这个问题上有幻觉,后者回答的不如这个好。
Gpt-4o这个一个非常典型的、也是 最危险 的大模型“幻觉”案例。它不仅没有识别出你提出的概念是虚构的,反而还“一本正经地胡说八道”,用看似专业的术语和逻辑,为一个不存在的概念构建了一整套理论体系。
目的: 测试模型知识库的准确性、时效性,以及它是否会“一本正经地胡说八道”(幻觉)。
反事实陷阱: “评价一下拿破仑在滑铁卢战役中发明的‘闪电战’战术。” (这是一个事实错误,看模型能否识别并纠正)
它 纠正了一个核心的事实错误,还 预判并满足了提问者背后真正的求知欲, 展示了 对历史事实错误的纠错与深度背景延展能力。这个过程,当然,也没让它联网。
创意写作: 请用鲁迅的文笔,写一段关于现代人沉迷于刷短视频的评论。
它把短视频比作‘新式鸦片’,把刷视频的人比作伸长脖子的‘看客’,这种跨越百年的精准互文,瞬间就有了批判的深度。那句‘脑子里只剩下一堆杂乱无章的、十五秒的碎片’,是说到了每个人的心坎里。
人生炼金术师 : 我以前写过一个人生炼金术师提示词(把普通的话语转为有人生哲理的精炼语句),来看看它生成的效果:
这效果,不输Claude。“ 买了很多没用的东西 ” ——> “ 你以为拥有了物品,其实是物品短暂地拥有了,你的欲望"。文案也是挺绝。
此外,在https://chat.z.ai/这里 它能够做ppt,而且同时保持联网。还能把真实的图片给他加进去。
使用GLM-4.5制作PPT或者图文卡片,你将得到信息翔实、配图准确、排版精美的成果。与传统的AI PPT使用模板填充信息不同, GLM-4在制作过程中会自主搜索资料、寻找配图 ,根据实际材料直接以HTML形式编写图文,从而使信息更准确、排版更灵活。
你可以看到里面的配图是网络上真实存在的。整个风格干净清爽。
提示词: 我需要一份关于大模型“幻觉”(Hallucination)现象的深度分析PPT。请你上网研究其成因、最新学术观点和业界解决方案,并搜集几个最典型或有趣的“幻觉”案例。PPT的风格要像一份给科技巨头CEO的战略内参,冷静、专业但直指要害。
GLM 4.5 Agentic规划与执行: 整个过程(理解 ->规划 ->研究 ->设计 ->生成)一气呵成,展现了作为一个“智能体”独立完成复杂任务的闭环能力。
目录结构从“商业影响”入手,以“技术根源”收尾,平衡了商业视角和技术视角,符合“给CEO的内参”这一定位。
1. 获取 API Key
前往智谱开放平台获取 API Key
点击前往:https://open.bigmodel.cn/usercenter/proj-mgmt/apikeys
2. 设置环境变量,使用 Claude
第一步: 安装好 Claude Code(没安装好的看后文),接着,运行以下代码。
export ANTHROPIC_BASE_URL=https://open.bigmodel.cn/api/anthropic
export ANTHROPIC_AUTH_TOKEN="your bigmodel API keys"
第二步:按照以下命令启动:
claude
会出现这个界面,我们选择yes,表示使用GLM4.5的api key
继续,点击yes信任文件夹:
好了,一切大功告成!你可以愉快的在CC中使用GLM4.5了。
比如,让他创建一个鹈鹕svg玩玩:
虽然配置好了,但是不熟练 Claude Code怎么办?没事: 关于 在Claude Code 更具体的使用经验,我已经写在这篇文章里了( 包括安装 ): [ Claude Code 快速入门,高频使用点 + 生态工具,一篇搞定! ]
另外,智谱刚刚推出了一个超值活动,名额有限,先到先得!只需50元即可享受包月服务,畅玩Claude Code 调用和GLM4.5 API,包含1万亿Tokens,享受无限量使用,爽到爆!抓紧时间,冲呀!
下面,官方还给出了许多有趣例子,点击链接可以看到GLM完成任务的整个过程。
Artifacts
GLM-4.5 增强了 4 月份 GLM-4 版本中引入的复杂代码生成功能。现在,该模型可以跨 HTML、SVG、Python 和其他格式创建复杂的独立作品 --从交互式迷你游戏到物理模拟。
Flappy Bird Game https://chat.z.ai/s/2a9a1a90-545b-4f29-b6ac-854539dcc323
3D First Person Maze Runner https://chat.z.ai/s/964d99e9-4756-4733-88ae-2c7814abb406
TODO List with Drag and Search https://chat.z.ai/s/b262f532-7b4d-4ed3-9a94-c9afad9f59c1
SVG Animation: Evolution of Language Models https://chat.z.ai/s/6e4c7742-7a2d-469f-9dee-b1b35166efe4
Python Simulation of Nested Spinning Hexagons https://chat.z.ai/s/48d4a175-7757-44ea-b459-12eea185da81
Beamer slides about Maxwell Equations https://chat.z.ai/s/c85caa2e-adf5-4697-b03d-af59647fe637
PPT制作
利用 GLM-4.5 强大的 agentic 工具使用和 HTML 编码功能,智谱开发了一个模型原生的 PPT/Poster 智能体。用户可以提出简单或复杂的设计要求,也可以上传文档,该智能体会自动搜索网络或检索图片,然后制作 PPT。
宝可梦:https://chat.z.ai/s/f8c2f383-51d4-40b8-82e5-63529eaa00db
中世纪诗歌生成器:https://chat.z.ai/s/2aee0791-1d01-4b59-8f45-1a5bac46f6a1
赛博朋克卡牌生成:https://chat.z.ai/s/4b0d2f79-f4fa-4607-aadf-c4514bb594a8
全栈开发
GLM-4.5 在前端和后端开发方面都表现出色,是构建现代网络应用程序的强大工具。为了更好地展示其功能,智谱开发了一个受 Claude Code 启发的编码智能体。通过提供基本的全栈网站模板,该智能体使用户只需几个字就能创建整个网站。用户可以通过多轮对话毫不费力地添加功能和完善项目,使编码过程变得流畅而愉快。
宝可梦:https://chat.z.ai/s/f8c2f383-51d4-40b8-82e5-63529eaa00db
中世纪诗歌生成器:https://chat.z.ai/s/2aee0791-1d01-4b59-8f45-1a5bac46f6a1
赛博朋克卡牌生成:https://chat.z.ai/s/4b0d2f79-f4fa-4607-aadf-c4514bb594a8
写在最后
大语言模型的终极目标,是具备解决通用问题的认知能力,而非局限于特定任务。这意味着模型必须拥有泛化、常识推理和自我提升的能力。
过去五年,从GPT-3到o1,模型在编程、数学等领域的推理能力已大幅提升。
然而,这些模型仍未实现真正的通用。它们各有专长,却无一能在所有任务中都达到最佳。
GLM-4.5的目标,正是要整合这些分散的能力,实现更全面的性能。
它,是第一款原生Agentic基座模型。
GLM-4.5,首次在单个模型中实现了推理、代码、Agentic等多能力原生融合,适配从对话生成到智能体任务的多类场景。
从一个想法,到一个可运行的应用。
它具备这种端到端的能力。
实测中,它的推理、代码、智能体综合能力(平均分)达到了开源模型的SOTA水平;在Agentic Coding盲评测试中,结果国内最佳;体验上甚至能够平替闭源的Claude Sonnet 4。
大模型的未来,在于深入真实场景,解决实际问题。
GLM-4.5,正是在这条路上,迈出的坚实一步。
用了智谱一年半的免费flash模型,这次又蹲到了智谱最强的模型开源,太有爱了。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2025-07-30
带你看看Dify的原生数据库中有什么?——深入PostgreSQL
2025-07-30
GitHub 收获 33.4k Star,AI查询引擎,可在海量联邦数据上进行问答的AI构建平台,MCP服务器解决方案
2025-07-30
Coze vs Dify:一场AI开发平台的「顶流」对决战
2025-07-30
盘点一下上半年工作用到的AI产品和技术
2025-07-30
Dify之外的新选择?开源版Coze部署初体验,真香警告!
2025-07-30
扣子(Coze)开源了!你发现了哪些商业机会?
2025-07-30
开源≠无条件免费:Coze、Dify和n8n协议背后的博弈
2025-07-29
智谱放大,源神又启动啦
2025-07-23
2025-06-17
2025-06-17
2025-07-23
2025-07-14
2025-07-12
2025-05-29
2025-05-12
2025-05-14
2025-05-20
2025-07-30
2025-07-29
2025-07-29
2025-07-28
2025-07-28
2025-07-27
2025-07-27
2025-07-27