我要投稿

比R1快8倍，智谱开源GLM-Z1系列，实测 Agentic AI 也能极速深度推理！

发布日期：2025-04-15 11:59:33 浏览次数： 3047

作者：PaperAgent

微信搜一搜，关注“PaperAgent”

太卷了，智谱一口气开源6个模型，即新一代开源模型 GLM-4-32B-0414 系列，包含基座、推理、沉思模型，MIT License，不限制商用。

不想自己部署的小伙伴可以直接登录全新站点 https://chat.z.ai/ 试用。

此次开源最大的亮点是具有深度思考能力的推理模型 GLM-Z1-32B，主打一个“为快不破”：国内迎来最快的推理模型。

为满足不同场景需求，上线到智谱MaaS开放平台 bigmodel.cn 的推理模型分为三个版本：

GLM-Z1-AirX（极速版）：国内最快推理模型，推理速度高达200 tokens/s，8倍于常规速度；
GLM-Z1-Air（高性价比版）：价格仅为DeepSeek-R1的1/30，适合高频调用场景；
GLM-Z1-Flash（免费版）：支持免费使用，进一步降低模型使用门槛。

200 tokens/s极速深度推理，给推理模型的落地场景带来了无限可能，PaperAgent就最经典的Agentic AI应用场景：Agentic RAG/MCP应用(含代码解析)，对GLM-Z1-AirX进行了第一手实测。

GLM-Z1-AirX加持的Agentic RAG

Agentic RAG过程应用于问答的一个代表性示例，主要由2大流程组成：

离线流程，文档被分割成块，编码成向量，并存储在向量数据库（ES/Milvus）中。
线上流程

Agentic 路由，根据查询类型，Agent从多种检索选项中检索相关数据，

生成，将原始问题和检索到的内容送入大模型（GLM-Z1-AirX）中，生成最终答案。

Agentic RAG问答流程（GLM-Z1-AirX）

总结类型Query: A股行情经历了怎样的变化

GLM-Z1-AirX仅在【12.8s】就给出了长达2246字的答案，并且答案也比较丰富，全面。

这个速度直接让你的RAG系统直接赢在了thinking线上，可能别人还在thinking，你已经给出答案了。

这里以DeepSeek-R1作为对比，thinking阶段就花费20s，最终答案1764字，总耗时63.3s

GLM-Z1-AirX流式使用指南

pip install --upgrade zhipuai
from zhipuai import ZhipuAIclient = ZhipuAI(api_key="") # 填写您自己的APIKeyresponse = client.chat.completions.create(    model="GLM-Z1-AirX",  # 填写需要调用的模型编码    messages=[        {"role": "user", "content": "你好"}    ],    stream=True,)for chunk in response:  content = chunk.choices[0].delta.content  print(content)

GLM-Z1-AirX加持的MCP应用

选这个场景测试，是因为不少小伙伴对MCP与Function Call的关系有困惑，比如“mcp 和 function call可以共存吗？”，今天以GLM-Z1-AirX作为基础模型对剖析MCP应用的工作流程：

MCP 主机 —— LLM 应用程序（例如 Cursor），管理连接
MCP 客户端 —— 与 MCP 服务器保持一对一连接
MCP 服务器 —— 为 LLM 提供上下文、工具和能力

在MCPClient.py，首先利用list_tools让MCP Server上所有可用的工具信息

将第一步拼接的工具信息（名称、描述、参数）传给大模型（GLM-Z1-AirX），这里可以用支持Funciton Call的大模型，也可以采用ReAct的方式。

GLM-Z1-AirX会选择使用哪个工具，之后通过call_tool让MCP Server执行工具并返回结果

工具执行的结果存入消息历史，一起送入GLM-Z1-AirX，给出解析的答案

最后，可以看一个GLM-Z1-AirX以ReAct方式调用工具的示例，3.6s完成，非常快速！

https://hf-mirror.com/collections/THUDM/glm-4-0414-67f3cbcb34dd9d252707cb2ehttps://github.com/modelcontextprotocol/python-sdk

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2026-06-16

26.1%的AI编程技能有漏洞：NVIDIA开源 SkillSpector 能扫出什么？

2026-06-12

当 AI Coding Agent 成为基础设施：我们为什么要开源 LoongSuite Pilot

2026-06-09

CPU 跑得比 Whisper GPU还快的开源语音识别，本地部署

2026-06-09

别再问我什么是爱马仕！

2026-06-09

Open Design：开源界的 Claude Design 替代品，61.7K Star，21+ Agent 都能跑，本地第一

2026-06-08

我开源了 PPT-Library：让历史 PPT 变成 AI 可复用资产

2026-06-08

knowledge-work-plugins：Anthropic 官方开源的知识工作插件集，19,000+Star

2026-06-08

从搜索、点击、表单填写到复杂网页操作，让 AI 像人一样使用浏览器

联系获取

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

Hermes Agent 出来了，聊聊它凭什么跟 OpenClaw 掰手腕

2026-03-30

很多人突然不玩小龙虾而用Hermes Agent了。我替你试了，跟小龙虾到底有啥不同？

2026-04-09

Google Gemma 4 开源｜全面解读

2026-04-03

字节跳动开源 DeerFlow 2.0：下一代超级 Agent 引擎，一键搞定复杂工作流！

2026-03-23

震惊！刚刚，Anthropic掀了桌子：OpenClaude横空出世，大模型闭源时代彻底终结？

2026-04-01

刚刚，Claude Code开源了！51万行代码，全网狂欢

2026-03-31

龙虾绝配：Qwen 3.5 27B！跑在家里，成本为 0

2026-03-30

Ollama 本地部署 Gemma 4 完全指南

2026-04-18

Google Gemini CLI 完整使用指南

2026-04-18

ollama v0.18.2 发布！OpenClaw 安装优化、Claude 加速、MLX 量化全面升级

2026-03-20

大家都在问

26.1%的AI编程技能有漏洞：NVIDIA开源 SkillSpector 能扫出什么？

2026-06-16

企业级 AI Agent 为什么集体转向“基座 + Skills”？

2026-05-30

Hermes Agent 深度解析：为什么它能“越用越懂你”？

2026-05-16

百度把Nano Banana塞进4090，疯了？

2026-04-22

Kimi K2.6 开源了！还附送了 300 个 Agent 员工？

2026-04-21

Hermes 凭什么两个月接棒 OpenClaw？

2026-04-15

很多人突然不玩小龙虾而用Hermes Agent了。我替你试了，跟小龙虾到底有啥不同？

2026-04-09

震惊！刚刚，Anthropic掀了桌子：OpenClaude横空出世，大模型闭源时代彻底终结？

2026-04-01

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS Skill 提示词技巧 AI+电商 AI面试数字员工 ChatBI AI知识库开源大模型智能营销智能硬件 FDE AI+医疗 MaxKB Palantir Glean Openclaw