微信扫码
添加专属顾问
我要投稿
智谱开源的GLM-5.1以744B参数和40B激活规模,零人工介入构建完整Linux桌面系统,性能超越GPT-5.4和Claude Opus 4.6。核心内容: 1. GLM-5.1自主构建4.8MB完整Linux桌面系统 2. 655轮优化实现向量数据库6.9倍性能提升 3. 1000多轮迭代为50个AI模型实现3.6倍加速
PRODUCT
今天,智谱开源了 GLM-5.1:744B 参数,40B 激活,MIT 协议
零人工介入,能独立工作超过 8 小时,GLM-5.1 从零交付了一套完整的 Linux 桌面系统:窗口管理器、文件浏览器、终端、文本编辑器、系统监视器、游戏库等,共计 4.8MB
8小时,构建Linux 桌面系统
SWE-Bench Pro 58.4,超过 GPT-5.4 和 Claude Opus 4.6,全球最高
三项编码基准综合平均,全球第三、开源第一
三项编码基准综合平均分
GLM-5.1 能够在长时间任务中持续保持有效工作,这让它可以做到以前短对话里做不了的事情。以下是两个硬核的例子
AI 搜索和推荐系统的背后都有一个向量数据库,它的查询速度直接决定用户体验。GLM-5.1 用 Rust 从零写了一个向量搜索引擎,然后自己反复跑测试、看结果、改代码,连续迭代了 655 轮
向量数据库 655 轮优化
过程中模型完成了 6 次结构性的策略跳跃,从全库扫描一路优化到两级路由 + 提前剪枝,最终把查询速度从 3108 QPS 提升到 21472 QPS,提高了 6.9 倍
向量数据库优化轨迹:阶梯型跳跃模式
KernelBench 给模型一个挑战:拿到 50 个真实 AI 模型(MobileNet、VGG、MiniGPT、Mamba 等)的 PyTorch 代码,想办法写出运行更快的 GPU 版本,功能完全一样但速度要快
KernelBench Level 3 优化曲线:四个模型对比
GLM-5.1 在 1000 多轮工具调用中自主编写了 Triton 和 CUDA 加速代码,最终达到 3.6 倍加速,远超 PyTorch 自带优化器 torch.compile 的 1.49 倍
GLM-5.1 的提升集中在编码和智能体两个维度,提升幅度在 19%-42% 之间。推理能力和 GLM-5 基本持平,和 Gemini 3.1 Pro、GPT-5.4 还有明显差距
GLM-5.1 Benchmark 总览
SWE-Bench Pro 衡量的是模型能否在真实 GitHub 仓库中定位并修复高难度工程 Bug,是目前最接近真实软件开发的单项指标。GLM-5.1 得分 58.4,全球最高,超过 GPT-5.4(57.7)和 Claude Opus 4.6(57.3)
NL2Repo 要求模型根据自然语言描述从零构建完整的代码仓库,测试的是系统级工程能力。GLM-5.1 得分 42.7,vs GLM-5 的 35.9,提升 19%。和 Claude Opus 4.6(49.8)还有 7 分差距
Terminal-Bench 2.0 让模型在真实终端环境中解决系统管理、运维和开发任务。GLM-5.1 得分 63.5,vs GLM-5 的 56.2
CyberGym 是网络安全编码基准,要求模型完成渗透测试、漏洞分析等安全工程任务。GLM-5.1 得分 68.7,vs GLM-5 的 48.3,提升 42%,进步最大的单项
编码能力详细对比
BrowseComp 测试模型能否通过自主浏览网页解决复杂信息检索问题。GLM-5.1 带上下文管理得分 79.3
τ³-Bench 在模拟客服场景中测试对话式 Agent 的双向控制能力。GLM-5.1 得分 70.6
MCP-Atlas 衡量模型在多步骤工作流中调用外部工具(MCP 服务器)的能力。GLM-5.1 得分 71.8
Vending Bench 2 让模型经营一年的模拟自动售货机生意,测试长期规划和资源管理。GLM-5.1 最终账户余额 $5634,vs GLM-5 的 $4432。和 Claude Opus 4.6($8017)还有明显差距
智能体能力详细对比
HLE 被称为「人类最后的考试」,由各领域专家出题,专门测试模型的知识和推理极限。GLM-5.1 得分 31.0,和 Gemini 3.1 Pro(45.0)、GPT-5.4(39.8)有明显差距
AIME 2026 是美国数学邀请赛 2026 年赛题。GLM-5.1 得分 95.3,各家模型在这项上已经非常接近
GPQA-Diamond 是由博士级专家出题的科学问答,涵盖物理、化学、生物等领域。GLM-5.1 得分 86.2
推理维度整体和 GLM-5 持平,GLM-5.1 的提升集中在编码和智能体
推理能力详细对比
GLM-5.1 的技术细节沿用 GLM-5 的论文框架,论文已公开在 arXiv(2602.15763)。这里提取几个和长程能力直接相关的核心要点
GLM-5 整体训练管线
传统同步 RL 处理 Agent 任务时 GPU 空闲严重,因为不同任务的轨迹长度差异极大。智谱把训练引擎和推理引擎解耦到不同 GPU 设备上:推理引擎持续生成轨迹,达到阈值后批量送训练引擎更新模型,权重定期同步
通过一个「多任务 Rollout 编排器」支持超过 1000 个并发 rollout,每个任务实现为独立的微服务,注册到中央编排器统一调度
异步 RL 中一个容易被忽视的问题:把推理引擎当作黑箱只取最终文本,训练器需要重新分词来重建轨迹。分词边界的微小不一致会在数千步的 Agent 任务中逐步累积
TITO 直接消费推理引擎产出的 token ID 流和元数据,保持 action 级别的精确对应,消除重新分词带来的误差
DSA 训练 SFT loss 对比
GLM-5 在预训练阶段引入 DSA(DeepSeek Sparse Attention),用动态稀疏注意力把长上下文的注意力计算降低约 1.5-2 倍
在 RL 阶段出现了一个实践发现:DSA 的 indexer 必须使用确定性的 torch.topk。非确定性的 CUDA 实现会导致 RL 训练几步之后 entropy 急剧下降,性能严重退化
异步 RL 中不同轨迹可能由不同版本的模型生成,off-policy 问题严重。传统方案需要维护历史策略检查点来计算重要性采样比率
智谱的做法更直接:直接用 rollout 时的 log-probability 作为行为策略的代理,用 token 级别的双侧裁剪机制控制信任域,超出区间的 token 从梯度计算中屏蔽。不需要跟踪历史策略
BrowseComp 上下文管理策略对比
编码任务:构建超过 10000 个可验证训练环境,覆盖 Python、Java、Go、C、C++、JavaScript、TypeScript、PHP、Ruby 9 种语言
搜索任务:构建 Web 知识图谱,从 200 万+ 高信息网页中抽取实体和关系,合成高难度多跳 QA 对
GLM-5 从第一天起就完成了七家国产芯片平台的全栈适配:华为昇腾、摩尔线程、海光、寒武纪、昆仑芯、沐曦、燧原
在华为昇腾上通过 W4A8 混量化、Lightning Indexer 融合算子、MLAPO 预处理优化等手段,单节点性能接近双卡国际集群
GLM-5.1 权重以 MIT 协议开源,提供 BF16 和 FP8 两个版本。支持 vLLM、SGLang、xLLM(华为昇腾)、Ktransformers 本地部署
API 方面,GLM-5.1 已纳入 GLM Coding Plan(Max/Pro/Lite 套餐),支持 Claude Code、OpenCode、Kilo Code、Roo Code、Cline 等工具接入
GLM-5.1 即将上线 chat.z.ai
参考材料
GLM-5.1 Bloghttps://z.ai/blog/glm-5.1
GLM-5 Technical Reporthttps://arxiv.org/abs/2602.15763
GitHubhttps://github.com/zai-org/GLM-5
Hugging Facehttps://huggingface.co/zai-org/GLM-5.1
ModelScope 魔搭社区https://modelscope.cn/models/ZhipuAI/GLM-5.1
GLM Coding Planhttps://z.ai/subscribe
BigModel 开放平台https://docs.bigmodel.cn/cn/guide/models/text/glm-5.1
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2026-04-08
探索Agentic生产力:从“被动问答”到“自主分析”
2026-04-08
GLM-5.1 又是开源 SOTA?直接做个图片改字工具验验真假!
2026-04-08
智源:ArXiv CLI重磅开源!2亿+开放论文,即将化身科研智能体的技能包
2026-04-08
DeepSeek 推出快速模式和专家模式
2026-04-07
vLLM v0.19.0 来了,适配 HuggingFace v5,多模态优化,CPU KV 缓存卸载
2026-04-04
Gemma 4开源!整整一年,谷歌终于想明白了!!!
2026-04-04
BotLearn创始人李可佳:不要问龙虾能为你做什么,要问你能为龙虾做什么|甲子光年
2026-04-03
谷歌Gemma 4深夜炸场:首次采用 Apache 2.0 开源,或暗藏新Siri模型
2026-01-30
2026-01-27
2026-01-12
2026-01-29
2026-01-27
2026-01-21
2026-01-28
2026-01-23
2026-01-26
2026-01-26
2026-04-01
2026-03-17
2026-03-13
2026-03-02
2026-02-05
2026-01-28
2026-01-26
2026-01-21