我要投稿

GLM-5.1 开源：零介入，交付整套的 Linux 桌面系统

发布日期：2026-04-08 11:37:52 浏览次数： 2343

作者：赛博禅心

微信搜一搜，关注“赛博禅心”

PRODUCT

今天，智谱开源了 GLM-5.1：744B 参数，40B 激活，MIT 协议

零人工介入，能独立工作超过 8 小时，GLM-5.1 从零交付了一套完整的 Linux 桌面系统：窗口管理器、文件浏览器、终端、文本编辑器、系统监视器、游戏库等，共计 4.8MB

SWE-Bench Pro 58.4，超过 GPT-5.4 和 Claude Opus 4.6，全球最高

三项编码基准综合平均，全球第三、开源第一

三项编码基准综合平均分

给更多时间，真的会更好

GLM-5.1 能够在长时间任务中持续保持有效工作，这让它可以做到以前短对话里做不了的事情。以下是两个硬核的例子

自主优化一个搜索引擎，连续跑了 655 轮

AI 搜索和推荐系统的背后都有一个向量数据库，它的查询速度直接决定用户体验。GLM-5.1 用 Rust 从零写了一个向量搜索引擎，然后自己反复跑测试、看结果、改代码，连续迭代了 655 轮

向量数据库 655 轮优化

过程中模型完成了 6 次结构性的策略跳跃，从全库扫描一路优化到两级路由 + 提前剪枝，最终把查询速度从 3108 QPS 提升到 21472 QPS，提高了 6.9 倍

向量数据库优化轨迹：阶梯型跳跃模式

给 50 个 AI 模型写加速代码，跑了 1000 多轮

KernelBench 给模型一个挑战：拿到 50 个真实 AI 模型（MobileNet、VGG、MiniGPT、Mamba 等）的 PyTorch 代码，想办法写出运行更快的 GPU 版本，功能完全一样但速度要快

KernelBench Level 3 优化曲线：四个模型对比

GLM-5.1 在 1000 多轮工具调用中自主编写了 Triton 和 CUDA 加速代码，最终达到 3.6 倍加速，远超 PyTorch 自带优化器 torch.compile 的 1.49 倍

Benchmark 详细数据

GLM-5.1 的提升集中在编码和智能体两个维度，提升幅度在 19%-42% 之间。推理能力和 GLM-5 基本持平，和 Gemini 3.1 Pro、GPT-5.4 还有明显差距

GLM-5.1 Benchmark 总览

编码能力

SWE-Bench Pro 衡量的是模型能否在真实 GitHub 仓库中定位并修复高难度工程 Bug，是目前最接近真实软件开发的单项指标。GLM-5.1 得分 58.4，全球最高，超过 GPT-5.4（57.7）和 Claude Opus 4.6（57.3）

NL2Repo 要求模型根据自然语言描述从零构建完整的代码仓库，测试的是系统级工程能力。GLM-5.1 得分 42.7，vs GLM-5 的 35.9，提升 19%。和 Claude Opus 4.6（49.8）还有 7 分差距

Terminal-Bench 2.0 让模型在真实终端环境中解决系统管理、运维和开发任务。GLM-5.1 得分 63.5，vs GLM-5 的 56.2

CyberGym 是网络安全编码基准，要求模型完成渗透测试、漏洞分析等安全工程任务。GLM-5.1 得分 68.7，vs GLM-5 的 48.3，提升 42%，进步最大的单项

编码能力详细对比

智能体能力

BrowseComp 测试模型能否通过自主浏览网页解决复杂信息检索问题。GLM-5.1 带上下文管理得分 79.3

τ³-Bench 在模拟客服场景中测试对话式 Agent 的双向控制能力。GLM-5.1 得分 70.6

MCP-Atlas 衡量模型在多步骤工作流中调用外部工具（MCP 服务器）的能力。GLM-5.1 得分 71.8

Vending Bench 2 让模型经营一年的模拟自动售货机生意，测试长期规划和资源管理。GLM-5.1 最终账户余额 $5634，vs GLM-5 的 $4432。和 Claude Opus 4.6（$8017）还有明显差距

智能体能力详细对比

推理能力

HLE 被称为「人类最后的考试」，由各领域专家出题，专门测试模型的知识和推理极限。GLM-5.1 得分 31.0，和 Gemini 3.1 Pro（45.0）、GPT-5.4（39.8）有明显差距

AIME 2026 是美国数学邀请赛 2026 年赛题。GLM-5.1 得分 95.3，各家模型在这项上已经非常接近

GPQA-Diamond 是由博士级专家出题的科学问答，涵盖物理、化学、生物等领域。GLM-5.1 得分 86.2

推理维度整体和 GLM-5 持平，GLM-5.1 的提升集中在编码和智能体

推理能力详细对比

技术报告解读

GLM-5.1 的技术细节沿用 GLM-5 的论文框架，论文已公开在 arXiv（2602.15763）。这里提取几个和长程能力直接相关的核心要点

异步 RL 基础设施

GLM-5 整体训练管线

传统同步 RL 处理 Agent 任务时 GPU 空闲严重，因为不同任务的轨迹长度差异极大。智谱把训练引擎和推理引擎解耦到不同 GPU 设备上：推理引擎持续生成轨迹，达到阈值后批量送训练引擎更新模型，权重定期同步

通过一个「多任务 Rollout 编排器」支持超过 1000 个并发 rollout，每个任务实现为独立的微服务，注册到中央编排器统一调度

TITO（Token-in-Token-out）

异步 RL 中一个容易被忽视的问题：把推理引擎当作黑箱只取最终文本，训练器需要重新分词来重建轨迹。分词边界的微小不一致会在数千步的 Agent 任务中逐步累积

TITO 直接消费推理引擎产出的 token ID 流和元数据，保持 action 级别的精确对应，消除重新分词带来的误差

DSA 与 RL 的适配

DSA 训练 SFT loss 对比

GLM-5 在预训练阶段引入 DSA（DeepSeek Sparse Attention），用动态稀疏注意力把长上下文的注意力计算降低约 1.5-2 倍

在 RL 阶段出现了一个实践发现：DSA 的 indexer 必须使用确定性的 torch.topk。非确定性的 CUDA 实现会导致 RL 训练几步之后 entropy 急剧下降，性能严重退化

双侧重要性采样

异步 RL 中不同轨迹可能由不同版本的模型生成，off-policy 问题严重。传统方案需要维护历史策略检查点来计算重要性采样比率

智谱的做法更直接：直接用 rollout 时的 log-probability 作为行为策略的代理，用 token 级别的双侧裁剪机制控制信任域，超出区间的 token 从梯度计算中屏蔽。不需要跟踪历史策略

环境规模

BrowseComp 上下文管理策略对比

编码任务：构建超过 10000 个可验证训练环境，覆盖 Python、Java、Go、C、C++、JavaScript、TypeScript、PHP、Ruby 9 种语言

搜索任务：构建 Web 知识图谱，从 200 万+ 高信息网页中抽取实体和关系，合成高难度多跳 QA 对

国产芯片全栈适配

GLM-5 从第一天起就完成了七家国产芯片平台的全栈适配：华为昇腾、摩尔线程、海光、寒武纪、昆仑芯、沐曦、燧原

在华为昇腾上通过 W4A8 混量化、Lightning Indexer 融合算子、MLAPO 预处理优化等手段，单节点性能接近双卡国际集群

开源与使用

GLM-5.1 权重以 MIT 协议开源，提供 BF16 和 FP8 两个版本。支持 vLLM、SGLang、xLLM（华为昇腾）、Ktransformers 本地部署

API 方面，GLM-5.1 已纳入 GLM Coding Plan（Max/Pro/Lite 套餐），支持 Claude Code、OpenCode、Kilo Code、Roo Code、Cline 等工具接入

GLM-5.1 即将上线 chat.z.ai

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2026-05-21

麻省理工团队开源GenCAD，用一张图片生成完整CAD模型与参数化程序

2026-05-21

真Agent框架生态的主语言已经变为TypeScript

2026-05-20

Hermes Agent + Ollama本地安装指南

2026-05-20

Qwen3.7来了，全球排名第13，国内第一

2026-05-17

开源、零依赖、R@5 精度 95%：agentmemory 凭什么比 mem0 更值得用

2026-05-16

Hermes Agent 深度解析：为什么它能“越用越懂你”？

2026-05-15

再见 Hermes、小龙虾！面向 DeepSeek V4 的终端原生编程智能体来了

2026-05-15

GenericAgent 实测：Token 少用 89.6%，还能打赢 Claude Code？上下文密度才是关键

联系获取

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

Hermes Agent 出来了，聊聊它凭什么跟 OpenClaw 掰手腕

2026-03-30

Google Gemma 4 开源｜全面解读

2026-04-03

字节跳动开源 DeerFlow 2.0：下一代超级 Agent 引擎，一键搞定复杂工作流！

2026-03-23

很多人突然不玩小龙虾而用Hermes Agent了。我替你试了，跟小龙虾到底有啥不同？

2026-04-09

刚刚，Claude Code开源了！51万行代码，全网狂欢

2026-03-31

4 天 6.8K Star，这个 AI 漫剧项目火了：waoowaoo！

2026-03-03

震惊！刚刚，Anthropic掀了桌子：OpenClaude横空出世，大模型闭源时代彻底终结？

2026-04-01

开启极简养虾，用 TRAE 快速部署 OpenClaw

2026-03-04

OpenAI 刚开源了 Symphony：以后写代码，你只需要拖工单就行了

2026-03-09

龙虾绝配：Qwen 3.5 27B！跑在家里，成本为 0

2026-03-30

大家都在问

Hermes Agent 深度解析：为什么它能“越用越懂你”？

2026-05-16

百度把Nano Banana塞进4090，疯了？

2026-04-22

Kimi K2.6 开源了！还附送了 300 个 Agent 员工？

2026-04-21

Hermes 凭什么两个月接棒 OpenClaw？

2026-04-15

很多人突然不玩小龙虾而用Hermes Agent了。我替你试了，跟小龙虾到底有啥不同？

2026-04-09

震惊！刚刚，Anthropic掀了桌子：OpenClaude横空出世，大模型闭源时代彻底终结？

2026-04-01

英伟达的NemoClaw，能帮AI代理这匹“野马”套上缰绳吗？

2026-03-17

你的 AI Agent 真的在受控运行吗？

2026-03-13

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS Skill 提示词技巧 AI+电商 AI面试数字员工 ChatBI AI知识库开源大模型智能营销智能硬件 FDE AI+医疗 MaxKB Palantir Glean Openclaw