我要投稿

GLM-5.1 实测：面向 Agent 长程任务的国内第一模型

发布日期：2026-04-02 22:20:56 浏览次数： 2987

作者：特工宇宙

微信搜一搜，关注“特工宇宙”

前两天，Claude Code 的源码泄漏了。

我拆解完源码后得出一个结论：Claude Code 的 Harness 工程做得很复杂，必须搭配一个顶级的模型，才能发挥出这套工程框架的最大潜力。

于是我开始重新想 Agent 产品的竞争格局：过去半年 Agent 产品井喷，各家都在卷框架、卷工具链、卷交互形态。但把 Agent 拆到最底层，其实核心就两个东西，一个是 Harness 工程，一个就是模型。

由于 Claude Code 的被迫开源，Agent 框架层面的 Harness 工程再过一段时间，可能就要被彻底解决了。随着框架逐渐趋同，真正拉开 Agent 体验差距的，始终是底层模型，尤其是模型面向长程任务的能力。

什么是长程任务？就是那些一句提示词搞不定的事情。

模型要自己拆目标、规划路径、协调多个工具、遇到报错能自行排查修复，在跨越几十个步骤之后依然记得最初的约束条件。

这是一个确定的趋势：METR 的研究显示，AI 能以 50%成功率完成的任务复杂度，近期加速到每 4 到 6 个月翻一倍。长程任务能力，正在成为检验模型智能的下一个标准。

上周智谱发布了 GLM-5.1，我实测了几天之后，有几个想分享的点。

GLM-5.1 到底什么水平？

先说一个很重要的数据：相比 GLM-5，GLM-5.1 的编程能力提升了 20%以上。

YouTube 博主 AICodeKing 在他的 King Bench 测试中，GLM-5.1 排进前二。

此外，在 karminski 牙医的 Vector Bench 上，GLM-5.1 直接拿了第一。

但评分只能反映模型的某一面，真正重要的是在 Agent 场景里的上手体感。

老实说，GLM-5.1 是我目前用下来，国内在 Agent 场景中体感最接近Claude Opus 4的模型：它在处理多步骤复杂任务时，能记得住前面做了什么，清楚当前在哪一步，知道接下来该干什么。如果中间遇到报错，它可以自己定位原因改掉，不停下来等你指挥。

而这种你给目标、它闷头干、最后交结果的体验，在 GLM-5.1 出现之前我只在 Opus 4.6 上体验过。

而相比于 Opus 4.6，这款模型的性价比很高：海外社区有不少用户公开表示放弃 Claude 转用 GLM，原因很直接，效果接近，但价格便宜了好几倍。与此同时，Twitter 上催智谱赶紧开源的帖子排成了长队。

20 分钟帮我省 1000 块钱

聊完模型基本能力，我想分享一个我用 GLM5.1 自己跑的真实项目。

去年，我一直在用一款叫 Typeless 的 macOS 语音输入工具，年费 1000 元，主要用来做 Vibe Coding：按住快捷键说话，松开后自动把语音转成文字填入当前输入框。

前两天，在 GitHub 上发布了一个有意思的开源项目：不是一个代码，而是一段提示词，完整描述了一个 macOS 菜单栏语音输入应用的需求。

https://github.com/yetone/voice-input-src

这个需求写得极其详细，在传统开发模式下，如果找一个 iOS 开发者来实现，保守估计可能要至少一周的时间。

然后，我把这段提示词完整扔给了 GLM-5.1。

接下来，GLM-5.1 驱动的 Claude Code 接管了整个开发过程：

它先自己做了需求分析，把整个项目拆成几个模块，全局 Fn 键监听、语音识别引擎、悬浮窗 UI 与动画系统、文字注入机制、LLM 纠错服务、菜单栏配置界面。

然后一个模块接一个模块往下推进，每完成一个自动进入下一个，不需要我在中间说「继续」。

其中有一个环节让我印象很深：它写完会自己测试、编译，然后当编译遇到冲突，我原本以为 GLM-5.1 会在这里卡住，但它自己定位到了冲突原因，改完代码继续往下走，全程没问我。

大约 20 分钟，它输出了一个带 Makefile 的完整的 Swift 项目。

按照它给的指令操作下，编译后就是一个签名好的 app 文件。

然后我按照它的使用方法一步步操作，接着开了相关的权限。

震撼人心的时候来了，我 build 了一下，于是一个 Mac 应用出现了！

然后我开始直接跑起来测试：按住 Fn 说话，底部弹出胶囊悬浮窗，波形动画跟着声音实时跳动，声音大时波形明显更高，安静时回落到微微晃动的幅度，观感非常自然。

松开 Fn，文字准确地填入了当前光标所在的输入框。整个延时性也让我满意，语音识别几乎实时，LLM 纠错大概多了不到1秒的等待。

而整个过程，只花了我在 5 个小时里内不到 10% 的额度，性价比非常的高。

说实话，这个成品已经覆盖了 Typeless 90%以上的核心功能，而且代码完全在我手里，我可以继续往里加自己想要的东西，比如自动标点优化、多语言快捷键切换，甚至对接本地大模型做离线纠错。

于是，1000 块一年的 Typeless，我大概率不会再续费了。

社区里还有更有趣的

这个测试能体现 GLM5.1 的编程能力，在社区，我也看到了几个其他人有趣的测试：

有位海外博主直接用 GLM-5.1 从零开发了一个我的世界。

它不仅有完整游戏机制，还有可交互场景的版本。这种规模的项目，需要模型在长时间跨度内对代码架构保持连贯的理解，任何一步的上下文丢失都会导致后续代码和前面对不上，GLM-5.1 全程扛住了。

还有个博主做了个室内设计平面图，这说明 GLM5.1 对空间和结构的理解也非常到位。

然后，我在智谱官方发的帖子的评论区下面，看到有用户用 AutoGLM 的 Skill 功能做了一个自动读论文的 Skill，看起来效果很好。

我有点手痒，试着用 Kimi 2.5 复刻一个类似的。

但我折腾了一整天，效果还是不如这哥们发的用 GLM-5.1 做的版本。

这让我越来越确认一件事：写一段代码大家都能写，但从头到尾完成一个完整项目并交付可用结果，才是真正考验模型能力的地方。

GLM-5.1 在这类长程任务上的稳定性，在目前国内的模型里，是断档的第一。

未来，也许我们不再需要 APP

回过头看，过去这几年，有一条模型演化的路线。

最早的 AI coding 阶段，模型学会了写代码，本质上是程序员的效率工具，帮你写得更快、查 bug 更方便，但服务对象始终是专业开发者。

接着进入 vibe coding 时代。我们不需要理解每一行代码，可以借助更好的 coding agent，就能把想法快速变成产品原型，这个过程中，代码本身变得廉价了，想法的价值开始凸显。

再往前，我们来到 agentic coding，AI 开始自主理解需求、制定计划、编写代码、测试迭代修复，有了工程师的雏形。

到了现在，模型的竞争焦点到了 long horizon：真实世界里最有价值的任务，需要跨步骤、跨工具、跨时间地持续推进，模型要保持上下文、维护目标一致性、处理中途的意外并自主修正路径。

GLM-5.1 让我感受到，国内模型第一次在长程任务上逼近了资深工程师的水准。给它目标，它自己拆路径。遇到问题，它自己排查修复。跑完全程，交付完整可用的结果。

而这一切，意味着什么？

我今天花 20 分钟做了一个语音输入工具。明天可以花半小时做一个专属日程管理系统。后天就可以用一个下午搭一个专属的 AI 同事。

这些东西以前要么花钱买现成产品，同时要忍受一堆用不到的功能，要么花几周自己写代码。但现在，模型几个小时甚至几十分钟就能交付，完全按你的需求定制。

我甚至觉得，现在 GLM-5.1 做出来的很多工具，在功能完整度上现在都超过了一些付费产品。

所以，未来很多 App、桌面软件，甚至一些网页工具，可能都不再有存在的必要。

这很合理：当模型能在短时间内，帮你从零构建一个完全定制化的工具，你为什么还要为一个通用产品每年付费？

所以，我的朋友。

如果你还没用过 GLM-5.1，真的非常推荐体验一下：

建议找一个你一直想做但觉得太麻烦的小工具，把需求描述清楚，交给它跑一遍。

https://bigmodel.cn

于是你会发现，你也可以每年省下一大笔，可能已经不再需要的钱。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2026-05-17

大语言模型为什么能像人一样说话和思考？

2026-05-16

Kiro：亚马逊新出的 AI 编程工具，免费白嫖一个月 Claude Opus 4.7

2026-05-16

突发！OpenAI高层巨震，ChatGPT与CodeX或合并，超级AI来了！

2026-05-16

AI Native 创业手册 | 蚂上WEEKLY VOL.172

2026-05-16

腾讯造了个“贾维斯”：替我签到改配置，还会打盹上厕所，一手实测来了

2026-05-16

从零构建AI Agent：没有魔法，只有循环

2026-05-15

成为ClaudeCode顶尖1%用户的完整指南

2026-05-15

在手机上用Codex写一下午代码，说实话，有点上头。

联系获取

联系获取

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

Claude Opus 4.7刚刚曝光！Claude Code一夜重构，7x24小时替你打工

2026-04-15

刚刚Qwen 3.6 Plus上线预览：1M上下文，阿里Coding/Agent翻身战打响

2026-03-31

2026年国内如何注册 Claude 账号教程

2026-03-13

OpenAI Codex CLI 完整使用指南

2026-04-07

独家| DeepSeek-V4终于要来了：梁文锋憋半年大招，多模态+长期记忆全面破局

2026-03-17

香港终于能直接用 Gemini 了，内地用户能用上吗？

2026-03-17

Claude Code 和 Codex 接入 Figma MCP 保姆级教程

2026-04-07

编程选GPT-5.4，还是GPT-5.3-Codex？

2026-03-21

全球首个 AI 进化网络 EvoMap，给 Agent 装上 DNA

2026-02-20

GPT5.5来了，最大特点解析

2026-04-24

大家都在问

大语言模型为什么能像人一样说话和思考？

2026-05-17

谁来给企业端即将大规模入职的Agent盖办公室？

2026-05-09

鹅厂员工觉得好的code模型应该具备什么能力？

2026-05-09

Markdown要被抛弃了？Claude Code工程师自曝：我已彻底放弃使用Markdown！团队倾向使用HTML！网友：其他编辑工具会被淘汰吗？

2026-05-09

AI吞噬软件的叙事要分化了？

2026-05-08

为什么同一个模型，在 Claude Code/Codex CLI 里感觉像换了个脑子？

2026-05-07

「双线实测」Qwen 3.6-Plus，Agentic Coding 已经这么能「扛活儿」了？

2026-04-26

本体化语义层，会是 AI 数据平台的新地基吗？

2026-04-22

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS Skill 提示词技巧 AI+电商 AI面试数字员工 ChatBI AI知识库开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB Palantir Glean Openclaw

应聘简历请发送至： ceo@53ai.com

联系我们

售前咨询

预约演示

微信扫码

添加专属顾问

回到顶部