2026年6月25日 周四晚上19:30,报名腾讯会议了解“如何构建自进化的动态知识库(Brain)”(限30人)
免费POC, 零成本试错
FDE知识库

FDE知识库

学习大模型的前沿技术与行业落地应用


我要投稿

Nathan Lambert:GLM-5.2是开源Agent重大突破,连锁反应将渗透进更广泛的经济体

发布日期:2026-06-24 21:42:09 浏览次数: 1587
作者:AI寒武纪

微信搜一搜,关注“AI寒武纪”

推荐语

开源AI领域的重大突破:GLM-5.2首次让免费模型媲美顶尖付费AI,代码与复杂任务处理能力直追前沿,这标志着一扇无法回头的技术单向门已开启。

核心内容:
1. GLM-5.2的关键突破与行业影响
2. 模型发布背后的策略与时代背景
3. 开源AI生态的竞争格局与未来展望

杨芳贤
53AI创始人/腾讯云(TVP)最具价值专家


↑阅读之前记得关注+星标⭐️,😄,每天才能第一时间接收到更新


 

开源AI领域的重量级观察者 Nathan Lambert :GLM-5.2突然能做到那些只有顶尖付费AI才能做的事:写代码、自动完成复杂任务。他把这次突破比作当年 DeepSeek R1 震惊世界的那一刻。这意味着,花大价钱垄断最强AI的美国大公司,第一次感受到了真正的威胁。而 GLM-5.2 迈出的这一步,更像是 AI 进步历程中一扇无法回头的单向门。

Nathan Lambert 是当前 AI 开源世界最核心的声音之一。

在 RLHF 领域是公认的专家。John Schulman(ChatGPT 联创、前 Anthropic)公开推荐他的博客作为 RLHF 进阶读物。

Interconnects Discord 有 300+ 成员,涵盖前沿实验室研究员、创始人、投资人,形成独特的信息网络。他对开源模型的报道和分析在西方社区是重要的第一手信源。

Nathan Lambert刚写了一篇关于GLM5.2的文章,完整中文版如下:

https://www.interconnects.ai/p/glm-52-is-the-step-change-for-open

我一直在密切监测的一个能力临界点。

Benchmark chart
Benchmark chart

大约一周前,正当整个 AI 界还在因 Claude Fable 5 遭到令人震惊的出口限制及事实上的封禁而惊魂未定时,Z.ai 发布了他们的最新模型:GLM-5.2。这一模型在 6 月 13 日(周六)以一种不同寻常的方式,率先向 GLM 编程计划(GLM Coding Plan)的会员开放。反常的发布惯例总有缘由,通常 AI 模型选在周末发布,背后都有点奇奇怪怪的原因(其中最著名的例子当属 Llama 4)。但在本次事件中,Z.ai 似乎异常兴奋,试图借着“Anthropic 走向反开源科学(对其 AI 研究人员采取静默安全机制)”这一时代情绪的东风大赚一笔。在过去的一两年里,中国的开放权重实验室抓住了每一个类似的机会,轻松赢下了一场场营销战。

按照行业内通用的命名惯例,GLM-5.2 看起来可能只是继备受追捧的 GLM-5.1 之后的一次渐进式更新。时至今日,打造了 Kimi 系列模型的月之暗面(Moonshot AI)与打造了 GLM 系列模型的 Z.ai,已经凭借 AI 研究人员群体中最受喜爱的开放权重模型,稳稳占据了口碑市场的头部生态位。然而接下来的演变,印证了一个追踪 AI 模型的经典教训:往往微小的版本号变动,却能让 AI 模型跨越极具意义的用户体验临界点。 基准测试和训练方式上的些许微调,就能开启极其广泛的新应用场景。

随之而来的是针对 GLM-5.2 缓慢而汹涌的口碑发酵。在其初始推送的三天后,即 6 月 16 日,官方采用 MIT 协议的模型权重和发布博客正式上线。人们可以长篇累牍地罗列它的技术细节——比如强悍的跑分成绩、Z.ai 所使用的极其热门的强化学习框架(SLIME)、以及官方“始终建议在 Max 思考强度(Max thinking effort)下使用该模型”的提示等等,但最初的官宣博客通常不是重点。你大可按兵不动,静观整个生态系统的真实反应,以此来判断它到底是不是“真家伙”。反正,如今的基准测试已经半死不活了。

6 月 16 日之后,社区涌现出了大量测评结果,GLM-5.2 的表现远超预期。Arena 的智能体排行榜将其评为唯一一个能与 OpenAI 和 Anthropic 最新模型同台竞技的开源模型(值得注意的是,它以“最大思考模式”追平了 Opus 4.8 的“非思考模式”)。这还只是 GLM-5.2 在众多评估中把 Gemini 吊起来打的指标之一,不过那是另一个话题了。甚至连一个在社区内(尤其是实际从业的设计师群体中)口碑褒贬不一的测试——Design Arena,都显示 GLM-5.2 击败了 Claude Fable 本尊——那个最近刚被封禁的营销神话!

在 AI 评论界和我所尊重的研究人员群体中,几乎所有亲自上手体验过该模型的人都对其赞不绝口。开源模型的发布能成为社区如此清晰的凝聚点与讨论核心,此前只发生过一次——那就是 DeepSeek R1。这不是一个我会轻率作出的对比;当初我把 Kimi K2 的发布比作“DeepSeek 时刻”时,GLM-5.2 现在达到的高度已经远超于此。Kimi K2 之所以令人惊艳,是因为它证明了开源模型性能的大幅跨越似乎可以诞生于中国的任何地方;而 GLM-5.2 迈出的这一步,更像是 AI 进步历程中一扇无法回头的单向门。

Anthropic 依托 Claude Code 实现的创纪录营收增速,极其严重地建立在“它是最好的模型,也是唯一真正能胜任这项工作的模型”这一认知上。GLM-5.2 是首个(且后续还会有更多)提供可信替代方案的开放权重模型。这其中的平行映射非常清晰:正如当年的 DeepSeek R1 向世人展示,资源匮乏得多的开源实验室,同样能够复现 OpenAI 凭借 o1 引领的思维链推理模型。随着 AI 系统变得日益复杂、构建成本极其高昂——需要配套各种工具、复杂的集成开发框架(Harness)以及超大规模的模型权重——GLM-5.2 这一刻的降临,在此前绝非理所当然。

最核心的一点在于,GLM-5.2 是首个在编程框架中作为通用智能体使用时,“手感极佳”(feels right)的开放权重模型。 它是开天辟地的头一个。我个人在尝试近期一些同类模型(如 Kimi K2.7 或 GLM-5.1)的进度上本有些滞后,但 GLM-5.2 的热度实在高到让我无法忽视。我把它接入了 Claude Code 中基于 Fireworks API 的工作流,让它协助我为我的后训练(Post-training)课程编写内容(配置过程非常简单)。中间确实遇到了一些小卡顿,比如 Claude Code 框架或我的仓库文档试图向模型发送图片,导致 Fireworks API 的该次会话直接卡死——迫使我手动清除上下文。但总的来说,模型的底子让人一上手就感觉对了,至于具体选择哪个驱动框架和云服务商,我还需要再做些微调。

如果你想看更多的行业吹捧,可以瞧瞧 Z.ai 创始人对马斯克说的那句:“开放权重的 Fable 级能力将比 2027 年第一季度更早到来”;Vercel 首席执行官发推称:“由 @zai_org 打造的 GLM-5.2 在写代码方面的表现好到让我发自内心地感到震撼,甚至有些震惊。这改变了游戏规则”;以及更多来自一群我极度尊重的人,以及我刚认识的圈内人士的评价。


那么,这是一个好模型,这又将我们推向了何处?

多种趋势正在交织作用。首先,让我们建立在“开源与闭源能力差距”这一基准线上来审视。我曾写道,如果开源模型能在 2026 年初左右迈过“Claude Code 中 Opus 4.5”的能力门槛,我预计将迎来一场“使用量的爆发”。现在,这一天来了。从 2025 年 11 月 24 日 Claude Opus 4.5 发布,到 2026 年 6 月 16 日 GLM-5.2 发布,时间间隔为 204 天——约合 6.8 个月。这恰好落入了很多人所主张的“美国闭源实验室与中国开源对手之间存在 6 到 9 个月性能时差”的区间。

写到这里,我自己都感到诧异。鉴于美国实验室在过去大约一年里疯狂拉高算力投入,我原本预计这个时间差距会随着推移而不断拉大。这条轨迹上一个非常具有决定性意义的节点,将是 Claude Fable 5 的发布——相比于 Claude Opus 系列,它更严重依赖于规模(Scale),因而也更依赖于最先进的 GPU。不过,这仍然不是一个令人满意的解释。要继续拆解这条发展轨迹,其背后的复杂与微妙程度,绝非我在这篇风向标式的短文里三言两语能容纳得下的。

此事最直接的意义在于,给那些疯狂压榨 Token 吞吐量(tokenmaxxing)、把 Anthropic 营收推向月球的组织内部,带来了严峻得多的价格压力。有些人或许会预测 Anthropic 将无法达成其预测的年度经常性收入(ARR)目标,但我认为这种看法没有把市场对这些模型的真实需求以及不可避免的增长势头计算在内。这一模型的存在,对开源模型经济体而言是一记超级强心针。像 Fireworks、Together、Thinky(通过 Tinker)、Prime Intellect 以及所有出售开源模型推理或微调服务的厂商,刚刚迎来了又一个拐点。

这里的连锁反应渗透进更广泛的经济体(以及具体应用场景)还需要很长一段时间。工作流正变得愈发复杂,人们开始使用不同的模型分别进行规划、核心编码以及子智能体调度。我预计这股热潮还将继续发酵——见鬼,写下这段话的时候正是周日晚上,我已经能预见到周一媒体和市场的反应了,绝对会像当年的 DeepSeek R1 发布时一模一样。当 Anthropic 的模型(扩大范围来说即美国的旗舰模型)依然处于被禁状态时,这种技术扩散的发生,无异于一把插入经济体命门深处的匕首。正当闭源巨头们试图向着唯有绝对前沿模型才能解锁的高毛利、高营收领域突进时,GLM-5.2 却得到了充裕的时间,去蚕食前沿实验室的经济腹地。

这一经济隐忧映射了一个在 AI 圈子里已经被翻来覆去讲过无数遍的故事,因此很难说这一次它会在何时真正产生决定性影响。

感觉上更关乎 AI 发展主线的议题,是关于开源模型的监管与管控。我认为廉价智能的广泛传播是一种经济善举,我们的默认立场理应是为开源模型喝彩;然而,该模型的发布日期,将使其在 AI 权力结构的认知地图中,永久地与 Claude Fable(并进而与 Claude Mythos)挂钩。我们正处于这样一个历史节点:Mythos 级别的模型能力被美国政府裁定为“不宜对外公开发布”,而中国的大模型制造商们却在所有人皆可触达的普惠能力道路上狂飙突进。

这些趋势线在因果上未必直接相关,因为我们尚不清楚 GLM-5.2 与其前代产品在网络攻防(Cyber)方面的具体表现差异,但它们的能力绝对是正相关的。如果外界条件不发生任何改变,这指向了一种潜在的可能:美国政府最终裁定某款开放权重的中国模型“对公众存在安全隐患”。此处当然还存在诸多其他潜在推演,但唯一明确的是,在梳理这些预案、准备我们的基础设施、以及向全社会传达信息方面,我们还有海量的工作要做。

要向决策者描绘并传达“如何管理愈发强大的开源模型”的未来世界,光靠我一个人远远不够,还需要多得多的同路人。人工智能的征途还有数年之久,英伟达下一代芯片已投入量产,算法上的突破更是连绵不绝。对开源模型的拥护者而言,前路感觉是一条极其逼仄的细缝,但我们必须找出让它们活下去的办法,绝不能让性能的跃升仅仅变成闭源模型的独角戏。

我完全理解为什么“想象一个公众可随意访问的 Mythos 级模型”会让人感到胆寒;但如果开源模型在今天被一刀切地禁绝,而在未来的两年里,只有掌握在一两家公司手里的闭源模型获得了 10 倍甚至 100 倍的性能跃升——我认为到那时候,我们将面临远比现在严重得多的危机。


最后我再说一句,就像文章题目所说的「连锁反应将渗透进更广泛的经济体」,这句话值得好好思考一下。

 

--end--


最后记得⭐️我,每天都在更新:如果觉得文章还不错的话可以点赞转发推荐评论

/...@作者:你说的完全正确(YAR师)

53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询