我要投稿

OpenAI突然开源新模型！99.9%的权重是0，新稀疏性方法代替MoE

发布日期：2025-12-14 15:29:18 浏览次数： 1997

作者：量子位

微信搜一搜，关注“量子位”

破解AI胡说八道的关键，居然是给大模型砍断99.9%的连接线？

OpenAI悄悄开源新模型，仅有0.4B参数，且99.9%的权重为零。

也就是Circuit Sparsity技术的开源实现。

这是一种通过人为约束模型内部连接的稀疏性，让模型计算过程可拆解、可理解的大语言模型变体，本质上是为了解决传统稠密Transformer的黑箱问题，让内部的计算电路能被人类清晰解读，知道AI是如何做决策的，避免轻易相信AI的胡话（doge）。

更有人直言这种「极致稀疏+功能解耦」的思路可能会让当下热门的MoE（混合专家模型）走上末路。

那么，当Transformer的权重被训练到近乎全0，会发生什么呢？

放弃粗糙近似，追求原生稀疏

先说说为啥这个模型的思考过程能像电路图一样好懂。

咱们平时用的传统大模型，内部神经元连接得密密麻麻，权重矩阵几乎全为非零值，信息传递呈现出高度叠加状态，就像一团扯不开的乱线，没人能说清它是怎么得出某个结论的。

而Circuit Sparsity模型反其道而行之，基于GPT-2风格的Transformer架构训练时，通过严格约束让权重的L0范数极小，直接把99.9%的无效连接砍断，只留下千分之一的有效通路。

这些留存的非零权重连接就像电路图里的导线，信息只能沿着固定路径传递；同时，模型还会通过均值屏蔽剪枝方法，为每个任务拆出专属的最小电路。

比如处理Python引号闭合任务时，仅需2个MLP神经元和1个注意力头就能构成核心电路，包含专门的引号检测器、类型分类器等功能模块，就像电路图里的电阻、电容，各自管各自的事。

实验数据显示，在预训练损失相同的前提下，稀疏模型的任务专属电路规模比稠密模型小16倍，且具备严格的必要性与充分性——保留这些模块就能完成任务，删掉任一节点则直接失效。

这样，每一步的逻辑都能精准追踪。

那这时候就不得不提当下主流的MoE模型了。

MoE的核心思路是通过门控网络将模型拆分为多个专家子网络，每个专家负责处理一部分任务，靠路由器分配任务来提升效率，本质上是用拆分专家这种粗糙的方式近似稀疏性，目的只是为了适配硬件的稠密矩阵计算需求。

但这种架构存在致命缺陷：

一是会割裂模型的特征流形，导致专家同质化严重、知识冗余等问题，不同专家间的信息协同依赖复杂的负载均衡损失函数调控，稳定性堪忧；
二是专家功能边界模糊，无法像Circuit Sparsity模型那样实现微观机制的精准拆解。

反观Circuit Sparsity，追求的是模型原生的稀疏性，通过把特征投射到超大维度，再严格限制有效激活的节点数量，从设计上就让每个特征变得单义、正交，从根源上解决了传统模型一个概念分散在多个节点的叠加问题，不用靠路由器这种hack手段也能避免信息干扰。

不过Circuit Sparsity目前也有明显的短板，最突出的就是算力成本极高。

训练和推理的计算量是传统稠密模型的100-1000倍，暂时还达不到顶尖大模型的能力；

而MoE模型在算力效率和性能平衡上已经很成熟，短期内依然会是工业界的主流选择。

并且，这项工作也只是AI可解释性探索的早期一步，未来团队计划将技术扩展到更大的模型，解锁更复杂的推理电路。

目前，团队发现有两种克服稀疏模型训练效率低下的方法：

一个是直接从现有的密集模型中提取稀疏电路，这样直接复用基础框架，不额外训练稀疏模型，能大幅降低成本；
另一种途径则是不放弃从头训练可解释稀疏模型的这种思路，但针对训练慢、成本高的短板，从技术层面优化训练机制，造出原生可解释、且能高效落地的模型。

那么就期待研究人员后续用更成熟的工具或技术，逐步揭开大模型的黑箱面纱了。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2026-06-22

DiffusionGemma: 文本生成速度提升 4 倍

2026-06-22

刚刚，百度开源拿下全球第一！作者疑似DeepSeek出走大神

2026-06-22

Agent终于有了自己的邮箱！腾讯Agently Mail详解

2026-06-20

GLM-5.2本地部署：744B参数模型如何在Mac上跑

2026-06-20

Hermes Agent v0.17发布：AI助手开始扩展触角

2026-06-18

开源中医 Skill：把倪海厦课程变成可检索知识库

2026-06-18

Gemma 4 QAT 模型现已推出: 支持日常端侧设备与消费级 GPU 本地流畅运行

2026-06-17

GLM-5.2 技术解读：智谱百万上下文的新一代旗舰模型

联系获取

联系获取

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

Hermes Agent 出来了，聊聊它凭什么跟 OpenClaw 掰手腕

2026-03-30

很多人突然不玩小龙虾而用Hermes Agent了。我替你试了，跟小龙虾到底有啥不同？

2026-04-09

Google Gemma 4 开源｜全面解读

2026-04-03

震惊！刚刚，Anthropic掀了桌子：OpenClaude横空出世，大模型闭源时代彻底终结？

2026-04-01

刚刚，Claude Code开源了！51万行代码，全网狂欢

2026-03-31

龙虾绝配：Qwen 3.5 27B！跑在家里，成本为 0

2026-03-30

Ollama 本地部署 Gemma 4 完全指南

2026-04-18

Google Gemini CLI 完整使用指南

2026-04-18

CoPaw深度解析：源码架构和功能实践

2026-03-31

炸裂！Seedance 2.0 免费用！全网第一只接入的开源龙虾，效果离谱

2026-04-02

大家都在问

26.1%的AI编程技能有漏洞：NVIDIA开源 SkillSpector 能扫出什么？

2026-06-16

企业级 AI Agent 为什么集体转向“基座 + Skills”？

2026-05-30

Hermes Agent 深度解析：为什么它能“越用越懂你”？

2026-05-16

百度把Nano Banana塞进4090，疯了？

2026-04-22

Kimi K2.6 开源了！还附送了 300 个 Agent 员工？

2026-04-21

Hermes 凭什么两个月接棒 OpenClaw？

2026-04-15

很多人突然不玩小龙虾而用Hermes Agent了。我替你试了，跟小龙虾到底有啥不同？

2026-04-09

震惊！刚刚，Anthropic掀了桌子：OpenClaude横空出世，大模型闭源时代彻底终结？

2026-04-01

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS Skill 提示词技巧 AI+电商 AI面试数字员工 ChatBI AI知识库开源大模型智能营销智能硬件 FDE AI+医疗 MaxKB Palantir Glean Openclaw

应聘简历请发送至： ceo@53ai.com

联系我们

售前咨询

预约演示

微信扫码

添加专属顾问

回到顶部