免费POC, 零成本试错
AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


我要投稿

OpenAI开源“稀疏电路”,我们能看懂AI在想什么了

发布日期:2025-12-30 16:07:44 浏览次数: 1527
作者:至顶AI实验室

微信搜一搜,关注“至顶AI实验室”

推荐语

OpenAI突破性研究让AI"思考"过程首次变得透明,稀疏电路技术揭开黑箱之谜。

核心内容:
1. AI"黑箱问题"的本质与挑战
2. 稀疏神经网络原理与实现方法
3. 可解释性突破对AI发展的深远影响

杨芳贤
53AI创始人/腾讯云(TVP)最具价值专家

我们创造出了能写诗、能编程、能回答各种问题的AI,却对它内部的运作方式几乎一无所知。比如咖啡机,每次按下按钮都能得到完美的拿铁,但你完全不知道机器里面发生了什么,豆子是怎么被研磨的?牛奶是怎么被打出泡沫的?这种"只知其然,不知其所以然"的状态,在AI领域被称为"黑箱问题"。

有时候我们向AI提问,它会显示“思考中”,甚至还能看见思考内容,这是它最真实的思考吗?未必,有人发现AI后续的回答和先前的思考并不一致。那么对于AI真实思考的研究,只能到此为止了吗?

2025年11月,OpenAI提出了一种让AI变得可理解的新方法,核心思路非常简单,让AI的大脑变得更稀疏。

假如某人的大脑有1000亿个神经元,每个神经元都和其他所有神经元相连,那要理解他的任何一个想法,就需要追踪天文数字级别的连接。但如果每个神经元只和少数几个其他神经元相连呢?这时候,追踪一个想法的路径就变得容易多了。OpenAI的研究者们正是利用这个原理,训练出了一种特殊的AI,它的"神经连接"被刻意压缩到只剩下正常AI的千分之一左右。结果令人惊喜:这种稀疏的AI不仅能正常工作,而且它的"思维过程"终于变得可以被人类理解了。

为什么AI的大脑像一团乱麻

现代AI,尤其是像ChatGPT这样的大型语言模型,本质上是一个巨大的神经网络。你可以把它想象成一个由无数开关组成的超级复杂的电路板。当你向AI提问时,信息会从输入端流入,经过层层处理,最后从输出端给出答案。问题在于,这个"电路板"上的每一个开关都和其他很多开关相连,而且这些连接的强度(我们称之为"权重")是在训练过程中自动学会的。

研究者们发现了一个有趣的现象,他们称之为"叠加"。这就好比你的大脑用同一组神经元来同时存储"猫"、"狗"和"兔子"三个概念,而不是为每个概念分配专门的神经元。虽然这种方式非常节省空间,但也让追踪单个概念变得极其困难,当你看到某个神经元激活时,你不知道它代表的是猫、狗还是兔子,也可能三者都有一点。

这种"概念叠加"的现象导致了一个严重的问题:即使研究者们想要理解AI是如何完成某个特定任务的,他们也很难把相关的"电路"从整个网络中分离出来。这就像试图在一碗意大利面里找出某一根面条的完整路径,当所有面条都纠缠在一起时,这几乎是不可能的任务。

减法带来的惊喜:让AI变稀疏

OpenAI研究团队的解决方案可以用四个字概括:做减法。

他们的核心想法是这样的:既然密集连接的网络难以理解,那就训练一个连接稀疏的网络。具体来说,他们强制让神经网络中的绝大多数"权重"(也就是神经元之间连接的强度)保持为零。在他们最稀疏的模型中,只有大约千分之一的连接是有效的。

这个方法听起来简单,实施起来却需要很多技巧。研究者们采用了一种叫做"Top-K"的策略,在每一步训练中,只保留每个权重矩阵中绝对值最大的那些权重,其余全部清零。他们还使用了一种渐进式的"退火"过程:训练开始时网络是密集的,然后逐渐变得稀疏,这样可以让网络有机会找到最重要的连接。

为了让这个比喻更具体一些,想象你正在装修一个新家。一开始,你在每面墙上都装了各种插座、开关和线路,因为你还不确定哪些是必需的。但随着你慢慢熟悉生活需求,你发现其实只需要在特定位置保留几个关键的开关就够了,客厅的主灯开关、卧室床头的阅读灯开关、厨房的排气扇开关。那些不常用的线路被一一拆除,最后剩下的都是真正必要的连接。稀疏训练就是这样一个"精简电路"的过程。

研究团队还发现,单纯让权重稀疏还不够,他们还需要让"激活"也变得稀疏。激活是什么意思呢?可以把它理解为神经元在处理特定输入时的"活跃程度"。在正常的AI中,面对任何输入,大量神经元都会同时活跃起来。但在研究者们设计的稀疏模型中,他们使用了一种叫做"AbsTopK"的激活函数,每次只允许大约四分之一的神经元活跃。

权重稀疏和激活稀疏这两种稀疏性的结合,产生了神奇的效果。每个神经元现在只能从少数几个其他神经元那里获取信息,也只能向少数几个其他神经元发送信息。这就大大限制了"概念叠加"的可能性,因为要把多个概念塞进同一个神经元变得更加困难了。

像考古学家一样挖掘AI的思维电路

训练出稀疏模型只是第一步。接下来,研究者们需要一种方法来提取出AI用于完成特定任务的电路。

他们设计了一套精巧的任务来测试AI的能力。这些任务都是简单但需要特定技能的Python编程预测问题。比如,有一个任务是预测字符串应该用单引号还是双引号来结束,如果字符串是用双引号开始的,AI就需要预测双引号作为结束符。另一个任务是追踪变量的类型,如果一个变量被初始化为集合(set),AI需要记住这一点,并在后面正确预测使用".add"方法而不是"+="操作符。

有了这些任务,研究者们就可以使用一种叫做剪枝的技术来找出相关的电路。剪枝的过程很像雕塑:你从一块完整的石头开始,然后一点点敲掉不需要的部分,直到露出里面的形状。在这里,研究者们从完整的稀疏模型开始,然后逐步"删除"那些对完成特定任务不重要的神经元。被删除的神经元会被设置为它们在整个训练数据上的平均值,这样就相当于把它们"静音"了。

这个剪枝过程使用了一种学习算法:研究者们为每个神经元分配一个"掩码参数",这个参数决定了神经元是保留还是删除。通过优化这些掩码参数,他们可以找到最小的神经元集合,使得这个集合仍然能够很好地完成任务。最终剩下的神经元及其之间的连接,就构成了完成该任务的电路。

研究结果令人印象深刻。在相同的任务损失水平下,稀疏模型的电路大小只有密集模型的大约十六分之一。这意味着理解稀疏模型如何完成任务变得容易多了,你只需要分析十几个神经元和几十个连接,而不是成百上千个。

解剖AI的思维:三个迷人的电路故事

最精彩的部分来了。研究者们花费了大量时间来人工分析这些提取出来的电路,试图理解AI到底是如何思考的。他们选择了三个任务进行深入研究,每个任务大约花费了一个研究员一天的时间。让我们逐一来看这些发现。

第一个故事关于字符串引号匹配。当AI需要预测用单引号还是双引号来结束一个字符串时,它使用了一个非常简洁的两步策略。在第一步,模型最早的一个MLP层会处理输入的引号标记。它把双引号和单引号的信息转换成两个特殊的"信号":一个是"引号检测器",无论是单引号还是双引号都会激活它;另一个是"引号类型分类器",双引号时是正值,单引号时是负值。在第二步,一个注意力头会使用"引号检测器"来决定关注哪个位置(也就是开头的引号),然后把"引号类型分类器"的值复制到当前位置,从而预测正确的结束引号。整个电路只用了12个节点和9条连接!

第二个故事更加复杂,涉及计算括号嵌套深度。当AI需要判断是输出"]"还是"]]"来正确关闭列表时,它展现了一种巧妙的计数机制。首先,每个"["符号在进入模型时,它的嵌入向量会写入几个特定的残差通道,形成"开括号检测器"。然后,一个注意力头会把整个上下文中所有开括号检测器的值求平均。这个平均值被写入一个新的残差通道,代表"嵌套深度",嵌套越深,这个值就越大。最后,另一个注意力头会对这个深度值进行"阈值判断":如果深度超过某个阈值,就输出双括号;否则输出单括号。

这个发现引出了一个有趣的预测:既然模型是通过求平均来计算深度的,那么如果上下文中有很多无关的标记,平均值就会被"稀释",导致模型出错。研究者们验证了这个预测,当他们故意在代码注释中加入额外的未匹配开括号时,模型果然被骗了!更有趣的是,这种"上下文稀释攻击"甚至对相同能力级别的密集模型也有效,说明这可能是一种普遍的算法模式。

第三个故事展示了AI如何追踪变量类型。当模型需要记住一个变量是集合还是字符串,并在后面做出正确预测时,它使用了一个两跳的注意力机制。首先,一个注意力头会把变量名复制到初始化位置(比如"set()"或空字符串)。然后,当模型需要预测这个变量的方法时,另一个注意力头会用变量名作为"查询",找到之前存储的初始化信息,并把它复制到当前位置用于预测。

这三个电路故事有一个共同点:它们都可以被理解为人类可以手动验证的简单算法。这是一个巨大的突破,以前,我们只知道AI给出了正确答案,但不知道它是怎么得到答案的;现在,我们可以看到它的"解题步骤"了。

能力与可解释性的权衡:天下没有免费的午餐

当然,让AI变得可理解是有代价的。研究者们发现,稀疏性和能力之间存在一个清晰的权衡关系。

具体来说,如果你把模型训练得更稀疏(也就是保留更少的连接),模型在预训练任务上的表现就会变差,但电路会变得更小、更容易理解。这就像一个光谱:一端是完全密集的模型,能力很强但像一团乱麻;另一端是极度稀疏的模型,容易理解但能力有限。

不过,研究者们也发现了一个令人鼓舞的结果:增加模型的总参数量可以改善这个权衡。也就是说,如果你把模型做得更大,你可以在保持相同稀疏度的情况下获得更好的能力,或者在保持相同能力的情况下获得更稀疏(更容易理解)的电路。这就像是用更大的画布来画同样的内容,你有更多的空间来分离不同的元素,让画面变得更清晰。

研究者们测试了从大约100万到1500万非零参数的模型规模。结果显示,在这个范围内,更大的模型确实能够获得更好的"能力-可解释性"前沿。然而,他们也承认,如何在保持可解释性的同时将模型扩展到数千万非零参数以上,仍然是一个挑战。

架起桥梁:让稀疏模型理解密集模型

到目前为止,所有结果都来自于从零开始训练的稀疏模型。但这引出了一个自然的问题:我们能不能用这种方法来理解已经存在的密集模型呢?毕竟,比如GPT-4等这些强大的AI,基本都是密集模型,我们不可能重新训练它们。

研究者们探索了一种叫做"桥接"的技术来解决这个问题。核心思想是这样的:同时训练一个稀疏模型和一系列"翻译器"(桥),这些翻译器可以把密集模型的内部表示转换成稀疏模型的表示,反之亦然。如果训练成功,稀疏模型就可以作为密集模型的一个"可解释版本",你可以在稀疏模型中找到某个概念的表示,然后通过桥把这个表示映射回密集模型,从而理解密集模型是如何表示这个概念的。

研究者们进行了初步实验来验证这个想法。他们训练了一个4层的密集模型和一个对应的桥接稀疏模型,然后尝试在稀疏模型中找到代表"引号类型"的神经元。找到这个神经元后,他们修改它的值来模拟"单引号"的情况,然后通过桥把这个修改映射到密集模型。结果很鼓舞人心:密集模型的行为确实发生了预期的变化,输出单引号的概率大幅增加。

这个结果虽然是初步的,但它暗示了一条令人兴奋的道路:也许我们可以通过训练"可解释的影子模型"来理解那些无法直接解释的大型AI。

至顶AI实验室洞见

说到底,这项研究的核心价值在于它向我们展示了一种可能性:AI不必是不可理解的黑箱。

当前,我们对AI的信任在很大程度上是"盲目"的,我们看到它给出正确的答案,就假设它是以正确的方式得到这些答案的。但我们并不真正知道AI内部在做什么,它可能是通过我们完全意想不到的"捷径"来解决问题的。这种不确定性是AI安全的一个重大隐患。

OpenAI的这项研究提供了一条通往"可理解AI"的道路。虽然目前这种方法只能应用于相对较小的模型和简单的任务,但它证明了原则上是可行的。未来,随着方法的改进和计算效率的提升,也许我们能够理解更大、更强的AI是如何工作的。

研究者们特别提到了几个令人期待的方向。一是创建一系列"可解释的模型生物",一组不同规模的稀疏模型,可以用来研究AI的普遍计算模式。如果稀疏模型和密集模型使用类似的"电路模式"来解决问题,那么理解稀疏模型就能帮助我们理解密集模型。二是将桥接技术应用于特定的安全相关任务,比如理解AI是如何决定是否拒绝某个请求的。即使我们不能完全理解一个AI,理解它在安全关键场景下的行为也是有价值的。

这项工作也为自动化解释AI提供了新的基础。稀疏电路可以被视为一种新的"语言"来描述AI的计算,在这种语言中,复杂的行为可以被分解为简单的、可追踪的步骤。研究者们猜测,目前自动解释AI的方法可能受限于缺乏这样的基础表示方式,而稀疏电路可能是突破这个瓶颈的关键。

论文地址:https://arxiv.org/abs/2511.13653

项目地址:https://github.com/openai/circuit_sparsity

END
本文来自至顶AI实验室,一个专注于探索生成式AI前沿技术及其应用的实验室。致力于推动生成式AI在各个领域的创新与突破,挖掘其潜在的应用场景,为企业和个人提供切实可行的解决方案。


Q&A

Q1:稀疏模型是什么意思? 

A:稀疏模型是指神经网络中大部分连接权重被设为零的模型。在这项研究中,最稀疏的模型只有约千分之一的连接是有效的,这样做的目的是让AI的计算过程更容易被人类理解和分析。

Q2:这种方法能用来理解ChatGPT吗? 

A:目前还不能直接理解像ChatGPT这样的大型密集模型。这项研究主要针对从零训练的小规模稀疏模型,不过研究者们探索了"桥接"技术,未来可能帮助我们间接理解密集模型的部分行为,但距离完全解释ChatGPT还有很长的路要走。

Q3:让AI变得可理解有什么实际用处? 

A:最重要的用处是提升AI安全性。如果我们能理解AI是如何做决策的,就能发现它可能存在的隐藏偏见或错误推理,也能更好地预测它在新情况下的行为,这对于在医疗、法律等关键领域部署AI尤为重要。

53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询