我要投稿

OpenAI开源“稀疏电路”，我们能看懂AI在想什么了

发布日期：2025-12-30 16:07:44 浏览次数： 1740

作者：至顶AI实验室

微信搜一搜，关注“至顶AI实验室”

我们创造出了能写诗、能编程、能回答各种问题的AI，却对它内部的运作方式几乎一无所知。比如咖啡机，每次按下按钮都能得到完美的拿铁，但你完全不知道机器里面发生了什么，豆子是怎么被研磨的？牛奶是怎么被打出泡沫的？这种"只知其然，不知其所以然"的状态，在AI领域被称为"黑箱问题"。

有时候我们向AI提问，它会显示“思考中”，甚至还能看见思考内容，这是它最真实的思考吗？未必，有人发现AI后续的回答和先前的思考并不一致。那么对于AI真实思考的研究，只能到此为止了吗？

2025年11月，OpenAI提出了一种让AI变得可理解的新方法，核心思路非常简单，让AI的大脑变得更稀疏。

假如某人的大脑有1000亿个神经元，每个神经元都和其他所有神经元相连，那要理解他的任何一个想法，就需要追踪天文数字级别的连接。但如果每个神经元只和少数几个其他神经元相连呢？这时候，追踪一个想法的路径就变得容易多了。OpenAI的研究者们正是利用这个原理，训练出了一种特殊的AI，它的"神经连接"被刻意压缩到只剩下正常AI的千分之一左右。结果令人惊喜：这种稀疏的AI不仅能正常工作，而且它的"思维过程"终于变得可以被人类理解了。

为什么AI的大脑像一团乱麻

现代AI，尤其是像ChatGPT这样的大型语言模型，本质上是一个巨大的神经网络。你可以把它想象成一个由无数开关组成的超级复杂的电路板。当你向AI提问时，信息会从输入端流入，经过层层处理，最后从输出端给出答案。问题在于，这个"电路板"上的每一个开关都和其他很多开关相连，而且这些连接的强度（我们称之为"权重"）是在训练过程中自动学会的。

研究者们发现了一个有趣的现象，他们称之为"叠加"。这就好比你的大脑用同一组神经元来同时存储"猫"、"狗"和"兔子"三个概念，而不是为每个概念分配专门的神经元。虽然这种方式非常节省空间，但也让追踪单个概念变得极其困难，当你看到某个神经元激活时，你不知道它代表的是猫、狗还是兔子，也可能三者都有一点。

这种"概念叠加"的现象导致了一个严重的问题：即使研究者们想要理解AI是如何完成某个特定任务的，他们也很难把相关的"电路"从整个网络中分离出来。这就像试图在一碗意大利面里找出某一根面条的完整路径，当所有面条都纠缠在一起时，这几乎是不可能的任务。

减法带来的惊喜：让AI变稀疏

OpenAI研究团队的解决方案可以用四个字概括：做减法。

他们的核心想法是这样的：既然密集连接的网络难以理解，那就训练一个连接稀疏的网络。具体来说，他们强制让神经网络中的绝大多数"权重"（也就是神经元之间连接的强度）保持为零。在他们最稀疏的模型中，只有大约千分之一的连接是有效的。

这个方法听起来简单，实施起来却需要很多技巧。研究者们采用了一种叫做"Top-K"的策略，在每一步训练中，只保留每个权重矩阵中绝对值最大的那些权重，其余全部清零。他们还使用了一种渐进式的"退火"过程：训练开始时网络是密集的，然后逐渐变得稀疏，这样可以让网络有机会找到最重要的连接。

为了让这个比喻更具体一些，想象你正在装修一个新家。一开始，你在每面墙上都装了各种插座、开关和线路，因为你还不确定哪些是必需的。但随着你慢慢熟悉生活需求，你发现其实只需要在特定位置保留几个关键的开关就够了，客厅的主灯开关、卧室床头的阅读灯开关、厨房的排气扇开关。那些不常用的线路被一一拆除，最后剩下的都是真正必要的连接。稀疏训练就是这样一个"精简电路"的过程。

研究团队还发现，单纯让权重稀疏还不够，他们还需要让"激活"也变得稀疏。激活是什么意思呢？可以把它理解为神经元在处理特定输入时的"活跃程度"。在正常的AI中，面对任何输入，大量神经元都会同时活跃起来。但在研究者们设计的稀疏模型中，他们使用了一种叫做"AbsTopK"的激活函数，每次只允许大约四分之一的神经元活跃。

权重稀疏和激活稀疏这两种稀疏性的结合，产生了神奇的效果。每个神经元现在只能从少数几个其他神经元那里获取信息，也只能向少数几个其他神经元发送信息。这就大大限制了"概念叠加"的可能性，因为要把多个概念塞进同一个神经元变得更加困难了。

像考古学家一样挖掘AI的思维电路

训练出稀疏模型只是第一步。接下来，研究者们需要一种方法来提取出AI用于完成特定任务的电路。

他们设计了一套精巧的任务来测试AI的能力。这些任务都是简单但需要特定技能的Python编程预测问题。比如，有一个任务是预测字符串应该用单引号还是双引号来结束，如果字符串是用双引号开始的，AI就需要预测双引号作为结束符。另一个任务是追踪变量的类型，如果一个变量被初始化为集合（set），AI需要记住这一点，并在后面正确预测使用".add"方法而不是"+="操作符。

有了这些任务，研究者们就可以使用一种叫做剪枝的技术来找出相关的电路。剪枝的过程很像雕塑：你从一块完整的石头开始，然后一点点敲掉不需要的部分，直到露出里面的形状。在这里，研究者们从完整的稀疏模型开始，然后逐步"删除"那些对完成特定任务不重要的神经元。被删除的神经元会被设置为它们在整个训练数据上的平均值，这样就相当于把它们"静音"了。

这个剪枝过程使用了一种学习算法：研究者们为每个神经元分配一个"掩码参数"，这个参数决定了神经元是保留还是删除。通过优化这些掩码参数，他们可以找到最小的神经元集合，使得这个集合仍然能够很好地完成任务。最终剩下的神经元及其之间的连接，就构成了完成该任务的电路。

研究结果令人印象深刻。在相同的任务损失水平下，稀疏模型的电路大小只有密集模型的大约十六分之一。这意味着理解稀疏模型如何完成任务变得容易多了，你只需要分析十几个神经元和几十个连接，而不是成百上千个。

解剖AI的思维：三个迷人的电路故事

最精彩的部分来了。研究者们花费了大量时间来人工分析这些提取出来的电路，试图理解AI到底是如何思考的。他们选择了三个任务进行深入研究，每个任务大约花费了一个研究员一天的时间。让我们逐一来看这些发现。

第一个故事关于字符串引号匹配。当AI需要预测用单引号还是双引号来结束一个字符串时，它使用了一个非常简洁的两步策略。在第一步，模型最早的一个MLP层会处理输入的引号标记。它把双引号和单引号的信息转换成两个特殊的"信号"：一个是"引号检测器"，无论是单引号还是双引号都会激活它；另一个是"引号类型分类器"，双引号时是正值，单引号时是负值。在第二步，一个注意力头会使用"引号检测器"来决定关注哪个位置（也就是开头的引号），然后把"引号类型分类器"的值复制到当前位置，从而预测正确的结束引号。整个电路只用了12个节点和9条连接！

第二个故事更加复杂，涉及计算括号嵌套深度。当AI需要判断是输出"]"还是"]]"来正确关闭列表时，它展现了一种巧妙的计数机制。首先，每个"["符号在进入模型时，它的嵌入向量会写入几个特定的残差通道，形成"开括号检测器"。然后，一个注意力头会把整个上下文中所有开括号检测器的值求平均。这个平均值被写入一个新的残差通道，代表"嵌套深度"，嵌套越深，这个值就越大。最后，另一个注意力头会对这个深度值进行"阈值判断"：如果深度超过某个阈值，就输出双括号；否则输出单括号。

这个发现引出了一个有趣的预测：既然模型是通过求平均来计算深度的，那么如果上下文中有很多无关的标记，平均值就会被"稀释"，导致模型出错。研究者们验证了这个预测，当他们故意在代码注释中加入额外的未匹配开括号时，模型果然被骗了！更有趣的是，这种"上下文稀释攻击"甚至对相同能力级别的密集模型也有效，说明这可能是一种普遍的算法模式。

第三个故事展示了AI如何追踪变量类型。当模型需要记住一个变量是集合还是字符串，并在后面做出正确预测时，它使用了一个两跳的注意力机制。首先，一个注意力头会把变量名复制到初始化位置（比如"set()"或空字符串）。然后，当模型需要预测这个变量的方法时，另一个注意力头会用变量名作为"查询"，找到之前存储的初始化信息，并把它复制到当前位置用于预测。

这三个电路故事有一个共同点：它们都可以被理解为人类可以手动验证的简单算法。这是一个巨大的突破，以前，我们只知道AI给出了正确答案，但不知道它是怎么得到答案的；现在，我们可以看到它的"解题步骤"了。

能力与可解释性的权衡：天下没有免费的午餐

当然，让AI变得可理解是有代价的。研究者们发现，稀疏性和能力之间存在一个清晰的权衡关系。

具体来说，如果你把模型训练得更稀疏（也就是保留更少的连接），模型在预训练任务上的表现就会变差，但电路会变得更小、更容易理解。这就像一个光谱：一端是完全密集的模型，能力很强但像一团乱麻；另一端是极度稀疏的模型，容易理解但能力有限。

不过，研究者们也发现了一个令人鼓舞的结果：增加模型的总参数量可以改善这个权衡。也就是说，如果你把模型做得更大，你可以在保持相同稀疏度的情况下获得更好的能力，或者在保持相同能力的情况下获得更稀疏（更容易理解）的电路。这就像是用更大的画布来画同样的内容，你有更多的空间来分离不同的元素，让画面变得更清晰。

研究者们测试了从大约100万到1500万非零参数的模型规模。结果显示，在这个范围内，更大的模型确实能够获得更好的"能力-可解释性"前沿。然而，他们也承认，如何在保持可解释性的同时将模型扩展到数千万非零参数以上，仍然是一个挑战。

架起桥梁：让稀疏模型理解密集模型

到目前为止，所有结果都来自于从零开始训练的稀疏模型。但这引出了一个自然的问题：我们能不能用这种方法来理解已经存在的密集模型呢？毕竟，比如GPT-4等这些强大的AI，基本都是密集模型，我们不可能重新训练它们。

研究者们探索了一种叫做"桥接"的技术来解决这个问题。核心思想是这样的：同时训练一个稀疏模型和一系列"翻译器"（桥），这些翻译器可以把密集模型的内部表示转换成稀疏模型的表示，反之亦然。如果训练成功，稀疏模型就可以作为密集模型的一个"可解释版本"，你可以在稀疏模型中找到某个概念的表示，然后通过桥把这个表示映射回密集模型，从而理解密集模型是如何表示这个概念的。

研究者们进行了初步实验来验证这个想法。他们训练了一个4层的密集模型和一个对应的桥接稀疏模型，然后尝试在稀疏模型中找到代表"引号类型"的神经元。找到这个神经元后，他们修改它的值来模拟"单引号"的情况，然后通过桥把这个修改映射到密集模型。结果很鼓舞人心：密集模型的行为确实发生了预期的变化，输出单引号的概率大幅增加。

这个结果虽然是初步的，但它暗示了一条令人兴奋的道路：也许我们可以通过训练"可解释的影子模型"来理解那些无法直接解释的大型AI。

至顶AI实验室洞见

说到底，这项研究的核心价值在于它向我们展示了一种可能性：AI不必是不可理解的黑箱。

当前，我们对AI的信任在很大程度上是"盲目"的，我们看到它给出正确的答案，就假设它是以正确的方式得到这些答案的。但我们并不真正知道AI内部在做什么，它可能是通过我们完全意想不到的"捷径"来解决问题的。这种不确定性是AI安全的一个重大隐患。

OpenAI的这项研究提供了一条通往"可理解AI"的道路。虽然目前这种方法只能应用于相对较小的模型和简单的任务，但它证明了原则上是可行的。未来，随着方法的改进和计算效率的提升，也许我们能够理解更大、更强的AI是如何工作的。

研究者们特别提到了几个令人期待的方向。一是创建一系列"可解释的模型生物"，一组不同规模的稀疏模型，可以用来研究AI的普遍计算模式。如果稀疏模型和密集模型使用类似的"电路模式"来解决问题，那么理解稀疏模型就能帮助我们理解密集模型。二是将桥接技术应用于特定的安全相关任务，比如理解AI是如何决定是否拒绝某个请求的。即使我们不能完全理解一个AI，理解它在安全关键场景下的行为也是有价值的。

这项工作也为自动化解释AI提供了新的基础。稀疏电路可以被视为一种新的"语言"来描述AI的计算，在这种语言中，复杂的行为可以被分解为简单的、可追踪的步骤。研究者们猜测，目前自动解释AI的方法可能受限于缺乏这样的基础表示方式，而稀疏电路可能是突破这个瓶颈的关键。

END

Q&A

Q1：稀疏模型是什么意思？

A：稀疏模型是指神经网络中大部分连接权重被设为零的模型。在这项研究中，最稀疏的模型只有约千分之一的连接是有效的，这样做的目的是让AI的计算过程更容易被人类理解和分析。

Q2：这种方法能用来理解ChatGPT吗？

A：目前还不能直接理解像ChatGPT这样的大型密集模型。这项研究主要针对从零训练的小规模稀疏模型，不过研究者们探索了"桥接"技术，未来可能帮助我们间接理解密集模型的部分行为，但距离完全解释ChatGPT还有很长的路要走。

Q3：让AI变得可理解有什么实际用处？

A：最重要的用处是提升AI安全性。如果我们能理解AI是如何做决策的，就能发现它可能存在的隐藏偏见或错误推理，也能更好地预测它在新情况下的行为，这对于在医疗、法律等关键领域部署AI尤为重要。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业