我要投稿

炸裂！AI“读心术”被破解，我们终于能亲眼看见它的思考过程了！

发布日期：2025-07-05 17:23:07 浏览次数： 1758

作者：猫说AI

微信搜一搜，关注“猫说AI”

解密AI黑箱：深入Anthropic开源电路追踪工具，看见语言模型的“思考”过程

图片来源：Anthropic

作为AI爱好者，我们总是对那些驱动着大型语言模型（LLM）的神秘力量充满好奇。它们如何写出诗歌？如何进行推理？当我们在屏幕上看到一个完美的答案时，其背后庞大的神经网络中究竟发生了什么？长期以来，这就像一个密不透风的“黑箱”。

然而，就在2025年5月29日，AI安全和研究领域的领军者Anthropic，联合Decode Research与Neuronpedia，投下了一颗重磅炸弹：他们开源了其内部的“电路追踪”（Circuit Tracing）工具。这不仅仅是又一个开源项目，它更像是一把递到我们手中的钥匙，让我们有机会亲自打开那个黑箱，一窥LLM“思维”的究竟。

Anthropic的CEO Dario Amodei曾警示：“我们对AI内部运作的理解，远远落后于其能力的发展。” 这个开源工具，正是为了缩小这一差距而迈出的关键一步。今天，让我们深入这份详尽的技术材料，看看它到底为我们揭示了什么。

核心利器：归因图（Attribution Graphs）与“超级节点”（Supernodes）

想象一下，要理解一个复杂的电子设备，最好的方式就是拿出一张电路图，看看电流如何从输入流向输出，途经哪些元器件。Anthropic的工具做的就是类似的事情，但对象是神经网络。

它生成一种名为**归因图（Attribution Graph）**的可视化图表，揭示了模型为了生成特定输出，其内部信息流动的因果路径。图中的每一个节点，都可能是一个或多个神经元。

但面对数以亿计的神经元，直接分析无异于大海捞针。这里的点睛之笔，是引入了**“超级节点”（Supernodes）**的概念。研究人员通过分析，将成百上千个功能相似的神经元“打包”成一个具有明确语义概念的超级节点。例如，一个超级节点可能代表了“德克萨斯州”这个地理概念，另一个则代表了“说出一个首都城市”的指令。

这使得原本混乱的神经元激活图，变成了一张清晰、可被人类理解的“思维导图”。而这次开源的真正魅力在于，它不仅让我们能“看”到这张图，更能通过代码**直接干预（Intervene）**这些节点，像做科学实验一样验证我们的假设。

实战演练一：当模型进行“两步推理”

让我们来看一个经典案例，这也是Anthropic在教程中展示的第一个例子。

提问： Fact: The capital of the state containing Dallas is (包含达拉斯的州的首都是)
模型回答： Austin (奥斯汀)

这是一个简单的两步推理题：

1. 达拉斯（Dallas）在哪个州？ -> 德克萨斯州（Texas）。
2. 德克萨斯州的首都是哪里？ -> 奥斯汀（Austin）。

归因图清晰地展示了这个过程：

从图中我们可以看到，输入中的“Dallas”激活了一个代表“Texas”的超级节点，同时“capital”（首都）和“state”（州）这两个词也激活了相应的概念节点。这些信息最终汇集，共同激活了输出“Austin”的神经元。

真正的魔法发生在干预实验中：

1. 关闭“首都”概念：研究人员通过代码，强行抑制了图中代表“说出一个首都”的超级节点。结果如何？模型的输出不再是“Austin”，而变成了“Texas”！这证明了模型确实先“想”到了德州，只是因为“回答首都”的指令被屏蔽了，才把中间步骤吐了出来。
2. 关闭“德州”概念：当我们关闭“Texas”这个超级节点时，“Say Austin”节点也随之关闭。模型变得困惑，开始输出其他州的首府，比如萨克拉门托（加州首府）。
3. “思维”劫持——最令人惊叹的实验：

• 研究人员在保持原提问不变的情况下，关闭了“Texas”节点。
• 同时，他们从另一个提问（“...containing Oakland is...”）中提取了代表**“California”（加利福尼亚州）**概念的超级节点的激活值，并将其“注入”到当前模型中。
• 结果，模型的输出神奇地变成了“Sacramento”（萨克拉门托）——加州的首府！
• 他们甚至更进一步，注入了**“China”（中国）的概念，模型的输出随之变为“Beijing”（北京）**。

这个实验雄辩地证明了：这些“概念”在模型内部是模块化、可插拔的！模型并非死记硬背，而是真的在学习和运用这些抽象概念，并遵循着一套可被我们理解和操纵的逻辑链路。