我要投稿

读懂Transformer的层次，了解大模型基石

发布日期：2025-07-15 07:53:50 浏览次数： 1819

作者：精神抖擞王大鹏

微信搜一搜，关注“精神抖擞王大鹏”

当你与DeepSeek对话，它能够理解问题并给出恰当回答时，你是否想过这种"理解"是如何实现的？

这背后源于一个经典问题：如何让机器将一个序列转换为另一个序列？，也就是Seq2Seq（Sequence-to-Sequence）问题，以及解决这个问题的经典架构——Transformer。

Seq2Seq本质上是一类问题的抽象描述，而不是特定的模型架构，就像"分类问题"描述的是从输入到类别标签的映射，"Seq2Seq问题"描述的是从一个序列到另一个序列的转换。

机器翻译中将Hello翻译为你好，文本摘要将长文章压缩为核心要点，对话系统理解问题并给出回答，代码生成将自然语言描述转化为程序代码，都是Seq2Seq问题的应用。

在Transformer出现之前，业界主要使用基于RNN的Encoder-Decoder架构：

以翻译任务举例，这种方法的思路很直观：从一个起始状态开始，每一步基于当前的理解状态（隐状态）和已生成的内容，预测并生成下一个词，然后更新理解状态，如此循环直到生成完整的文本。

但RNN方案存在根本性问题：Encoder阶段需要把所有信息都要压缩到固定长度的向量中，由于串行处理的梯度消失问题，RNN无法捕捉到长距离的依赖关系。

2017年，《Attention Is All You Need》提出了完全基于注意力机制的Transformer架构，Transformer沿用了经典的Encoder-Decoder结构，但不再是时间步长的依赖。

Encoder的任务是理解输入序列，将其转换为富含语义信息的表示。每个Encoder层包含两个核心组件：多头自注意力+前馈神经网络。

自注意力机制让每个位置都能"看到"序列中的所有其他位置。以句子"The cat sat on the mat"为例：理解"cat"时，模型会关注"The"（确定是哪只猫），理解"sat"时，模型关注"cat"（谁在坐）和"on the mat"（坐在哪里）。

多头注意力进一步扩展了这种能力：每个头都有自己独立的参数矩阵，用来关注不同类型的关系，所有头并行计算，最终将多个头的结果合并。以句子"大鹏在北京的工作是计算机"为例，句子中会包含多种关系，"大鹏"和"工作"是主谓关系，"北京"和"工作"是地点关系，"工作"和"计算机"是性质关系，每个头关注不同的关系，最终合并。

数学表达式为：Attention(Q,K,V) = softmax(QK^T/√d_k)V，QK^T来计算查询和键的相似度，除以√d_k用于缩放，避免梯度消失。softmax转化为概率分布，最终乘以V根据注意力权重加权求和。

在每个注意力层之后，都有一个前馈神经网络（FFN）。这个组件流程很简单：放大->筛选->压缩。在GPT3中，FFN将12288维向量放大4倍至49152维，应用ReLU激活函数进行非线性变换，重新压缩回12288维。通过在放大过程中提取丰富特征，在压缩过程中保留有用信息。这里有个trick点是：当我们知道需要完成某种复杂的信息变换来做提取，但不知道具体的数学公式时，可以使用神经网络来学习这种变换。

残差连接是为了解决深层网络训练中的梯度消失问题，表达式为：output = LayerNorm(x + SubLayer(x))，在梯度计算时：∂output/∂x = ∂(x + SubLayer(x))/∂x = 1 + ∂SubLayer(x)/∂x，即使∂SubLayer(x)/∂x 变得很小（接近0），总梯度也不会完全消失，因为至少还有1存在。

层归一化在残差连接之后执行，层归一化会先将输入标准化为均值0、标准差1，然后通过可学习参数调整到最适合的分布，避免梯度消失或爆炸。层归一化的公式为：LN(x) = γ * (x - μ) / σ + β，反向传播的梯度计算时：∂LN/∂x = γ/σ * (1 - 1/d - (x-μ)²/(d*σ²))，1确保了梯度不会完全消失，-1/d防止梯度因为均值计算被过度缩放，-(x-μ)²/(d*σ²)用来减小梯度，防止输入值偏离均值大。

Decoder的结构相比Encoder更加复杂，因为它不仅要理解，还要生成，它主要有三个核心组件：掩码多头注意力+多头交叉注意力+前馈神经网络。

在生成任务中，模型不能"偷看"未来的信息。掩码机制确保每个位置只能关注当前及之前的位置，这使得Decoder特别适合生成任务。掩码注意力在标准的自注意力实现中加上了掩码：MaskedAttention(Q,K,V) = softmax((QK^T + Mask)/√d_k)V，掩码矩阵会用负无穷来填充，这样经过softmax函数，掩码位置在注意力中的权重就为0，不会对结果造成影响。通过掩码模拟了真实的生成过程，即使训练时有完整的目标序列，也要模拟逐步生成的过程，位置i只能关注位置i前面的。推理时本就逐步生成，天然满足掩码的约束。

交叉注意力让Decoder能够关注Encoder的输出，实现了理解到生成的信息传递：

CrossAttention(Q_decoder,K_encoder,V_encoder)=softmax(Q_decoder × K_encoder^T/√d_k) × V_encoder，但要注意交叉注意力存在于早期的Encoder-Decoder架构，现代的Decoder-Only模型（GPT3）舍弃了交叉注意力的模块，只使用掩码机制。

在GPT3中，Decoder就堆叠了96层，每层完整的结构是：多头自注意力->残差连接+归一化->前馈神经网络->残差连接+归一化。