微信扫码
添加专属顾问
我要投稿
今天给大家介绍一个超强的算法模型,Transformer
Transformer 模型是一种基于注意力机制的深度学习模型,广泛应用于自然语言处理(NLP)任务,如机器翻译、文本生成和语义理解。
它最初由 Vaswani 等人在2017年的论文《Attention is All You Need》中提出。它突破了传统序列模型(如RNN和LSTM)的局限,能够并行处理序列数据,从而大大提高了训练效率和模型性能。
Transformer 模型的基本结构
Transformer 模型由两个主要部分组成:编码器(Encoder)和 解码器(Decoder)。
编码器将输入序列编码为一个固定长度的上下文向量,解码器则根据这个上下文向量生成输出序列。
编码器和解码器各由多个层(Layer)堆叠而成。
编码器(Encoder)
多头自注意力机制(Multi-Head Self-Attention)
前馈神经网络(Feed-Forward Neural Network, FFN)
解码器(Decoder)
该注意力机制允许解码器访问编码器的输出,这样解码器就可以根据编码器生成的上下文向量来生成输出序列。
前馈神经网络(Feed-Forward Neural Network, FFN)
下面,我们来详细描述一下 Transformer 中的核心组件。
输入嵌入的作用是将离散的符号转换为连续的、可以直接输入到神经网络中的向量表示,使得模型能够处理和理解输入数据。
对于位置 pos 和嵌入维度中的第 2i + 1 个维度:
其中:
pos 是位置索引。
i 是维度索引。
3.自主力机制
Query、Key、Value 向量的生成
对输入嵌入进行线性变换,生成三个不同的向量,即查询向量(Query)、键向量(Key)和值向量(Value)。
每个输入向量 ,通过三个线性变换分别映射为查询向量 、键向量 和值向量 。
注意力得分的计算
加权求和
具体来说,在计算注意力得分时,对未来的位置进行屏蔽,将这些位置的得分设为负无穷大,使得 Softmax 归一化后的权重为零。
该示例展示了如何构建一个基本的 Transformer 模型并使用它进行序列到序列的任务,例如机器翻译。
import torch
import torch.nn as nn
import torch.optim as optim
import math
class PositionalEncoding(nn.Module):
def __init__(self, d_model, max_len=5000):
super(PositionalEncoding, self).__init__()
pe = torch.zeros(max_len, d_model)
position = torch.arange(0, max_len, dtype=torch.float).unsqueeze(1)
div_term = torch.exp(torch.arange(0, d_model, 2).float() * (-math.log(10000.0) / d_model))
pe[:, 0::2] = torch.sin(position * div_term)
pe[:, 1::2] = torch.cos(position * div_term)
pe = pe.unsqueeze(0).transpose(0, 1)
self.register_buffer('pe', pe)
def forward(self, x):
x = x + self.pe[:x.size(0), :]
return x
class TransformerModel(nn.Module):
def __init__(self, input_dim, output_dim, d_model=512, nhead=8, num_encoder_layers=6, dim_feedforward=2048, dropout=0.1):
super(TransformerModel, self).__init__()
self.model_type = 'Transformer'
self.embedding = nn.Embedding(input_dim, d_model)
self.pos_encoder = PositionalEncoding(d_model)
encoder_layers = nn.TransformerEncoderLayer(d_model, nhead, dim_feedforward, dropout)
self.transformer_encoder = nn.TransformerEncoder(encoder_layers, num_encoder_layers)
self.d_model = d_model
self.decoder = nn.Linear(d_model, output_dim)
self.init_weights()
def init_weights(self):
initrange = 0.1
self.embedding.weight.data.uniform_(-initrange, initrange)
self.decoder.bias.data.zero_()
self.decoder.weight.data.uniform_(-initrange, initrange)
def forward(self, src, src_mask):
src = self.embedding(src) * math.sqrt(self.d_model)
src = self.pos_encoder(src)
output = self.transformer_encoder(src, src_mask)
output = self.decoder(output)
return output
def generate_square_subsequent_mask(sz):
mask = (torch.triu(torch.ones(sz, sz)) == 1).transpose(0, 1)
mask = mask.float().masked_fill(mask == 0, float('-inf')).masked_fill(mask == 1, float(0.0))
return mask
# Example usage:
input_dim = 1000 # Vocabulary size
output_dim = 1000 # Output size
seq_length = 10 # Length of the sequence
# Create the model
model = TransformerModel(input_dim=input_dim, output_dim=output_dim)
# Example data
src = torch.randint(0, input_dim, (seq_length, 32)) # (sequence_length, batch_size)
src_mask = generate_square_subsequent_mask(seq_length)
# Forward pass
output = model(src, src_mask)
print(output.shape) # Expected output: [sequence_length, batch_size, output_dim]
# Define a simple loss and optimizer for training
criterion = nn.CrossEntropyLoss()
optimizer = optim.Adam(model.parameters(), lr=0.001)
# Example training loop
for epoch in range(10): # Number of epochs
optimizer.zero_grad()
output = model(src, src_mask)
loss = criterion(output.view(-1, output_dim), src.view(-1))
loss.backward()
optimizer.step()
print(f"Epoch {epoch+1}, Loss: {loss.item()}")
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2025-04-30
深度解析OpenAI和Google智能体白皮书及背后两种路线|大模型研究
2025-04-30
MCP入门指南:大模型时代的USB接口
2025-04-30
通俗易懂的梳理MCP的工作流程(以高德地图MCP为例)
2025-04-30
一文说明 Function Calling、MCP、A2A 的区别!
2025-04-30
MCP很好,但它不是万灵药|一文读懂 MCP
2025-04-30
旅行规划太难做?5 分钟构建智能Agent,集成地图 MCP Server
2025-04-29
10万元跑满血版DeepSeek,这家公司掀了一体机市场的桌子|甲子光年
2025-04-29
谷歌大神首次揭秘Gemini预训练秘密:52页PPT干货,推理成本成最重要因素
2024-08-13
2024-06-13
2024-08-21
2024-09-23
2024-07-31
2024-05-28
2024-08-04
2024-04-26
2024-07-09
2024-09-17
2025-04-29
2025-04-29
2025-04-29
2025-04-28
2025-04-28
2025-04-28
2025-04-28
2025-04-28