熊猫钓鱼>_>

从RNN循环神经网络到Transformer注意力机制：解析神经网络架构的华丽蜕变

1. 引言

在自然语言处理和序列建模领域，神经网络架构经历了显著的演变。从早期的循环神经网络（RNN）到现代的Transformer架构，这一演变代表了深度学习方法在处理序列数据方面的重大进步。本文将深入比较这两种架构，分析它们的工作原理、优缺点，并通过实验结果展示它们在实际应用中的性能差异。

2. 循环神经网络（RNN）

2.1 基本原理

循环神经网络是专门为处理序列数据而设计的神经网络架构。RNN的核心思想是在处理序列的每个元素时保持一个"记忆"状态，这个状态随着序列的处理而更新。

基本RNN的数学表达式为：

h_t = tanh(W_xh * x_t + W_hh * h_{t-1} + b_h)
y_t = W_hy * h_t + b_y

其中：

h_t是时间步t的隐藏状态
x_t是时间步t的输入
W_xh、W_hh、W_hy是权重矩阵
b_h、b_y是偏置项

2.2 RNN变体

2.2.1 长短期记忆网络（LSTM）

LSTM通过引入门控机制解决了基本RNN的梯度消失问题，使网络能够学习长期依赖关系。

LSTM的核心组件包括：

遗忘门：决定丢弃哪些信息
输入门：决定存储哪些新信息
输出门：决定输出哪些信息

2.2.2 门控循环单元（GRU）

GRU是LSTM的简化版本，合并了遗忘门和输入门为一个更新门，并将单元状态和隐藏状态合并。

2.3 RNN的优缺点

优点：

能够处理任意长度的序列
参数共享使模型更加紧凑
能够捕捉序列中的时间依赖关系

缺点：

难以捕捉长距离依赖关系（尽管LSTM和GRU有所改善）
计算是顺序的，无法并行化，导致训练速度慢
容易出现梯度消失或爆炸问题

3. Transformer架构

3.1 基本原理

Transformer架构由Vaswani等人在2017年的论文"Attention is All You Need"中提出，它完全摒弃了循环结构，而是完全依赖注意力机制来处理序列数据。

Transformer的核心组件包括：

多头自注意力机制
位置编码
前馈神经网络
残差连接和层归一化

3.2 自注意力机制

自注意力机制允许模型在处理序列的每个位置时，考虑序列中所有其他位置的信息。其计算过程如下：

将输入转换为查询(Q)、键(K)和值(V)
计算注意力权重：Attention(Q, K, V) = softmax(QK^T / sqrt(d_k))V
多头注意力通过并行计算多个注意力"头"，然后将结果拼接起来

3.3 Transformer的优缺点

优点：

能够有效捕捉长距离依赖关系
计算可以高度并行化，训练速度更快
在多种序列任务上取得了最先进的结果

缺点：

计算复杂度随序列长度呈二次增长
需要位置编码来提供序列顺序信息
通常需要更多的数据和计算资源来训练

4. 代码实现

4.1 RNN实现

以下是RNN及其变体（SimpleRNN、LSTM、GRU）的PyTorch实现：

import torch
import torch.nn as nn

class SimpleRNN(nn.Module):
    def __init__(self, input_size, hidden_size, output_size):
        super(SimpleRNN, self).__init__()
        self.hidden_size = hidden_size
        self.i2h = nn.Linear(input_size + hidden_size, hidden_size)
        self.i2o = nn.Linear(input_size + hidden_size, output_size)
        self.tanh = nn.Tanh()
        
    def forward(self, input, hidden):
        combined = torch.cat((input, hidden), 1)
        hidden = self.tanh(self.i2h(combined))
        output = self.i2o(combined)
        return output, hidden
    
    def init_hidden(self):
        return torch.zeros(1, self.hidden_size)

class LSTM(nn.Module):
    def __init__(self, input_size, hidden_size, output_size):
        super(LSTM, self).__init__()
        self.hidden_size = hidden_size
        
        # 遗忘门
        self.forget_gate = nn.Linear(input_size + hidden_size, hidden_size)
        # 输入门
        self.input_gate = nn.Linear(input_size + hidden_size, hidden_size)
        # 候选单元状态
        self.cell_gate = nn.Linear(input_size + hidden_size, hidden_size)
        # 输出门
        self.output_gate = nn.Linear(input_size + hidden_size, hidden_size)
        
        # 输出层
        self.output_layer = nn.Linear(hidden_size, output_size)
        
        # 激活函数
        self.sigmoid = nn.Sigmoid()
        self.tanh = nn.Tanh()
        
    def forward(self, input, hidden):
        # 解包隐藏状态和单元状态
        h_prev, c_prev = hidden
        
        # 合并输入和前一个隐藏状态
        combined = torch.cat((input, h_prev), 1)
        
        # 计算门值
        forget = self.sigmoid(self.forget_gate(combined))
        input_gate = self.sigmoid(self.input_gate(combined))
        cell_candidate = self.tanh(self.cell_gate(combined))
        output_gate = self.sigmoid(self.output_gate(combined))
        
        # 更新单元状态
        c_next = forget * c_prev + input_gate * cell_candidate
        
        # 计算新的隐藏状态
        h_next = output_gate * self.tanh(c_next)
        
        # 计算输出
        output = self.output_layer(h_next)
        
        return output, (h_next, c_next)
    
    def init_hidden(self):
        return (torch.zeros(1, self.hidden_size), torch.zeros(1, self.hidden_size))

class GRU(nn.Module):
    def __init__(self, input_size, hidden_size, output_size):
        super(GRU, self).__init__()
        self.hidden_size = hidden_size
        
        # 更新门
        self.update_gate = nn.Linear(input_size + hidden_size, hidden_size)
        # 重置门
        self.reset_gate = nn.Linear(input_size + hidden_size, hidden_size)
        # 候选隐藏状态
        self.h_candidate = nn.Linear(input_size + hidden_size, hidden_size)
        
        # 输出层
        self.output_layer = nn.Linear(hidden_size, output_size)
        
        # 激活函数
        self.sigmoid = nn.Sigmoid()
        self.tanh = nn.Tanh()
        
    def forward(self, input, hidden):
        # 合并输入和前一个隐藏状态
        combined = torch.cat((input, hidden), 1)
        
        # 计算门值
        update = self.sigmoid(self.update_gate(combined))
        reset = self.sigmoid(self.reset_gate(combined))
        
        # 计算候选隐藏状态
        combined_reset = torch.cat((input, reset * hidden), 1)
        h_candidate = self.tanh(self.h_candidate(combined_reset))
        
        # 更新隐藏状态
        h_next = (1 - update) * hidden + update * h_candidate
        
        # 计算输出
        output = self.output_layer(h_next)
        
        return output, h_next
    
    def init_hidden(self):
        return torch.zeros(1, self.hidden_size)

4.2 Transformer实现

以下是Transformer模型及其核心组件的PyTorch实现：

import torch
import torch.nn as nn
import math

class PositionalEncoding(nn.Module):
    def __init__(self, d_model, max_seq_length=5000):
        super(PositionalEncoding, self).__init__()
        
        # 创建位置编码矩阵
        pe = torch.zeros(max_seq_length, d_model)
        position = torch.arange(0, max_seq_length, dtype=torch.float).unsqueeze(1)
        div_term = torch.exp(torch.arange(0, d_model, 2).float() * (-math.log(10000.0) / d_model))
        
        # 计算正弦和余弦位置编码
        pe[:, 0::2] = torch.sin(position * div_term)
        pe[:, 1::2] = torch.cos(position * div_term)
        
        # 添加批次维度并注册为缓冲区
        pe = pe.unsqueeze(0)
        self.register_buffer('pe', pe)
        
    def forward(self, x):
        # 添加位置编码到输入
        x = x + self.pe[:, :x.size(1), :]
        return x

class MultiHeadAttention(nn.Module):
    def __init__(self, d_model, num_heads):
        super(MultiHeadAttention, self).__init__()
        
        assert d_model % num_heads == 0, "d_model必须能被num_heads整除"
        
        self.d_model = d_model
        self.num_heads = num_heads
        self.d_k = d_model // num_heads
        
        self.W_q = nn.Linear(d_model, d_model)
        self.W_k = nn.Linear(d_model, d_model)
        self.W_v = nn.Linear(d_model, d_model)
        self.W_o = nn.Linear(d_model, d_model)
        
    def scaled_dot_product_attention(self, Q, K, V, mask=None):
        attn_scores = torch.matmul(Q, K.transpose(-2, -1)) / math.sqrt(self.d_k)
        
        if mask is not None:
            attn_scores = attn_scores.masked_fill(mask == 0, -1e9)
        
        attn_weights = torch.softmax(attn_scores, dim=-1)
        output = torch.matmul(attn_weights, V)
        
        return output, attn_weights
    
    def split_heads(self, x):
        batch_size, seq_length, _ = x.size()
        return x.view(batch_size, seq_length, self.num_heads, self.d_k).transpose(1, 2)
    
    def combine_heads(self, x):
        batch_size, _, seq_length, _ = x.size()
        return x.transpose(1, 2).contiguous().view(batch_size, seq_length, self.d_model)
    
    def forward(self, Q, K, V, mask=None):
        Q = self.W_q(Q)
        K = self.W_k(K)
        V = self.W_v(V)
        
        Q_split = self.split_heads(Q)
        K_split = self.split_heads(K)
        V_split = self.split_heads(V)
        
        attn_output, attn_weights = self.scaled_dot_product_attention(Q_split, K_split, V_split, mask)
        
        output = self.combine_heads(attn_output)
        output = self.W_o(output)
        
        return output, attn_weights

class FeedForward(nn.Module):
    def __init__(self, d_model, d_ff):
        super(FeedForward, self).__init__()
        
        self.linear1 = nn.Linear(d_model, d_ff)
        self.relu = nn.ReLU()
        self.linear2 = nn.Linear(d_ff, d_model)
        
    def forward(self, x):
        return self.linear2(self.relu(self.linear1(x)))

class EncoderLayer(nn.Module):
    def __init__(self, d_model, num_heads, d_ff, dropout=0.1):
        super(EncoderLayer, self).__init__()
        
        self.self_attn = MultiHeadAttention(d_model, num_heads)
        self.feed_forward = FeedForward(d_model, d_ff)
        
        self.norm1 = nn.LayerNorm(d_model)
        self.norm2 = nn.LayerNorm(d_model)
        
        self.dropout = nn.Dropout(dropout)
        
    def forward(self, x, mask=None):
        attn_output, _ = self.self_attn(x, x, x, mask)
        x = self.norm1(x + self.dropout(attn_output))
        
        ff_output = self.feed_forward(x)
        x = self.norm2(x + self.dropout(ff_output))
        
        return x

class Transformer(nn.Module):
    def __init__(self, input_size, d_model, num_heads, num_layers, d_ff, dropout=0.1):
        super(Transformer, self).__init__()
        
        self.embedding = nn.Linear(input_size, d_model)
        self.positional_encoding = PositionalEncoding(d_model)
        
        self.encoder_layers = nn.ModuleList([
            EncoderLayer(d_model, num_heads, d_ff, dropout)
            for _ in range(num_layers)
        ])
        
        self.output_layer = nn.Linear(d_model, input_size)
        self.dropout = nn.Dropout(dropout)
        
    def forward(self, x, mask=None):
        # x: [batch_size, seq_len, input_size]
        x = self.embedding(x)  # [batch_size, seq_len, d_model]
        x = self.positional_encoding(x)
        x = self.dropout(x)
        
        for encoder_layer in self.encoder_layers:
            x = encoder_layer(x, mask)
        
        output = self.output_layer(x)
        return output

5. 实验设置与结果

5.1 实验设置

我们实现了SimpleRNN、LSTM、GRU和Transformer模型，并在一个序列预测任务上进行了比较。

任务：预测随机生成的数字序列中的下一个数字
数据：500个随机生成的序列，每个序列长度为10
训练/测试划分：80%训练，20%测试
模型参数：
- 隐藏层大小/模型维度：64
- Transformer头数：4
- Transformer层数：2
- 训练轮数：50

5.2 测试代码

以下是我们用于测试不同模型的代码：

def main():
    """
    主函数，运行测试
    """
    print("开始测试RNN和Transformer模型...")
    print("=" * 50)
    
    # 生成序列数据
    print("生成序列数据...")
    X, y = generate_sequence_data(seq_length=10, num_samples=500)
    
    # 划分训练集和测试集
    train_size = int(0.8 * len(X))
    X_train, X_test = X[:train_size], X[train_size:]
    y_train, y_test = y[:train_size], y[train_size:]
    
    print(f"训练集大小: {len(X_train)}, 测试集大小: {len(X_test)}")
    
    # 模型参数
    input_size = 1  # 每个时间步的特征维度
    hidden_size = 64  # RNN隐藏层大小
    output_size = 1  # 输出维度
    d_model = 64  # Transformer模型维度
    num_heads = 4  # Transformer注意力头数
    num_layers = 2  # Transformer层数
    epochs = 50  # 训练轮数
    
    # 训练SimpleRNN模型
    print("\n训练SimpleRNN模型...")
    rnn_model, rnn_history = train_rnn_model('simple', input_size, hidden_size, output_size, 
                                            X_train, y_train, epochs=epochs)
    
    # 训练LSTM模型
    print("\n训练LSTM模型...")
    lstm_model, lstm_history = train_rnn_model('lstm', input_size, hidden_size, output_size, 
                                              X_train, y_train, epochs=epochs)
    
    # 训练GRU模型
    print("\n训练GRU模型...")
    gru_model, gru_history = train_rnn_model('gru', input_size, hidden_size, output_size, 
                                            X_train, y_train, epochs=epochs)
    
    # 训练Transformer模型
    print("\n训练Transformer模型...")
    transformer_model, transformer_history = train_transformer_model(input_size, d_model, num_heads, 
                                                                   num_layers, X_train, y_train, 
                                                                   epochs=epochs)
    
    # 评估模型
    print("\n评估模型性能...")
    rnn_loss, rnn_preds = evaluate_model(rnn_model, 'rnn', X_test, y_test)
    lstm_loss, lstm_preds = evaluate_model(lstm_model, 'rnn', X_test, y_test)
    gru_loss, gru_preds = evaluate_model(gru_model, 'rnn', X_test, y_test)
    transformer_loss, transformer_preds = evaluate_model(transformer_model, 'transformer', X_test, y_test)
    
    print(f"SimpleRNN测试损失: {rnn_loss:.4f}")
    print(f"LSTM测试损失: {lstm_loss:.4f}")
    print(f"GRU测试损失: {gru_loss:.4f}")
    print(f"Transformer测试损失: {transformer_loss:.4f}")
    
    # 绘制结果
    print("\n绘制结果...")
    plot_results(rnn_history, lstm_history, gru_history, transformer_history)
    plot_predictions(X_test, y_test, rnn_preds, lstm_preds, gru_preds, transformer_preds)
    
    print("\n测试完成！结果已保存为图片。")
    print("=" * 50)

5.3 实验结果

5.3.1 训练损失和时间

在训练过程中，我们观察到：

Transformer模型的训练损失从31.3降至约6.7，表明有效学习
RNN变体（SimpleRNN、LSTM、GRU）的训练损失几乎没有变化，保持在约31.0
Transformer的每轮训练时间最短，LSTM最长

5.3.2 测试性能

在测试集上：

Transformer测试损失：6.5362
SimpleRNN测试损失：32.2622
LSTM测试损失：32.2622
GRU测试损失：32.2622

5.3.3 总训练时间

SimpleRNN：27.47秒
LSTM：62.72秒
GRU：55.43秒
Transformer：22.43秒

6. 结果分析

6.1 性能比较

从实验结果可以明显看出，Transformer模型在这个序列预测任务上表现远优于所有RNN变体。Transformer的测试损失约为RNN变体的五分之一，这表明它能够更准确地捕捉序列中的模式。

这种性能差异可能是由于以下原因：

Transformer的自注意力机制能够直接建模序列中任意两个位置之间的依赖关系，而不受距离的限制
多头注意力机制允许模型同时关注序列的不同方面
位置编码提供了序列顺序信息，弥补了非循环结构的不足

6.2 训练效率

在训练效率方面，Transformer也表现出明显的优势：

Transformer的总训练时间最短，仅为22.43秒，而LSTM最长，为62.72秒
这验证了Transformer架构的并行计算优势，它可以同时处理序列中的所有位置，而RNN必须按顺序处理

6.3 学习能力

在相同的训练轮数下，只有Transformer表现出有效的学习，其训练损失从31.3降至约6.7。而RNN变体的训练损失几乎没有变化，这表明：

Transformer更容易优化，梯度传播更加稳定
RNN变体可能需要更多的训练轮数或更精细的超参数调整才能有效学习

7. 应用场景比较

7.1 RNN更适合的场景

尽管在我们的实验中Transformer表现更好，但RNN在某些场景下仍有其优势：

资源受限的环境（如移动设备）
需要实时处理的流数据
序列较短且依赖关系简单的任务
需要明确建模时间依赖关系的任务

7.2 Transformer更适合的场景

Transformer架构更适合以下场景：

复杂的自然语言处理任务（如机器翻译、文本生成）
长序列处理（如长文档分析）
有大量计算资源可用的环境
需要捕捉长距离依赖关系的任务

8. 结论

从RNN到Transformer的演变代表了序列建模方法的重大进步。我们的实验结果验证了Transformer架构在捕捉序列模式和并行处理方面的优势。在我们的序列预测任务中，Transformer不仅性能更好，而且训练速度更快。

然而，这并不意味着RNN已经完全过时。在某些特定场景下，RNN仍然是一个有效且高效的选择。理解这两种架构的优缺点和适用场景，可以帮助研究人员和工程师为特定任务选择最合适的模型架构。

随着深度学习的不断发展，我们可以期待看到更多创新的序列建模方法，它们可能会结合这两种架构的优点，或者引入全新的范式。

9. 实验结果可视化

我们的实验生成了三个可视化图表：

模型训练损失和时间比较：展示了不同模型的训练损失随着训练轮数的变化，以及每个训练轮次所需的时间。
模型预测结果比较：展示了不同模型对测试序列的预测结果与真实目标值的比较。
模型总训练时间比较：展示了不同模型的总训练时间。

这些可视化结果清晰地展示了Transformer相对于RNN变体的优势，无论是在预测准确性还是计算效率方面。

10. 未来工作

基于本次实验，我们可以考虑以下几个方向的未来工作：

在更复杂的序列任务上比较这些架构，如自然语言处理或时间序列预测
探索RNN和Transformer的混合架构，结合两者的优点
研究如何优化RNN变体的训练过程，使其能够更有效地学习
探索Transformer架构的更多变体，如Transformer-XL、Reformer等，以解决原始Transformer的一些限制

通过这些进一步的研究，我们可以更全面地理解不同序列建模架构的特性和适用场景，为实际应用提供更好的指导。# 从循环到注意力：解析神经网络架构的华丽蜕变

1. 引言

2. 循环神经网络（RNN）

2.1 基本原理

基本RNN的数学表达式为：

h_t = tanh(W_xh * x_t + W_hh * h_{t-1} + b_h)
y_t = W_hy * h_t + b_y

其中：

h_t是时间步t的隐藏状态
x_t是时间步t的输入
W_xh、W_hh、W_hy是权重矩阵
b_h、b_y是偏置项

2.2 RNN变体

2.2.1 长短期记忆网络（LSTM）

LSTM通过引入门控机制解决了基本RNN的梯度消失问题，使网络能够学习长期依赖关系。

LSTM的核心组件包括：

遗忘门：决定丢弃哪些信息
输入门：决定存储哪些新信息
输出门：决定输出哪些信息

2.2.2 门控循环单元（GRU）

GRU是LSTM的简化版本，合并了遗忘门和输入门为一个更新门，并将单元状态和隐藏状态合并。

2.3 RNN的优缺点

优点：

能够处理任意长度的序列
参数共享使模型更加紧凑
能够捕捉序列中的时间依赖关系

缺点：

难以捕捉长距离依赖关系（尽管LSTM和GRU有所改善）
计算是顺序的，无法并行化，导致训练速度慢
容易出现梯度消失或爆炸问题

3. Transformer架构

3.1 基本原理

Transformer架构由Vaswani等人在2017年的论文"Attention is All You Need"中提出，它完全摒弃了循环结构，而是完全依赖注意力机制来处理序列数据。

Transformer的核心组件包括：

多头自注意力机制
位置编码
前馈神经网络
残差连接和层归一化

3.2 自注意力机制

自注意力机制允许模型在处理序列的每个位置时，考虑序列中所有其他位置的信息。其计算过程如下：

将输入转换为查询(Q)、键(K)和值(V)
计算注意力权重：Attention(Q, K, V) = softmax(QK^T / sqrt(d_k))V
多头注意力通过并行计算多个注意力"头"，然后将结果拼接起来

3.3 Transformer的优缺点

优点：

能够有效捕捉长距离依赖关系
计算可以高度并行化，训练速度更快
在多种序列任务上取得了最先进的结果

缺点：

计算复杂度随序列长度呈二次增长
需要位置编码来提供序列顺序信息
通常需要更多的数据和计算资源来训练

4. 代码实现

4.1 RNN实现

以下是RNN及其变体（SimpleRNN、LSTM、GRU）的PyTorch实现：

import torch
import torch.nn as nn

class SimpleRNN(nn.Module):
    def __init__(self, input_size, hidden_size, output_size):
        super(SimpleRNN, self).__init__()
        self.hidden_size = hidden_size
        self.i2h = nn.Linear(input_size + hidden_size, hidden_size)
        self.i2o = nn.Linear(input_size + hidden_size, output_size)
        self.tanh = nn.Tanh()
        
    def forward(self, input, hidden):
        combined = torch.cat((input, hidden), 1)
        hidden = self.tanh(self.i2h(combined))
        output = self.i2o(combined)
        return output, hidden
    
    def init_hidden(self):
        return torch.zeros(1, self.hidden_size)

class LSTM(nn.Module):
    def __init__(self, input_size, hidden_size, output_size):
        super(LSTM, self).__init__()
        self.hidden_size = hidden_size
        
        # 遗忘门
        self.forget_gate = nn.Linear(input_size + hidden_size, hidden_size)
        # 输入门
        self.input_gate = nn.Linear(input_size + hidden_size, hidden_size)
        # 候选单元状态
        self.cell_gate = nn.Linear(input_size + hidden_size, hidden_size)
        # 输出门
        self.output_gate = nn.Linear(input_size + hidden_size, hidden_size)
        
        # 输出层
        self.output_layer = nn.Linear(hidden_size, output_size)
        
        # 激活函数
        self.sigmoid = nn.Sigmoid()
        self.tanh = nn.Tanh()
        
    def forward(self, input, hidden):
        # 解包隐藏状态和单元状态
        h_prev, c_prev = hidden
        
        # 合并输入和前一个隐藏状态
        combined = torch.cat((input, h_prev), 1)
        
        # 计算门值
        forget = self.sigmoid(self.forget_gate(combined))
        input_gate = self.sigmoid(self.input_gate(combined))
        cell_candidate = self.tanh(self.cell_gate(combined))
        output_gate = self.sigmoid(self.output_gate(combined))
        
        # 更新单元状态
        c_next = forget * c_prev + input_gate * cell_candidate
        
        # 计算新的隐藏状态
        h_next = output_gate * self.tanh(c_next)
        
        # 计算输出
        output = self.output_layer(h_next)
        
        return output, (h_next, c_next)
    
    def init_hidden(self):
        return (torch.zeros(1, self.hidden_size), torch.zeros(1, self.hidden_size))

class GRU(nn.Module):
    def __init__(self, input_size, hidden_size, output_size):
        super(GRU, self).__init__()
        self.hidden_size = hidden_size
        
        # 更新门
        self.update_gate = nn.Linear(input_size + hidden_size, hidden_size)
        # 重置门
        self.reset_gate = nn.Linear(input_size + hidden_size, hidden_size)
        # 候选隐藏状态
        self.h_candidate = nn.Linear(input_size + hidden_size, hidden_size)
        
        # 输出层
        self.output_layer = nn.Linear(hidden_size, output_size)
        
        # 激活函数
        self.sigmoid = nn.Sigmoid()
        self.tanh = nn.Tanh()
        
    def forward(self, input, hidden):
        # 合并输入和前一个隐藏状态
        combined = torch.cat((input, hidden), 1)
        
        # 计算门值
        update = self.sigmoid(self.update_gate(combined))
        reset = self.sigmoid(self.reset_gate(combined))
        
        # 计算候选隐藏状态
        combined_reset = torch.cat((input, reset * hidden), 1)
        h_candidate = self.tanh(self.h_candidate(combined_reset))
        
        # 更新隐藏状态
        h_next = (1 - update) * hidden + update * h_candidate
        
        # 计算输出
        output = self.output_layer(h_next)
        
        return output, h_next
    
    def init_hidden(self):
        return torch.zeros(1, self.hidden_size)

4.2 Transformer实现

以下是Transformer模型及其核心组件的PyTorch实现：

import torch
import torch.nn as nn
import math

class PositionalEncoding(nn.Module):
    def __init__(self, d_model, max_seq_length=5000):
        super(PositionalEncoding, self).__init__()
        
        # 创建位置编码矩阵
        pe = torch.zeros(max_seq_length, d_model)
        position = torch.arange(0, max_seq_length, dtype=torch.float).unsqueeze(1)
        div_term = torch.exp(torch.arange(0, d_model, 2).float() * (-math.log(10000.0) / d_model))
        
        # 计算正弦和余弦位置编码
        pe[:, 0::2] = torch.sin(position * div_term)
        pe[:, 1::2] = torch.cos(position * div_term)
        
        # 添加批次维度并注册为缓冲区
        pe = pe.unsqueeze(0)
        self.register_buffer('pe', pe)
        
    def forward(self, x):
        # 添加位置编码到输入
        x = x + self.pe[:, :x.size(1), :]
        return x

class MultiHeadAttention(nn.Module):
    def __init__(self, d_model, num_heads):
        super(MultiHeadAttention, self).__init__()
        
        assert d_model % num_heads == 0, "d_model必须能被num_heads整除"
        
        self.d_model = d_model
        self.num_heads = num_heads
        self.d_k = d_model // num_heads
        
        self.W_q = nn.Linear(d_model, d_model)
        self.W_k = nn.Linear(d_model, d_model)
        self.W_v = nn.Linear(d_model, d_model)
        self.W_o = nn.Linear(d_model, d_model)
        
    def scaled_dot_product_attention(self, Q, K, V, mask=None):
        attn_scores = torch.matmul(Q, K.transpose(-2, -1)) / math.sqrt(self.d_k)
        
        if mask is not None:
            attn_scores = attn_scores.masked_fill(mask == 0, -1e9)
        
        attn_weights = torch.softmax(attn_scores, dim=-1)
        output = torch.matmul(attn_weights, V)
        
        return output, attn_weights
    
    def split_heads(self, x):
        batch_size, seq_length, _ = x.size()
        return x.view(batch_size, seq_length, self.num_heads, self.d_k).transpose(1, 2)
    
    def combine_heads(self, x):
        batch_size, _, seq_length, _ = x.size()
        return x.transpose(1, 2).contiguous().view(batch_size, seq_length, self.d_model)
    
    def forward(self, Q, K, V, mask=None):
        Q = self.W_q(Q)
        K = self.W_k(K)
        V = self.W_v(V)
        
        Q_split = self.split_heads(Q)
        K_split = self.split_heads(K)
        V_split = self.split_heads(V)
        
        attn_output, attn_weights = self.scaled_dot_product_attention(Q_split, K_split, V_split, mask)
        
        output = self.combine_heads(attn_output)
        output = self.W_o(output)
        
        return output, attn_weights

class FeedForward(nn.Module):
    def __init__(self, d_model, d_ff):
        super(FeedForward, self).__init__()
        
        self.linear1 = nn.Linear(d_model, d_ff)
        self.relu = nn.ReLU()
        self.linear2 = nn.Linear(d_ff, d_model)
        
    def forward(self, x):
        return self.linear2(self.relu(self.linear1(x)))

class EncoderLayer(nn.Module):
    def __init__(self, d_model, num_heads, d_ff, dropout=0.1):
        super(EncoderLayer, self).__init__()
        
        self.self_attn = MultiHeadAttention(d_model, num_heads)
        self.feed_forward = FeedForward(d_model, d_ff)
        
        self.norm1 = nn.LayerNorm(d_model)
        self.norm2 = nn.LayerNorm(d_model)
        
        self.dropout = nn.Dropout(dropout)
        
    def forward(self, x, mask=None):
        attn_output, _ = self.self_attn(x, x, x, mask)
        x = self.norm1(x + self.dropout(attn_output))
        
        ff_output = self.feed_forward(x)
        x = self.norm2(x + self.dropout(ff_output))
        
        return x

class Transformer(nn.Module):
    def __init__(self, input_size, d_model, num_heads, num_layers, d_ff, dropout=0.1):
        super(Transformer, self).__init__()
        
        self.embedding = nn.Linear(input_size, d_model)
        self.positional_encoding = PositionalEncoding(d_model)
        
        self.encoder_layers = nn.ModuleList([
            EncoderLayer(d_model, num_heads, d_ff, dropout)
            for _ in range(num_layers)
        ])
        
        self.output_layer = nn.Linear(d_model, input_size)
        self.dropout = nn.Dropout(dropout)
        
    def forward(self, x, mask=None):
        # x: [batch_size, seq_len, input_size]
        x = self.embedding(x)  # [batch_size, seq_len, d_model]
        x = self.positional_encoding(x)
        x = self.dropout(x)
        
        for encoder_layer in self.encoder_layers:
            x = encoder_layer(x, mask)
        
        output = self.output_layer(x)
        return output

5. 实验设置与结果

5.1 实验设置

我们实现了SimpleRNN、LSTM、GRU和Transformer模型，并在一个序列预测任务上进行了比较。

任务：预测随机生成的数字序列中的下一个数字
数据：500个随机生成的序列，每个序列长度为10
训练/测试划分：80%训练，20%测试
模型参数：
- 隐藏层大小/模型维度：64
- Transformer头数：4
- Transformer层数：2
- 训练轮数：50

5.2 测试代码

以下是我们用于测试不同模型的代码：

def main():
    """
    主函数，运行测试
    """
    print("开始测试RNN和Transformer模型...")
    print("=" * 50)
    
    # 生成序列数据
    print("生成序列数据...")
    X, y = generate_sequence_data(seq_length=10, num_samples=500)
    
    # 划分训练集和测试集
    train_size = int(0.8 * len(X))
    X_train, X_test = X[:train_size], X[train_size:]
    y_train, y_test = y[:train_size], y[train_size:]
    
    print(f"训练集大小: {len(X_train)}, 测试集大小: {len(X_test)}")
    
    # 模型参数
    input_size = 1  # 每个时间步的特征维度
    hidden_size = 64  # RNN隐藏层大小
    output_size = 1  # 输出维度
    d_model = 64  # Transformer模型维度
    num_heads = 4  # Transformer注意力头数
    num_layers = 2  # Transformer层数
    epochs = 50  # 训练轮数
    
    # 训练SimpleRNN模型
    print("\n训练SimpleRNN模型...")
    rnn_model, rnn_history = train_rnn_model('simple', input_size, hidden_size, output_size, 
                                            X_train, y_train, epochs=epochs)
    
    # 训练LSTM模型
    print("\n训练LSTM模型...")
    lstm_model, lstm_history = train_rnn_model('lstm', input_size, hidden_size, output_size, 
                                              X_train, y_train, epochs=epochs)
    
    # 训练GRU模型
    print("\n训练GRU模型...")
    gru_model, gru_history = train_rnn_model('gru', input_size, hidden_size, output_size, 
                                            X_train, y_train, epochs=epochs)
    
    # 训练Transformer模型
    print("\n训练Transformer模型...")
    transformer_model, transformer_history = train_transformer_model(input_size, d_model, num_heads, 
                                                                   num_layers, X_train, y_train, 
                                                                   epochs=epochs)
    
    # 评估模型
    print("\n评估模型性能...")
    rnn_loss, rnn_preds = evaluate_model(rnn_model, 'rnn', X_test, y_test)
    lstm_loss, lstm_preds = evaluate_model(lstm_model, 'rnn', X_test, y_test)
    gru_loss, gru_preds = evaluate_model(gru_model, 'rnn', X_test, y_test)
    transformer_loss, transformer_preds = evaluate_model(transformer_model, 'transformer', X_test, y_test)
    
    print(f"SimpleRNN测试损失: {rnn_loss:.4f}")
    print(f"LSTM测试损失: {lstm_loss:.4f}")
    print(f"GRU测试损失: {gru_loss:.4f}")
    print(f"Transformer测试损失: {transformer_loss:.4f}")
    
    # 绘制结果
    print("\n绘制结果...")
    plot_results(rnn_history, lstm_history, gru_history, transformer_history)
    plot_predictions(X_test, y_test, rnn_preds, lstm_preds, gru_preds, transformer_preds)
    
    print("\n测试完成！结果已保存为图片。")
    print("=" * 50)

5.3 实验结果

5.3.1 训练损失和时间

在训练过程中，我们观察到：

Transformer模型的训练损失从31.3降至约6.7，表明有效学习
RNN变体（SimpleRNN、LSTM、GRU）的训练损失几乎没有变化，保持在约31.0
Transformer的每轮训练时间最短，LSTM最长

5.3.2 测试性能

在测试集上：

Transformer测试损失：6.5362
SimpleRNN测试损失：32.2622
LSTM测试损失：32.2622
GRU测试损失：32.2622

5.3.3 总训练时间

SimpleRNN：27.47秒
LSTM：62.72秒
GRU：55.43秒
Transformer：22.43秒

6. 结果分析

6.1 性能比较

这种性能差异可能是由于以下原因：

Transformer的自注意力机制能够直接建模序列中任意两个位置之间的依赖关系，而不受距离的限制
多头注意力机制允许模型同时关注序列的不同方面
位置编码提供了序列顺序信息，弥补了非循环结构的不足

6.2 训练效率

在训练效率方面，Transformer也表现出明显的优势：

Transformer的总训练时间最短，仅为22.43秒，而LSTM最长，为62.72秒
这验证了Transformer架构的并行计算优势，它可以同时处理序列中的所有位置，而RNN必须按顺序处理

6.3 学习能力

在相同的训练轮数下，只有Transformer表现出有效的学习，其训练损失从31.3降至约6.7。而RNN变体的训练损失几乎没有变化，这表明：

Transformer更容易优化，梯度传播更加稳定
RNN变体可能需要更多的训练轮数或更精细的超参数调整才能有效学习

7. 应用场景比较

7.1 RNN更适合的场景

尽管在我们的实验中Transformer表现更好，但RNN在某些场景下仍有其优势：

资源受限的环境（如移动设备）
需要实时处理的流数据
序列较短且依赖关系简单的任务
需要明确建模时间依赖关系的任务

7.2 Transformer更适合的场景

Transformer架构更适合以下场景：

复杂的自然语言处理任务（如机器翻译、文本生成）
长序列处理（如长文档分析）
有大量计算资源可用的环境
需要捕捉长距离依赖关系的任务

8. 结论

随着深度学习的不断发展，我们可以期待看到更多创新的序列建模方法，它们可能会结合这两种架构的优点，或者引入全新的范式。

9. 实验结果可视化

我们的实验生成了三个可视化图表：

模型训练损失和时间比较：展示了不同模型的训练损失随着训练轮数的变化，以及每个训练轮次所需的时间。
模型预测结果比较：展示了不同模型对测试序列的预测结果与真实目标值的比较。
模型总训练时间比较：展示了不同模型的总训练时间。

这些可视化结果清晰地展示了Transformer相对于RNN变体的优势，无论是在预测准确性还是计算效率方面。

10. 未来工作

基于本次实验，我们可以考虑以下几个方向的未来工作：

在更复杂的序列任务上比较这些架构，如自然语言处理或时间序列预测
探索RNN和Transformer的混合架构，结合两者的优点
研究如何优化RNN变体的训练过程，使其能够更有效地学习
探索Transformer架构的更多变体，如Transformer-XL、Reformer等，以解决原始Transformer的一些限制

通过这些进一步的研究，我们可以更全面地理解不同序列建模架构的特性和适用场景，为实际应用提供更好的指导。

你可能感兴趣的:(神经网络,rnn,transformer)

MotionLCM 部署优化踩坑解决bug AI算法网奇 aigc与数字人深度学习宝典文生motion
目录依赖项windowstorchok：渲染黑白图问题解决：humanml3d：sentence-t5-large下载数据：报错：Nomodulenamed'sentence_transformers'继续报错：fromtransformers.integrationsimportCodeCarbonCallback解决方法：推理相关转mesh：module‘matplotlib.cm‘hasno
机器学习必备数学与编程指南：从入门到精通 a小胡哦机器学习基础机器学习人工智能
一、机器学习核心数学基础1.线性代数（神经网络的基础）必须掌握：矩阵运算（乘法、转置、逆）向量空间与线性变换特征值分解与奇异值分解(SVD)为什么重要：神经网络本质就是矩阵运算学习技巧：用NumPy实际操作矩阵运算2.概率与统计（模型评估的关键）核心概念：条件概率与贝叶斯定理概率分布（正态、泊松、伯努利）假设检验与p值应用场景：朴素贝叶斯、A/B测试3.微积分（优化算法的基础）重点掌握：导数与偏导
神经形态计算如何突破冯·诺依曼架构限制？ AI算力网络与通信 AI人工智能与大数据技术 AI算力网络与通信原理 AI人工智能大数据架构架构 ai
神经形态计算如何突破冯·诺依曼架构限制？关键词：神经形态计算、冯·诺依曼架构、内存墙、存算一体、脉冲神经网络、类脑芯片、低功耗计算摘要：本文将从“冯·诺依曼架构的前世今生”讲起，用“图书馆管理员搬书”的生活案例类比其核心矛盾，再通过“人脑神经元工作模式”的比喻引入神经形态计算的核心原理。我们将一步步拆解冯·诺依曼架构的三大限制（内存墙、高功耗、非结构化数据处理弱），并对应解析神经形态计算的三大突破
深入理解卷积神经网络（CNN）与循环神经网络（RNN） CodeJourney. cnn rnn 人工智能
在当今的人工智能领域，神经网络无疑是最为璀璨的明珠之一。而卷积神经网络（ConvolutionalNeuralNetworks，CNN）和循环神经网络（RecurrentNeuralNetworks，RNN）作为神经网络家族中的重要成员，各自有着独特的架构和强大的功能，广泛应用于众多领域。本文将深入探讨这两种神经网络的原理、特点以及应用场景，为对深度学习感兴趣的读者提供全面的知识讲解。一、卷积神经
时序预测 | MATLAB实现贝叶斯优化CNN-GRU时间序列预测(股票价格预测) Matlab机器学习之心 matlab cnn gru
✅作者简介：热爱数据处理、数学建模、仿真设计、论文复现、算法创新的Matlab仿真开发者。更多Matlab代码及仿真咨询内容点击主页：Matlab科研工作室个人信条：格物致知，期刊达人。内容介绍股票价格预测一直是金融领域一个极具挑战性的课题。其内在的非线性、随机性和复杂性使得传统的预测方法难以取得令人满意的效果。近年来，深度学习技术，特别是卷积神经网络(CNN)和门控循环单元(GRU)的结合，为时
时序预测 | MATLAB实现BO-CNN-GRU贝叶斯优化卷积门控循环单元时间序列预测 Matlab算法改进和仿真定制工程师 matlab cnn gru
✅作者简介：热爱数据处理、数学建模、算法创新的Matlab仿真开发者。更多Matlab代码及仿真咨询内容点击：Matlab科研工作室个人信条：格物致知。内容介绍时间序列预测在各个领域都具有重要的应用价值，例如金融市场预测、气象预报、交通流量预测等。准确地预测未来趋势对于决策制定至关重要。近年来，深度学习技术在时间序列预测领域取得了显著进展，其中卷积神经网络(CNN)和门控循环单元(GRU)由于其强
如何运用深度学习打造高效AI人工智能系统 AI智能探索者 AI Agent 智能体开发实战人工智能深度学习 ai
如何运用深度学习打造高效AI人工智能系统关键词：深度学习、AI系统、神经网络、模型优化、实战开发摘要：本文将从深度学习的核心概念出发，结合生活实例和代码实战，系统讲解如何构建高效AI系统。我们会拆解数据准备、模型设计、训练优化、部署落地的全流程，揭秘“数据-模型-训练-推理”的协同机制，并通过具体案例演示从0到1开发AI系统的关键技巧，帮助开发者掌握打造高效AI系统的底层逻辑。背景介绍目的和范围在
非欧空间计算加速：图神经网络与微分几何计算的GPU优化（流形数据的内存布局优化策略）九章云极AladdinEdu 空间计算神经网络人工智能 gpu算力算法 java 开发语言
一、非欧空间计算的革命性意义与核心挑战在三维形状分析、社交网络建模、分子动力学模拟等领域，非欧几里得空间数据（流形数据）的处理正推动人工智能技术向更复杂的几何结构迈进。传统欧式空间优化方法在处理流形数据时面临根本性局限：黎曼度量导致距离计算失效、局部坐标系动态变化引发内存访问模式混乱、曲率变化影响并行计算效率。本文提出基于分块流形存储（BlockedManifoldStorage,BMS）与层次化
基于深度学习的目标检测算法综述：从RCNN到YOLOv13，一文看懂十年演进！人工智能教程深度学习目标检测算法人工智能自动驾驶 YOLO 机器学习
一、引言：目标检测的十年巨变2012年AlexNet拉开深度学习序幕，2014年RCNN横空出世，目标检测从此进入“深度时代”。十年间，算法从两阶段到单阶段，从Anchor-base到Anchor-free，从CNN到Transformer，从2D到3D，从监督学习到自监督学习，迭代速度之快令人目不暇接。本文将系统梳理基于深度学习的目标检测算法，带你全面了解技术演进、核心思想、代表算法、工业落地与
基于AlexNet架构的卷积神经网络模型用于对胸部X光图像进行二分类（例如，诊断肺炎）
1.肺炎正常的胸部X线片描绘了清晰的肺部，图像中没有任何异常混浊的区域。正常的胸部X线片1.1细菌性肺炎临床表现细菌性肺炎通常由细菌引起，如肺炎链球菌、流感嗜血杆菌、肺炎克雷伯菌等。患者可能出现高热、寒战、咳嗽、咳痰（痰液可能呈脓性）、胸痛、呼吸困难等症状。影像学特征局灶性肺叶实变细菌性肺炎在影像学上常表现为肺叶或肺段的局灶性实变，即某一区域的肺组织因炎症而失去气体交换功能，呈现为高密度影。胸腔积
视觉Transformer还有哪些点可以研究？怎么应用？计算机视觉工坊 3D视觉从入门到精通学习算法开源
0.这篇文章干了啥？今天笔者为大家推荐一篇最新的综述，详细总结了Transformer的网络架构、优化策略、发展方向，还会定期更新Github，研究注意力机制的小伙伴一定不要错过。注意机制有助于人类视觉系统有效地分析和理解复杂场景，它能够聚焦于图像的关键区域，同时忽略无关紧要的部分。受此概念启发，注意机制已经被引入到计算机视觉（CV）中，以动态地为图像中的不同区域分配权重。这使得神经网络能够专注于
PyTorch 使用指南
PyTorch是一个功能强大且灵活的Python开源机器学习库，以其动态计算图和直观的Pythonic接口而闻名。本指南将带您了解PyTorch的基础操作，包括张量创建、自动求导，以及如何构建、训练和优化神经网络模型。我们还将深入探讨其在图像分类（以CIFAR-10为例）和自然语言处理（以灾难推文分类为例）等特定领域的应用，并概述其在图像分割和强化学习等其他领域的应用。PyTorch使用指南1.P
Python_day55序列预测任务介绍且慢.589 Python_60 python 人工智能开发语言
在进入rnn相关变体的内容前，我们必须要搞懂序列任务的前生今世，这是我当初自学的时候非常迷茫和痛苦的，只有理解了序列任务，才知道模型为什么这么选择，数据为什么这么处理一、序列预测任务介绍1.1序列预测是什么？我们之前接触到的结构化数据，它本身不具备顺序，我们认为每个样本之间独立无关，样本之间即使调换顺序，仍然不影响模型的训练。但是日常中很多数据是存在先后关系的，而他们对应的任务是预测下一步的值，我
Python_day54Inception网络及其思考且慢.589 Python_60 python 开发语言
一、inception网络介绍今天我们介绍inception，也就是GoogleNet传统计算机视觉的发展史从上面的链接，可以看到其实inceptionnet是在resnet之前的，那为什么我今天才说呢？因为他要引出我们后面的特征融合和特征并行处理这些思想。Inception网络，也被称为GoogLeNet，是Google团队在2014年提出的经典卷积神经网络架构。它的核心设计理念是“并行的多尺度
Python爬虫【五十八章】Python数据清洗与分析全攻略：从Pandas到深度学习的异常检测进阶程序员_CLUB Python入门到进阶 python 爬虫 pandas
目录背景与需求分析第一章：结构化数据清洗实战（Pandas核心技法）1.1数据去重策略矩阵1.2智能缺失值处理体系第二章：深度学习异常检测进阶2.1自动编码器异常检测（时序数据）2.2图神经网络异常检测（关系型数据）第三章：综合案例实战案例1：金融交易反欺诈系统案例2：工业传感器异常检测第四章：性能优化与工程实践4.1大数据处理加速技巧4.2模型部署方案第五章：方法论总结与展望5.1方法论框架5.
【AI大模型：前沿】43、Mamba架构深度解析：为什么它是Transformer最强挑战者？无心水架构 transformer Mamba Mamba架构 AI大模型系统开发实战 AI大模型高手开发 AI大模型系统实战
Transformer架构自2017年诞生以来，一直是NLP、计算机视觉等领域的“统治级”模型架构。但随着序列长度需求的增长（如128K长文本处理、基因组学超长序列分析），其自注意力机制的O(n2)O(n^2)O(n2)计算复杂度成为难以逾越的瓶颈。2023年底，由AlbertGu和TriDao等人提出的Mamba架构，通过创新的“选择性状态空间模型（SelectiveSSM）”实现了线性复杂度（
java List＜Map＞去重 Perfect珈蓝 java
publicstaticList>removeRepeatMapByKey(List>list,StringmapKey){if(CollectionUtils.isNullOrEmpty(list))returnnull;List>listMap=newArrayListmsp=newHashMap=0;i--){Mapmap=list.get(i);Stringid=map.get(mapKe
Llama 2 模型架构深度解析：Transformer的进化 SuperAGI架构师的AI实验室 AI大模型应用开发宝典 llama 架构 transformer ai
Llama2模型架构深度解析：Transformer的进化关键词：Llama2、Transformer、模型架构、进化、人工智能摘要：本文将深入剖析Llama2的模型架构，探讨它作为Transformer进化版本的独特之处。从背景知识的介绍，到核心概念的解释，再到算法原理、实战案例以及实际应用场景等方面，为读者全面展现Llama2的魅力和价值。通过通俗易懂的语言，让即使是对技术不太熟悉的读者也能理
基于深度学习的图像分类：使用ShuffleNet实现高效分类 Blossom.118 机器学习与人工智能深度学习分类人工智能机器学习数据挖掘 python 目标检测
前言图像分类是计算机视觉领域中的一个基础任务，其目标是将输入的图像分配到预定义的类别中。近年来，深度学习技术，尤其是卷积神经网络（CNN），在图像分类任务中取得了显著的进展。ShuffleNet是一种轻量级的深度学习架构，专为移动和嵌入式设备设计，能够在保持较高分类精度的同时，显著减少计算量和模型大小。本文将详细介绍如何使用ShuffleNet实现高效的图像分类，从理论基础到代码实现，带你一步步掌
高效搜索旋转排序数组：O(logn)解法揭秘 lbflyo 算法 leetcode 数据结构
力扣中等题：33.搜索旋转排序数组整数数组nums按升序排列，数组中的值互不相同。在传递给函数之前，nums在预先未知的某个下标k（0&nums,inttarget){intn=(int)nums.size();if(!n){return-1;}//数组为空，直接返回-1if(n==1){returnnums[0]==target?0:-1;}intl=0,r=n-1;while(l<=r){in
Promise的allSettled,all,race 大猫会长前端
下列代码证实了:无论是for或是forof循环,都会等上一个请求彻底完成，才会开始下一个//模拟一个获取用户数据的api请求functionfetchUser(id){returnnewPromise(resolve=>{setTimeout(()=>{console.log(`获取到用户${id}`);//模拟网络请求resolve({id:id,name:`用户${id}`});},1000)
【Python】Python+sentence-transformers框架实现相似文本识别宅男很神经 python 开发语言
第一章：文本相似度与语义表示概述在深入sentence-transformers框架之前，我们首先需要对文本相似度计算及其背后的核心概念——语义表示，有一个清晰且全面的理解。这构成了后续所有讨论的基础。1.1什么是文本相似度？1.1.1定义与重要性文本相似度（TextSimilarity）是指衡量两段文本（可以是词、短语、句子、段落或整个文档）在意义或内容上相近程度的指标。这种相近可以是字面上的（
YOLOv5激活函数替换与模型变体实验实战教程机＿长 YOLO极致优化实战 YOLO 深度学习算法
YOLOv5激活函数替换与模型变体实验实战教程本教程面向已具备YOLOv5训练经验的开发者，系统讲解如何在YOLOv5中替换激活函数、构建模型变体，并结合本项目实际文件和命令，突出实用性和可操作性。内容涵盖激活函数原理、替换方法、配置文件讲解、训练实操、源码解读、实验对比与常见问题排查。完整代码见文末1.激活函数原理简介激活函数是深度神经网络中非线性建模的关键组件。常见激活函数包括：ReLU：简单
揭秘Transformer架构：残差流与隐藏层的关系 ZhangJiQun&MXP 教学 2024大模型以及算力 2021 AI python transformer 深度学习人工智能 linux 算法
在Transformer架构的LLM中，“残差流”（residualstream）和“隐藏层”（hiddenlayers）是密切相关但不同的概念，前者是层间流动的核心数据，后者是处理这些数据的结构单元。1.残差流（ResidualStream）：层间传递的“信息流”残差流指的是在Transformer层之间传递的核心张量，它是模型中“流动”的数据载体。其本质是通过“残差连接”（residualco
基于白鲸算法优化的混合核极限学习机(HKELM)的回归预测智能算法研学社（Jack旭） #混合核极限学习机HKELM 智能优化算法应用算法回归
基于白鲸算法优化的混合核极限学习机(HKELM)的回归预测文章目录基于白鲸算法优化的混合核极限学习机(HKELM)的回归预测1.HKELM原理2.预测问题求解3.基于白鲸算法优化的HKELM4.实验结果5.Matlab代码1.HKELM原理核极限学习机（KELM）是一种单隐含层前馈神经网络，通过引入核函数改善极限学习机（ELM）性能，其输出可表示为：f(x)=h(x)HU(ZC+HHU)−1U=[
基于食肉植物算法优化的混合核极限学习机(HKELM)的回归预测智能算法研学社（Jack旭） #混合核极限学习机HKELM 智能优化算法应用算法回归数据挖掘
基于食肉植物算法优化的混合核极限学习机(HKELM)的回归预测文章目录基于食肉植物算法优化的混合核极限学习机(HKELM)的回归预测1.HKELM原理2.预测问题求解3.基于食肉植物算法优化的HKELM4.实验结果5.Matlab代码1.HKELM原理核极限学习机（KELM）是一种单隐含层前馈神经网络，通过引入核函数改善极限学习机（ELM）性能，其输出可表示为：f(x)=h(x)HU(ZC+HHU
基于蛇优化算法优化的混合核极限学习机(HKELM)的回归预测
基于蛇优化算法优化的混合核极限学习机(HKELM)的回归预测文章目录基于蛇优化算法优化的混合核极限学习机(HKELM)的回归预测1.HKELM原理2.预测问题求解3.基于蛇优化算法优化的HKELM4.实验结果5.Matlab代码1.HKELM原理核极限学习机（KELM）是一种单隐含层前馈神经网络，通过引入核函数改善极限学习机（ELM）性能，其输出可表示为：f(x)=h(x)HU(ZC+HHU)−1
MATLAB实现基于GA-CNN-BiLSTM-Attention遗传算法（GA）优化卷积双向长短期记忆神经网络融合注意力机制进行多变量时序预测的详细项目实例（含模型描述及示例代码） nantangyuxi MATLAB 含模型描述及示例代码神经网络 matlab cnn 支持向量机人工智能大数据深度学习
目录MATLAB实现基于GA-CNN-BiLSTM-Attention遗传算法（GA）优化卷积双向长短期记忆神经网络融合注意力机制进行多变量时序预测的详细项目实例...2项目背景介绍...2项目目标与意义...31.提高多变量时序预测的准确性...32.弥补传统方法的局限性...33.提高模型训练效率...3
神经网络和机器学习的一些基本概念荼渔机器学习神经网络
记录一些基本概念，不涉及公式推导，因为数学不好，记了也没啥用，但是知道一些基本术语以及其中的关系，对神经网络训练有很大帮助。可能有些概念不会讲得很详细，但是当你有了这个概念，你就知道往这个方向去获取更详细的信息，不至于连往哪走都不知道。下面以多元线性回归模型为例1.模型模型训练过程就是利用已知的x和y,求解b的过程，b也称为权重。虽然没有那么简单，但是训练完成的模型本质上就是一组权重值，如[b1,
多维时序 | Matlab实现GA-LSTM-Attention遗传算法优化长短期记忆神经网络融合注意力机制多变量时间序列预测天天Matlab代码科研顾问预测模型神经网络 matlab lstm
✅作者简介：热爱科研的Matlab仿真开发者，擅长数据处理、建模仿真、程序设计、完整代码获取、论文复现及科研仿真。往期回顾关注个人主页：Matlab科研工作室个人信条：格物致知,完整Matlab代码及仿真咨询内容私信。内容介绍风力发电是一种清洁能源，越来越受到人们的关注和重视。然而，由于风力发电的不稳定性和不可控性，风电预测成为了一个至关重要的问题。为了更精准地预测风电发电量，许多研究者开始尝试利
关于旗正规则引擎中的MD5加密问题何必如此 jsp MD5 规则加密
一般情况下，为了防止个人隐私的泄露，我们都会对用户登录密码进行加密，使数据库相应字段保存的是加密后的字符串，而非原始密码。在旗正规则引擎中，通过外部调用，可以实现MD5的加密，具体步骤如下： 1.在对象库中选择外部调用，选择“com.flagleader.util.MD5”，在子选项中选择“com.flagleader.util.MD5.getMD5ofStr({arg1})”； 2.在规
【Spark101】Scala Promise/Future在Spark中的应用 bit1129 Promise
Promise和Future是Scala用于异步调用并实现结果汇集的并发原语，Scala的Future同JUC里面的Future接口含义相同，Promise理解起来就有些绕。等有时间了再仔细的研究下Promise和Future的语义以及应用场景，具体参见Scala在线文档：http://docs.scala-lang.org/sips/completed/futures-promises.html
spark sql 访问hive数据的配置详解 daizj spark sql hive thriftserver
spark sql 能够通过thriftserver 访问hive数据，默认spark编译的版本是不支持访问hive，因为hive依赖比较多，因此打的包中不包含hive和thriftserver,因此需要自己下载源码进行编译，将hive，thriftserver打包进去才能够访问，详细配置步骤如下： 1、下载源码 2、下载Maven,并配置此配置简单，就略过
HTTP 协议通信周凡杨 java httpclient http 通信
一：简介 HTTPCLIENT，通过JAVA基于HTTP协议进行点与点间的通信！二：代码举例测试类： import java
java unix时间戳转换 g21121 java
把java时间戳转换成unix时间戳： Timestamp appointTime=Timestamp.valueOf(new SimpleDateFormat("yyyy-MM-dd HH:mm:ss").format(new Date())) SimpleDateFormat df = new SimpleDateFormat("yyyy-MM-dd hh:m
web报表工具FineReport常用函数的用法总结（报表函数）老A不折腾 web报表 finereport 总结
说明：本次总结中，凡是以tableName或viewName作为参数因子的。函数在调用的时候均按照先从私有数据源中查找，然后再从公有数据源中查找的顺序。 CLASS CLASS(object):返回object对象的所属的类。 CNMONEY CNMONEY(number,unit)返回人民币大写。 number:需要转换的数值型的数。 unit:单位，
java jni调用c++ 代码报错墙头上一根草 java C++jni
# # A fatal error has been detected by the Java Runtime Environment: # # EXCEPTION_ACCESS_VIOLATION (0xc0000005) at pc=0x00000000777c3290, pid=5632, tid=6656 # # JRE version: Java(TM) SE Ru
Spring中事件处理de小技巧 aijuans spring Spring 教程 Spring 实例 Spring 入门 Spring3
Spring 中提供一些Aware相关de接口，BeanFactoryAware、 ApplicationContextAware、ResourceLoaderAware、ServletContextAware等等，其中最常用到de匙ApplicationContextAware.实现ApplicationContextAwaredeBean，在Bean被初始后，将会被注入 Applicati
linux shell ls脚本样例 annan211 linux linux ls源码 linux 源码
#! /bin/sh - #查找输入文件的路径 #在查找路径下寻找一个或多个原始文件或文件模式 # 查找路径由特定的环境变量所定义 #标准输出所产生的结果通常是查找路径下找到的每个文件的第一个实体的完整路径 # 或是filename :not found 的标准错误输出。 #如果文件没有找到则退出码为0 #否则即为找不到的文件个数 #语法 pathfind [--
List,Set,Map遍历方式 (收集的资源,值得看一下) 百合不是茶 list set Map遍历方式
List特点：元素有放入顺序，元素可重复 Map特点：元素按键值对存储，无放入顺序 Set特点：元素无放入顺序，元素不可重复（注意：元素虽然无放入顺序，但是元素在set中的位置是有该元素的HashCode决定的，其位置其实是固定的） List接口有三个实现类：LinkedList，ArrayList，Vector LinkedList：底层基于链表实现，链表内存是散乱的，每一个元素存储本身
解决SimpleDateFormat的线程不安全问题的方法 bijian1013 java thread 线程安全
在Java项目中，我们通常会自己写一个DateUtil类，处理日期和字符串的转换，如下所示： public class DateUtil01 { private SimpleDateFormat dateformat = new SimpleDateFormat("yyyy-MM-dd HH:mm:ss"); public void format(Date d
http请求测试实例（采用fastjson解析） bijian1013 http 测试
在实际开发中，我们经常会去做http请求的开发，下面则是如何请求的单元测试小实例，仅供参考。 import java.util.HashMap; import java.util.Map; import org.apache.commons.httpclient.HttpClient; import
【RPC框架Hessian三】Hessian 异常处理 bit1129 hessian
RPC异常处理概述 RPC异常处理指是，当客户端调用远端的服务，如果服务执行过程中发生异常，这个异常能否序列到客户端？如果服务在执行过程中可能发生异常，那么在服务接口的声明中，就该声明该接口可能抛出的异常。在Hessian中，服务器端发生异常，可以将异常信息从服务器端序列化到客户端，因为Exception本身是实现了Serializable的
【日志分析】日志分析工具 bit1129 日志分析
1. 网站日志实时分析工具 GoAccess http://www.vpsee.com/2014/02/a-real-time-web-log-analyzer-goaccess/ 2. 通过日志监控并收集 Java 应用程序性能数据(Perf4J) http://www.ibm.com/developerworks/cn/java/j-lo-logforperf/ 3.log.io 和
nginx优化加强战斗力及遇到的坑解决 ronin47 nginx 优化
　　　先说遇到个坑，第一个是负载问题，这个问题与架构有关，由于我设计架构多了两层，结果导致会话负载只转向一个。解决这样的问题思路有两个：一是改变负载策略，二是更改架构设计。　　　由于采用动静分离部署，而nginx又设计了静态，结果客户端去读nginx静态，访问量上来，页面加载很慢。解决：二者留其一。最好是保留apache服务器。　　　来以下优化：　　　
java-50-输入两棵二叉树A和B，判断树B是不是A的子结构 bylijinnan java
思路来自： http://zhedahht.blog.163.com/blog/static/25411174201011445550396/ import ljn.help.*; public class HasSubtree { /**Q50. * 输入两棵二叉树A和B，判断树B是不是A的子结构。例如，下图中的两棵树A和B，由于A中有一部分子树的结构和B是一
mongoDB 备份与恢复开窍的石头 mongDB备份与恢复
Mongodb导出与导入 1: 导入/导出可以操作的是本地的mongodb服务器,也可以是远程的. 所以,都有如下通用选项: -h host 主机 --port port 端口 -u username 用户名 -p passwd 密码 2: mongoexport 导出json格式的文件
[网络与通讯]椭圆轨道计算的一些问题 comsci 网络
如果按照中国古代农历的历法，现在应该是某个季节的开始，但是由于农历历法是3000年前的天文观测数据，如果按照现在的天文学记录来进行修正的话，这个季节已经过去一段时间了。。。。。也就是说，还要再等3000年。才有机会了，太阳系的行星的椭圆轨道受到外来天体的干扰，轨道次序发生了变
软件专利如何申请 cuiyadll 软件专利申请
软件技术可以申请软件著作权以保护软件源代码，也可以申请发明专利以保护软件流程中的步骤执行方式。专利保护的是软件解决问题的思想，而软件著作权保护的是软件代码（即软件思想的表达形式）。例如，离线传送文件，那发明专利保护是如何实现离线传送文件。基于相同的软件思想，但实现离线传送的程序代码有千千万万种，每种代码都可以享有各自的软件著作权。申请一个软件发明专利的代理费大概需要5000-8000申请发明专利可
Android学习笔记 darrenzhu android
1.启动一个AVD 2.命令行运行adb shell可连接到AVD,这也就是命令行客户端 3.如何启动一个程序 am start -n package name/.activityName am start -n com.example.helloworld/.MainActivity 启动Android设置工具的命令如下所示： # am start -
apache虚拟机配置，本地多域名访问本地网站 dcj3sjt126com apache
现在假定你有两个目录，一个存在于 /htdocs/a，另一个存在于 /htdocs/b 。现在你想要在本地测试的时候访问 www.freeman.com 对应的目录是 /xampp/htdocs/freeman ,访问 www.duchengjiu.com 对应的目录是 /htdocs/duchengjiu。 1、首先修改C盘WINDOWS\system32\drivers\etc目录下的
yii2 restful web服务[速率限制] dcj3sjt126com PHP yii2
速率限制为防止滥用，你应该考虑增加速率限制到您的API。例如，您可以限制每个用户的API的使用是在10分钟内最多100次的API调用。如果一个用户同一个时间段内太多的请求被接收，将返回响应状态代码 429 (这意味着过多的请求)。要启用速率限制, [[yii\web\User::identityClass|user identity class]] 应该实现 [[yii\filter
Hadoop2.5.2安装——单机模式 eksliang hadoop hadoop单机部署
转载请出自出处：http://eksliang.iteye.com/blog/2185414 一、概述 Hadoop有三种模式单机模式、伪分布模式和完全分布模式，这里先简单介绍单机模式，默认情况下，Hadoop被配置成一个非分布式模式，独立运行JAVA进程，适合开始做调试工作。二、下载地址 Hadoop 网址http:
LoadMoreListView+SwipeRefreshLayout（分页下拉）基本结构 gundumw100 android
一切为了快速迭代 import java.util.ArrayList; import org.json.JSONObject; import android.animation.ObjectAnimator; import android.os.Bundle; import android.support.v4.widget.SwipeRefreshLayo
三道简单的前端HTML/CSS题目 ini html Web 前端 css 题目
使用CSS为多个网页进行相同风格的布局和外观设置时，为了方便对这些网页进行修改，最好使用（）。http://hovertree.com/shortanswer/bjae/7bd72acca3206862.htm 在HTML中加入<table style=”color:red; font-size:10pt”>，此为（）。http://hovertree.com/s
overrided方法编译错误 kane_xie override
问题描述：在实现类中的某一或某几个Override方法发生编译错误如下： Name clash: The method put(String) of type XXXServiceImpl has the same erasure as put(String) of type XXXService but does not override it 当去掉@Over
Java中使用代理IP获取网址内容（防IP被封，做数据爬虫） mcj8089 免费代理IP 代理IP 数据爬虫 JAVA设置代理IP 爬虫封IP
推荐两个代理IP网站： 1. 全网代理IP：http://proxy.goubanjia.com/ 2. 敲代码免费IP：http://ip.qiaodm.com/ Java语言有两种方式使用代理IP访问网址并获取内容，方式一，设置System系统属性 // 设置代理IP System.getProper
Nodejs Express 报错之 listen EADDRINUSE qiaolevip 每天进步一点点学习永无止境 nodejs 纵观千象
当你启动 nodejs服务报错： >node app Express server listening on port 80 events.js:85 throw er; // Unhandled 'error' event ^ Error: listen EADDRINUSE at exports._errnoException (
C++中三种new的用法 _荆棘鸟_ C++new
转载自：http://news.ccidnet.com/art/32855/20100713/2114025_1.html 作者: mt 其一是new operator，也叫new表达式；其二是operator new，也叫new操作符。这两个英文名称起的也太绝了，很容易搞混，那就记中文名称吧。new表达式比较常见，也最常用，例如： string* ps = new string("
Ruby深入研究笔记1 wudixiaotie Ruby
module是可以定义private方法的 module MTest def aaa puts "aaa" private_method end private def private_method puts "this is private_method" end end