D11PMINDER

简单transformer运用

通俗易懂解读：hw04.py 文件内容与 Transformer 的应用

这个文件是一个 Python 脚本（hw04.py），用于完成 NTU 2021 Spring 机器学习课程的 HW4 作业任务：扬声器分类（Speaker Classification）。它主要通过 Transformer 模型（尤其是自注意力机制，Self-Attention）来实现分类，并提供了训练和推理代码。以下我会详细讲解文件的结构，重点教你如何使用 Transformer 和 Self-Attention，并让你明白如何训练模型、调整参数。

1. 文件概述

任务：从语音特征（梅尔频谱图，mel-spectrogram）中分类扬声器（600 个类别）。
数据集：Voxceleb2 数据集的子集，包含 600 个扬声器的音频特征。
目标：
- 学习使用 Transformer 模型（Simple 级别）。
- 调整 Transformer 参数（Medium 级别）。
- 构建 Conformer（Hard 级别，代码中未实现）。
- 进一步实现 Self-Attention Pooling 和 Additive Margin Softmax（Boss 级别，代码中未实现）。
代码结构：
- 数据准备：解压数据、加载数据集、定义 DataLoader。
- 模型定义：使用 TransformerEncoderLayer 实现分类器。
- 训练：实现训练循环、学习率调度和验证。
- 推理：加载模型，预测测试集扬声器并生成提交文件。

2. Transformer 和 Self-Attention 的原理与应用

先简单讲解 Transformer 和 Self-Attention 的原理，然后结合代码看它们如何被使用。

(1) Transformer 和 Self-Attention 原理

Transformer：
- 由 Google 在 2017 年论文《Attention is All You Need》提出，是一种基于注意力机制的模型，取代了传统的 RNN。
- 核心组件：自注意力（Self-Attention） 和 前馈神经网络（Feedforward Network）。
- 优点：能并行处理序列（不像 RNN 逐个处理），捕捉长距离依赖。
Self-Attention：
- 是一种注意力机制，让模型在处理序列中的每个元素时，关注整个序列的其他元素。
- 比如处理“[苹果, 香蕉, 橙子]”时，Self-Attention 会计算：
  - “苹果”和其他元素（香蕉、橙子）的相关性。
  - “香蕉”和其他元素的相关性，依此类推。
- 计算步骤：
  1. 将输入序列（每个元素是一个向量）映射为 Query（Q）、Key（K）、Value（V）三个向量。
  2. 计算注意力分数：Attention(Q,K,V)=softmax(QKTdk)V \text{Attention}(Q, K, V) = \text{softmax}(\frac{QK^T}{\sqrt{d_k}})V Attention(Q,K,V)=softmax(dkQKT)V。
  3. 输出一个加权后的向量，表示当前元素对整个序列的关注结果。

(2) 代码中的 Transformer 和 Self-Attention

模型定义（Classifier 类）：
python

收起自动换行运行
复制
class Classifier(nn.Module): def __init__(self, d_model=80, n_spks=600, dropout=0.1): super().__init__() self.prenet = nn.Linear(40, d_model) self.encoder_layer = nn.TransformerEncoderLayer( d_model=d_model, dim_feedforward=256, nhead=2 ) self.pred_layer = nn.Sequential( nn.Linear(d_model, d_model), nn.ReLU(), nn.Linear(d_model, n_spks), )
- self.prenet：将输入特征（梅尔频谱图，维度为 40）投影到 d_model=80 的维度，为 Transformer 处理做准备。
- self.encoder_layer：使用 PyTorch 的 nn.TransformerEncoderLayer，这是一个标准的 Transformer 编码层，包含：
  - Self-Attention：通过 nhead=2 设置多头注意力（Multi-Head Attention），将 d_model 均分为 2 头，每头处理 d_model/nhead=40 维度。
  - Feedforward Network：通过 dim_feedforward=256 设置前馈网络的隐藏层维度。
  - 默认使用 dropout（0.1）和 ReLU 激活函数。
- 代码中注释掉了一个 nn.TransformerEncoder，原本应该是堆叠多个 TransformerEncoderLayer（比如 num_layers=2），但当前只用了一层。
前向传播（forward 方法）：
python

收起自动换行运行
复制
def forward(self, mels): out = self.prenet(mels) # (batch size, length, 40) -> (batch size, length, d_model) out = out.permute(1, 0, 2) # (batch size, length, d_model) -> (length, batch size, d_model) out = self.encoder_layer(out) # Transformer 编码 out = out.transpose(0, 1) # (length, batch size, d_model) -> (batch size, length, d_model) stats = out.mean(dim=1) # 平均池化：(batch size, d_model) out = self.pred_layer(stats) # (batch size, n_spks) return out
- Self-Attention 的作用：
  - 输入 mels 是梅尔频谱图，形状为 (batch size, length, 40)，表示一个 batch 的音频特征。
  - 经过 self.prenet，维度变成 (batch size, length, d_model)。
  - out = out.permute(1, 0, 2) 调整维度为 (length, batch size, d_model)，因为 TransformerEncoderLayer 期望输入是 (sequence length, batch size, d_model)。
  - self.encoder_layer(out) 执行 Self-Attention 和 Feedforward 操作：
    - Self-Attention 计算每个时间步（帧）对其他所有帧的关注权重。
    - Feedforward 对每个帧独立应用前馈网络。
  - 最后通过平均池化（out.mean(dim=1)）将序列维度压缩，得到每个样本的特征向量 (batch size, d_model)，再通过 self.pred_layer 输出分类结果 (batch size, n_spks)。

3. 如何使用 Transformer

通过这个代码，我教你如何在 PyTorch 中使用 Transformer 来完成一个分类任务。

(1) 定义 Transformer 模型

使用 nn.TransformerEncoderLayer 构建基本层：
python

收起自动换行运行
复制
self.encoder_layer = nn.TransformerEncoderLayer( d_model=d_model, # 输入和输出的特征维度 nhead=2, # 多头注意力的头数，d_model 必须能被 nhead 整除 dim_feedforward=256, # 前馈网络的隐藏层维度 dropout=0.1 # dropout 比例 )
如果需要堆叠多层，可以用 nn.TransformerEncoder：
python

收起自动换行运行
复制
self.encoder = nn.TransformerEncoder(self.encoder_layer, num_layers=2)
（代码中注释掉了这部分，当前只用了一层。）

(2) 输入数据准备

Transformer 需要输入形状为 (sequence length, batch size, d_model)：
- 代码中通过 out.permute(1, 0, 2) 调整维度。
- 输入的 mels 是 (batch size, length, 40)，先通过 self.prenet 投影到 d_model=80，再调整维度。

(3) 前向传播

直接调用 self.encoder_layer(out)，PyTorch 会自动处理 Self-Attention 和 Feedforward。
输出需要根据任务调整：
- 这里是分类任务，所以用平均池化（out.mean(dim=1)）压缩序列维度，然后通过全连接层输出分类结果。

(4) 应用场景

Transformer 适合处理序列数据（如语音、文本）。
Self-Attention 让模型能捕捉序列中任意两个位置之间的关系，比如语音中不同帧之间的关联。

4. 如何训练模型

训练一个模型需要准备数据、定义模型、设置优化器和学习率调度器，然后进入训练循环。以下是代码中的训练过程解析。

(1) 数据准备

数据集（myDataset 类）：
- 加载梅尔频谱图（torch.load），随机截取 segment_len=128 帧。
- 标签是扬声器 ID（从 mapping.json 中获取）。
DataLoader（get_dataloader 函数）：
- 按 90%（训练）/10%（验证）划分数据集。
- 使用 collate_batch 函数填充批次数据，确保长度一致（填充值为 -20，表示极小的对数值）。

(2) 模型和优化器

模型：model = Classifier(n_spks=speaker_num).to(device)，初始化 Classifier。
损失函数：criterion = nn.CrossEntropyLoss()，用于多分类任务。
优化器：optimizer = AdamW(model.parameters(), lr=1e-3)，使用 AdamW 优化器，初始学习率 1e-3。
学习率调度器（get_cosine_schedule_with_warmup）：
- 包含 Warmup 阶段（前 1000 步，学习率从 0 线性增加到 1e-3）。
- 之后按余弦衰减（Cosine Decay）降低学习率。

(3) 训练循环（main 函数）

训练步骤：
python

收起自动换行运行
复制
for step in range(total_steps): batch = next(train_iterator) loss, accuracy = model_fn(batch, model, criterion, device) loss.backward() optimizer.step() scheduler.step() optimizer.zero_grad()
- 每步从 train_loader 获取一个批次。
- 计算损失和准确率（model_fn）。
- 反向传播、优化器更新参数、调度器调整学习率、清空梯度。
验证：
- 每 2000 步（valid_steps）验证一次，计算验证集准确率。
- 保存最佳模型（best_accuracy）。
保存模型：每 10,000 步（save_steps）保存最佳模型到 model.ckpt。

(4) 推理（main 函数，推理部分）

加载训练好的模型，预测测试集扬声器，生成 output.csv（格式：Id, Category）。

5. 如何调整 Transformer 参数

调整 Transformer 参数是 HW4 的 Medium 级别任务。以下是代码中可以调整的部分，以及调整的意义。

(1) 调整参数的地方

在 Classifier 的 __init__ 中：
python

收起自动换行运行
复制
self.encoder_layer = nn.TransformerEncoderLayer( d_model=d_model, dim_feedforward=256, nhead=2 )
- d_model=80：特征维度，增加会提升模型容量，但计算量更大。
- nhead=2：多头注意力头数，d_model 必须能被整除（当前 80/2=40）。
- dim_feedforward=256：前馈网络隐藏层维度，增加会增强模型表达能力。
堆叠多层（当前注释掉了）：
python

收起自动换行运行
复制
self.encoder = nn.TransformerEncoder(self.encoder_layer, num_layers=2)
- num_layers=2：增加层数会让模型更深，能捕捉更复杂的模式，但可能过拟合。

(2) 调整建议

增大 d_model：比如从 80 增加到 128，增强模型容量，但需要确保 nhead 能整除（比如 nhead=4）。
增加 nhead：比如从 2 增加到 4，允许多头注意力捕捉更多不同类型的依赖关系。
调整 dim_feedforward：比如从 256 增加到 512，增强前馈网络的能力。
增加层数：取消注释 self.encoder，设置 num_layers=3，让模型更深。
调整 dropout：默认 0.1，可以尝试 0.2 或 0.05，防止过拟合。
效果：文档中提到（HW04.pdf 第13页），调整参数后公共基准从 0.82523（Simple）提升到 0.90547（Medium）。

(3) 注意事项

增加参数会增加计算量，可能需要更大的 batch size 或更长的训练时间。
过大的模型可能过拟合，需要调整学习率或增加 dropout。

6. 总结：如何使用 Transformer 训练模型

步骤：
1. 准备数据：加载梅尔频谱图，划分训练/验证集，用 DataLoader 批次加载。
2. 定义模型：使用 nn.TransformerEncoderLayer，设置 d_model、nhead 等参数。
3. 前向传播：通过 Self-Attention 处理序列，池化后输出分类结果。
4. 训练：设置优化器、学习率调度器，循环计算损失、更新参数。
5. 调整参数：修改 d_model、nhead、num_layers 等，优化性能。
Self-Attention 的作用：捕捉序列中帧与帧之间的关系，比如语音中不同时间点的关联。
训练技巧：
- 使用 Warmup 学习率调度（代码中已实现）。
- 定期验证，保存最佳模型。
- 调整参数时，观察验证集准确率，避免过拟合。

7. 动手实践

如果你想自己训练一个类似模型，可以用以下步骤：

环境准备：
- 安装 PyTorch：pip install torch
- 下载数据集（代码中的链接已失效，可用其他语音数据集如 LibriSpeech 替代）。
修改代码：
- 调整 d_model=128、nhead=4、num_layers=3，观察效果。
- 实现 Conformer（参考 https://arxiv.org/abs/2005.08100）。
训练：
- 运行 main 函数，设置 total_steps=70000，观察验证准确率。
推理：
- 用训练好的模型预测测试集，生成提交文件

逐行讲解 Conformer 代码实现

由于你之前没有接触过 Conformer，我会从零开始详细讲解之前提供的 ConformerBlock 和 ConformerConvModule 的代码实现，逐行分析其功能、原理和实现细节。Conformer 是 Transformer 的变种，专为语音任务设计，结合了全局建模（Self-Attention）和局部建模（卷积）的优势。以下代码来自之前修改的 hw04.py，我们会重点聚焦 Conformer 的实现部分。

1. Conformer 代码实现

以下是 ConformerConvModule 和 ConformerBlock 的完整代码，我会逐行解释其作用。

import torch
import torch.nn as nn
import torch.nn.functional as F

# 卷积模块，用于捕捉局部特征
class ConformerConvModule(nn.Module):
    def __init__(self, d_model=80, kernel_size=31, dropout=0.1):
        super().__init__()
        # Pointwise Convolution 1
        self.pointwise_conv1 = nn.Conv1d(d_model, d_model * 2, kernel_size=1, stride=1, padding=0, bias=True)
        self.glu = nn.GLU(dim=1)  # Gated Linear Unit
        # Depthwise Convolution
        self.depthwise_conv = nn.Conv1d(
            d_model,
            d_model,
            kernel_size=kernel_size,
            stride=1,
            padding=(kernel_size - 1) // 2,
            groups=d_model,  # Depthwise
            bias=True
        )
        self.bn = nn.BatchNorm1d(d_model)
        self.swish = nn.Swish()
        # Pointwise Convolution 2
        self.pointwise_conv2 = nn.Conv1d(d_model, d_model, kernel_size=1, stride=1, padding=0, bias=True)
        self.dropout = nn.Dropout(dropout)

    def forward(self, x):
        # x: (batch, length, d_model) -> (batch, d_model, length) for conv
        x = x.transpose(1, 2)
        # Pointwise Conv 1 + GLU
        x = self.pointwise_conv1(x)
        x = self.glu(x)
        # Depthwise Conv + BN + Swish
        x = self.depthwise_conv(x)
        x = self.bn(x)
        x = self.swish(x)
        # Pointwise Conv 2
        x = self.pointwise_conv2(x)
        x = self.dropout(x)
        # Back to (batch, length, d_model)
        x = x.transpose(1, 2)
        return x

# Conformer 块，包含 FFN、Self-Attention 和卷积模块
class ConformerBlock(nn.Module):
    def __init__(self, d_model=80, nhead=2, dim_feedforward=256, dropout=0.1, kernel_size=31):
        super().__init__()
        # Feed-Forward Module (half-step)
        self.ffn1 = nn.Sequential(
            nn.LayerNorm(d_model),
            nn.Linear(d_model, dim_feedforward),
            nn.Swish(),
            nn.Dropout(dropout),
            nn.Linear(dim_feedforward, d_model)
        )
        # Multi-Head Self-Attention
        self.self_attention = nn.MultiheadAttention(d_model, nhead, dropout=dropout)
        self.norm1 = nn.LayerNorm(d_model)
        self.dropout1 = nn.Dropout(dropout)
        # Convolution Module
        self.conv_module = ConformerConvModule(d_model, kernel_size, dropout)
        self.norm2 = nn.LayerNorm(d_model)
        self.dropout2 = nn.Dropout(dropout)
        # Feed-Forward Module (half-step)
        self.ffn2 = nn.Sequential(
            nn.LayerNorm(d_model),
            nn.Linear(d_model, dim_feedforward),
            nn.Swish(),
            nn.Dropout(dropout),
            nn.Linear(dim_feedforward, d_model)
        )
        self.norm3 = nn.LayerNorm(d_model)
        self.dropout3 = nn.Dropout(dropout)

    def forward(self, x):
        # x: (length, batch, d_model)
        # FFN 1 (half-step)
        x = x + 0.5 * self.dropout1(self.ffn1(x))
        # Multi-Head Self-Attention
        attn_output, _ = self.self_attention(x, x, x)
        x = self.norm1(x + self.dropout1(attn_output))
        # Convolution Module
        x = self.norm2(x + self.dropout2(self.conv_module(x)))
        # FFN 2 (half-step)
        x = self.norm3(x + self.dropout3(self.ffn2(x)))
        return x

2. 逐行讲解 ConformerConvModule

(1) 初始化方法 init

python

收起自动换行运行

复制

class ConformerConvModule(nn.Module): def __init__(self, d_model=80, kernel_size=31, dropout=0.1):

class ConformerConvModule(nn.Module)：定义一个卷积模块，继承 PyTorch 的 nn.Module 类，所有神经网络模块都需要继承这个类。
d_model=80：输入和输出的特征维度（类似 Transformer 的隐藏维度）。
kernel_size=31：卷积核大小，决定了捕捉局部特征的范围（越大，感受野越大）。
dropout=0.1：Dropout 比例，防止过拟合。

python

收起自动换行运行

复制

super().__init__()

调用父类 nn.Module 的初始化方法，确保正确初始化模块。

python

收起自动换行运行

复制

self.pointwise_conv1 = nn.Conv1d(d_model, d_model * 2, kernel_size=1, stride=1, padding=0, bias=True)

nn.Conv1d：一维卷积，适用于序列数据（如语音的梅尔频谱图）。
d_model：输入通道数（特征维度）。
d_model * 2：输出通道数，升维到两倍，用于后续 GLU（Gated Linear Unit）操作。
kernel_size=1：点卷积（Pointwise Convolution），只对每个时间步独立操作，不涉及邻域。
stride=1：步幅为 1，不改变序列长度。
padding=0：无填充，因为 kernel_size=1 不需要填充。
bias=True：包含偏置参数。

python

收起自动换行运行

复制

self.glu = nn.GLU(dim=1) # Gated Linear Unit

nn.GLU：Gated Linear Unit，一种门控机制。
dim=1：在通道维度上操作（因为输入是 (batch, channel, length)）。
GLU 的作用：将 d_model * 2 的通道分成两部分，一部分作为值，另一部分通过 sigmoid 激活作为门控，输出 d_model 个通道。公式为： GLU(x)=x1⋅σ(x2)\text{GLU}(x) = x_1 \cdot \sigma(x_2)GLU(x)=x1⋅σ(x2) 其中 x1 x_1 x1 和 x2 x_2 x2 是通道拆分的两部分。

python

收起自动换行运行

复制

self.depthwise_conv = nn.Conv1d( d_model, d_model, kernel_size=kernel_size, stride=1, padding=(kernel_size - 1) // 2, groups=d_model, # Depthwise bias=True )

nn.Conv1d：定义深度可分离卷积（Depthwise Convolution）。
d_model：输入和输出通道数保持一致。
kernel_size=31：卷积核大小，捕捉局部特征。
stride=1：步幅为 1。
padding=(kernel_size - 1) // 2：自动计算填充，确保输出长度不变（例如 kernel_size=31 时，padding=15）。
groups=d_model：深度卷积，每个输入通道独立卷积，减少参数量。
bias=True：包含偏置。

python

收起自动换行运行

复制

self.bn = nn.BatchNorm1d(d_model)

nn.BatchNorm1d：一维批归一化，作用于通道维度。
归一化每个通道的特征，加速训练，稳定梯度。

python

收起自动换行运行

复制

self.swish = nn.Swish()

nn.Swish：激活函数，公式为 Swish(x)=x⋅σ(x) \text{Swish}(x) = x \cdot \sigma(x) Swish(x)=x⋅σ(x)，比 ReLU 更平滑。

python

收起自动换行运行

复制

self.pointwise_conv2 = nn.Conv1d(d_model, d_model, kernel_size=1, stride=1, padding=0, bias=True)

第二个点卷积，将特征降维回 d_model。

python

收起自动换行运行

复制

self.dropout = nn.Dropout(dropout)

Dropout 层，随机丢弃部分神经元，防止过拟合。

(2) 前向传播方法 forward

python

收起自动换行运行

复制

def forward(self, x):

定义前向传播，输入 x 是 (batch, length, d_model) 的张量。

python

收起自动换行运行

复制

x = x.transpose(1, 2)

transpose(1, 2)：将 (batch, length, d_model) 转换为 (batch, d_model, length)，因为 nn.Conv1d 期望输入是 (batch, channel, length)。

python

收起自动换行运行

复制

x = self.pointwise_conv1(x)

应用第一个点卷积，将通道数从 d_model 升到 d_model * 2。

python

收起自动换行运行

复制

x = self.glu(x)

应用 GLU，将通道数降回 d_model，并通过门控机制选择性保留信息。

python

收起自动换行运行

复制

x = self.depthwise_conv(x)

应用深度卷积，捕捉局部特征（kernel_size=31 覆盖 31 个时间步）。

python

收起自动换行运行

复制

x = self.bn(x)

应用批归一化，稳定特征分布。

python

收起自动换行运行

复制

x = self.swish(x)

应用 Swish 激活，增加非线性。

python

收起自动换行运行

复制

x = self.pointwise_conv2(x)

应用第二个点卷积，进一步处理特征，保持维度为 (batch, d_model, length)。

python

收起自动换行运行

复制

x = self.dropout(x)

应用 Dropout，防止过拟合。

python

收起自动换行运行

复制

x = x.transpose(1, 2)

将维度转回 (batch, length, d_model)，与输入一致。

python

收起自动换行运行

复制

return x

返回处理后的张量。

3. 逐行讲解 ConformerBlock

(1) 初始化方法 init

python

收起自动换行运行

复制

class ConformerBlock(nn.Module): def __init__(self, d_model=80, nhead=2, dim_feedforward=256, dropout=0.1, kernel_size=31):

定义 Conformer 块，参数与 ConformerConvModule 类似。
nhead=2：多头注意力的头数。
dim_feedforward=256：前馈网络的隐藏层维度。

python

收起自动换行运行

复制

super().__init__()

python

收起自动换行运行

复制

self.ffn1 = nn.Sequential( nn.LayerNorm(d_model), nn.Linear(d_model, dim_feedforward), nn.Swish(), nn.Dropout(dropout), nn.Linear(dim_feedforward, d_model) )

定义第一个前馈模块（FFN1）。
nn.LayerNorm(d_model)：层归一化，归一化每个时间步的特征。
nn.Linear(d_model, dim_feedforward)：将维度从 d_model 扩展到 dim_feedforward。
nn.Swish()：Swish 激活。
nn.Dropout(dropout)：Dropout。
nn.Linear(dim_feedforward, d_model)：降维回 d_model。

python

收起自动换行运行

复制

self.self_attention = nn.MultiheadAttention(d_model, nhead, dropout=dropout)

nn.MultiheadAttention：多头自注意力。
d_model：输入维度。
nhead=2：头数，每头处理 d_model/nhead=40 维度。
dropout=dropout：注意力中的 Dropout。

python

收起自动换行运行

复制

self.norm1 = nn.LayerNorm(d_model) self.dropout1 = nn.Dropout(dropout)

norm1 和 dropout1：用于自注意力后的归一化和 Dropout。

python

收起自动换行运行

复制

self.conv_module = ConformerConvModule(d_model, kernel_size, dropout)

调用 ConformerConvModule，处理局部特征。

python

收起自动换行运行

复制

self.norm2 = nn.LayerNorm(d_model) self.dropout2 = nn.Dropout(dropout)

norm2 和 dropout2：卷积模块后的归一化和 Dropout。

python

收起自动换行运行

复制

self.ffn2 = nn.Sequential( nn.LayerNorm(d_model), nn.Linear(d_model, dim_feedforward), nn.Swish(), nn.Dropout(dropout), nn.Linear(dim_feedforward, d_model) )

定义第二个前馈模块（FFN2），结构与 FFN1 相同。

python

收起自动换行运行

复制

self.norm3 = nn.LayerNorm(d_model) self.dropout3 = nn.Dropout(dropout)

norm3 和 dropout3：FFN2 后的归一化和 Dropout。

(2) 前向传播方法 forward

python

收起自动换行运行

复制

def forward(self, x):

输入 x 是 (length, batch, d_model)，符合 Transformer 的输入格式。

python

收起自动换行运行

复制

x = x + 0.5 * self.dropout1(self.ffn1(x))

应用 FFN1，半步前馈（系数 0.5 是 Conformer 的设计）。
self.ffn1(x)：通过 FFN1 处理。
self.dropout1(...)：应用 Dropout。
x + 0.5 * ...：残差连接，稳定训练。

python

收起自动换行运行

复制

attn_output, _ = self.self_attention(x, x, x)

应用多头自注意力。
self.self_attention(x, x, x)：输入 Query、Key、Value 均为 x，计算自注意力。
attn_output：注意力输出，形状仍为 (length, batch, d_model)。
_：忽略注意力权重。

python

收起自动换行运行

复制

x = self.norm1(x + self.dropout1(attn_output))

x + self.dropout1(attn_output)：残差连接。
self.norm1(...)：层归一化。

python

收起自动换行运行

复制

x = self.norm2(x + self.dropout2(self.conv_module(x)))

应用卷积模块。
self.conv_module(x)：通过 ConformerConvModule 处理。
self.dropout2(...)：Dropout。
x + ...：残差连接。
self.norm2(...)：层归一化。

python

收起自动换行运行

复制

x = self.norm3(x + self.dropout3(self.ffn2(x)))

应用 FFN2，与 FFN1 类似。

python

收起自动换行运行

复制

return x

返回处理后的张量，形状不变。

4. 总结与使用

ConformerConvModule：通过卷积捕捉局部特征，适合语音任务中的短时相关性。
ConformerBlock：结合 FFN、Self-Attention 和卷积，平衡全局和局部建模。
如何使用：
- 在 Classifier 中替换 TransformerEncoderLayer 为 ConformerBlock。
- 堆叠多层：self.encoder = nn.Sequential(*[ConformerBlock(...) for _ in range(2)])。
- 调整参数（如 d_model、kernel_size）优化性能。

你可能感兴趣的:(deeplearning,transformer,深度学习,人工智能)

MotionLCM 部署优化踩坑解决bug AI算法网奇 aigc与数字人深度学习宝典文生motion
目录依赖项windowstorchok：渲染黑白图问题解决：humanml3d：sentence-t5-large下载数据：报错：Nomodulenamed'sentence_transformers'继续报错：fromtransformers.integrationsimportCodeCarbonCallback解决方法：推理相关转mesh：module‘matplotlib.cm‘hasno
为了在未来的人工智能世界中取得成功，学生们必须学习人类写作的优点睿邸管家
澳大利亚各地的学生在新学年开始使用铅笔、钢笔和键盘学习写字。在工作场所，机器也在学习写作，如此有效，几年之内，它们可能会写得比人类更好。有时它们已经做到了，就像Grammarly这样的应用程序所展示的那样。当然，人类现在的日常写作可能很快就会由具有人工智能(AI)的机器来完成。手机和电子邮件软件常用的预测文本是无数人每天都在使用的一种人工智能写作形式。据AI行业研究机构称，到2022年，人工智能及
人工智能应用研究快讯 2021-11-30 峰谷皆平
[HTML]ArtificialIntelligenceforSkinCancerDetection:ScopingReviewATakiddin,JSchneider,YYang,AAbd-Alrazaq...JournalofMedicalInternet...,2021ABSTACT:Background:Skincanceristhemostcommoncancertypeaffectin
从振动信号到精准预警：AI 如何重塑工业设备健康管理？缘华工业智维人工智能计算机视觉边缘计算信息与通信
在智能制造浪潮席卷全球的当下，工业生产正经历着从传统模式向智能化、数字化转型的深刻变革。在这场变革中，AI驱动的振动分析技术犹如一颗璀璨新星，成为工业设备可靠运行的“健康卫士”。它通过在设备关键部位部署振动传感器，如同医生为患者听诊般实时采集设备运行时的振动信号，再借助强大的人工智能算法对这些“工业脉搏”进行深度解析，从而实现对工业设备从故障预警到寿命预测的全周期精准守护。一、AI振动分析：设备状
AI 生成虚拟宠物：24 小时陪你聊天解闷大力出奇迹985 人工智能宠物
本文围绕AI生成虚拟宠物展开，介绍这类依托人工智能技术诞生的虚拟伙伴，能实现24小时不间断陪伴聊天，为人们解闷。文中详细阐述其技术基础，包括自然语言处理、机器学习等；分析多样功能，如个性化互动、情绪回应等；探讨在独居人群、压力大者等不同群体中的应用场景，最后总结其为人们生活带来的积极影响及未来发展潜力，展现AI虚拟宠物在陪伴领域的独特价值。一、AI生成虚拟宠物的诞生背景与技术基石在快节奏的现代社会
GPT-4 在 AIGC 中的微调技巧：让模型更懂你的需求 AIGC应用创新大全 AI人工智能与大数据应用开发 MCP&Agent 云算力网络 AIGC ai
GPT-4在AIGC中的微调技巧：让模型更懂你的需求关键词：GPT-4、AIGC、模型微调、监督学习、指令优化、过拟合预防、个性化生成摘要：AIGC（人工智能生成内容）正在重塑内容创作行业，但通用的GPT-4模型可能无法精准匹配你的垂直需求——比如写电商爆款文案时总“跑题”，或生成技术文档时专业术语不够。本文将用“教小朋友学画画”的通俗类比，从微调的底层逻辑讲到实战技巧，带你掌握让GPT-4“更懂
AIGC内容生成实战：如何用ChatGPT+DALL·E打造高转化内容 AI大模型应用工坊 AI大模型开发实战 AIGC chatgpt ai
AIGC内容生成实战：如何用ChatGPT+DALL·E打造高转化内容关键词：AIGC、ChatGPT、DALL·E、内容生成、高转化营销、多模态协同、提示词工程摘要：随着AIGC（人工智能生成内容）技术的爆发式发展，ChatGPT（文本生成）与DALL·E（图像生成）的组合已成为内容创作领域的“黄金搭档”。本文将深度解析二者的协同原理，结合实战案例演示从需求分析到内容落地的全流程，并揭示提升内容
数据分析领域中AI人工智能的发展前景展望 AI大模型应用工坊 AI大模型开发实战数据分析人工智能数据挖掘 ai
数据分析领域中AI人工智能的发展前景展望关键词：数据分析、人工智能、机器学习、深度学习、数据挖掘、预测分析、自动化摘要：本文深入探讨了人工智能在数据分析领域的发展现状和未来趋势。我们将从核心技术原理出发，分析AI如何改变传统数据分析范式，详细讲解机器学习算法在数据分析中的应用，并通过实际案例展示AI驱动的数据分析解决方案。文章还将探讨行业应用场景、工具生态以及未来发展面临的挑战和机遇，为数据分析师
AI人工智能中的数据挖掘：提升智能决策能力
AI人工智能中的数据挖掘：提升智能决策能力关键词：数据挖掘、人工智能、机器学习、智能决策、数据分析、特征工程、模型优化摘要：本文深入探讨了数据挖掘在人工智能领域中的核心作用，重点分析了如何通过数据挖掘技术提升智能决策能力。文章从基础概念出发，详细介绍了数据挖掘的关键算法、数学模型和实际应用场景，并通过Python代码示例展示了数据挖掘的全流程。最后，文章展望了数据挖掘技术的未来发展趋势和面临的挑战
【三桥君】MCP中台，究竟如何实现多模型、多渠道、多环境的统一管控？如何以MCP为核心设计AI应用架构？三桥君《三桥君 MCP落地方法论》《三桥君 AI大模型落地方法论》#《三桥君 AI产品方法论》人工智能 AI产品经理 MCP API 三桥君系统架构 llama
你好，我是✨三桥君✨本文介绍>>一、引言随着人工智能技术的快速发展，越来越多的企业开始引入大语言模型（LLM）以提升用户体验和运营效率。然而，如何高效、稳定地将这些AI能力落地到生产环境呢？传统的系统架构往往难以应对AI应用的高并发、低延迟和灵活扩展需求，因此，从整体架构角度设计AI应用架构显得尤为重要。本文三桥君将深入探讨以MCP为核心的AI应用架构，并分析多种部署方式的优劣势，为企业在AI落地
深入理解卷积神经网络（CNN）与循环神经网络（RNN） CodeJourney. cnn rnn 人工智能
在当今的人工智能领域，神经网络无疑是最为璀璨的明珠之一。而卷积神经网络（ConvolutionalNeuralNetworks，CNN）和循环神经网络（RecurrentNeuralNetworks，RNN）作为神经网络家族中的重要成员，各自有着独特的架构和强大的功能，广泛应用于众多领域。本文将深入探讨这两种神经网络的原理、特点以及应用场景，为对深度学习感兴趣的读者提供全面的知识讲解。一、卷积神经
今年校招竞争真激烈 12_05
程序员满大街，都要找不到工作了。即使人工智能满大街，我也后悔当初没学机器学习，后悔当初没学Java。C++真难找工作。难道毕了业就失业吗？好担心！
时序预测 | MATLAB实现贝叶斯优化CNN-GRU时间序列预测(股票价格预测) Matlab机器学习之心 matlab cnn gru
✅作者简介：热爱数据处理、数学建模、仿真设计、论文复现、算法创新的Matlab仿真开发者。更多Matlab代码及仿真咨询内容点击主页：Matlab科研工作室个人信条：格物致知，期刊达人。内容介绍股票价格预测一直是金融领域一个极具挑战性的课题。其内在的非线性、随机性和复杂性使得传统的预测方法难以取得令人满意的效果。近年来，深度学习技术，特别是卷积神经网络(CNN)和门控循环单元(GRU)的结合，为时
时序预测 | MATLAB实现BO-CNN-GRU贝叶斯优化卷积门控循环单元时间序列预测 Matlab算法改进和仿真定制工程师 matlab cnn gru
✅作者简介：热爱数据处理、数学建模、算法创新的Matlab仿真开发者。更多Matlab代码及仿真咨询内容点击：Matlab科研工作室个人信条：格物致知。内容介绍时间序列预测在各个领域都具有重要的应用价值，例如金融市场预测、气象预报、交通流量预测等。准确地预测未来趋势对于决策制定至关重要。近年来，深度学习技术在时间序列预测领域取得了显著进展，其中卷积神经网络(CNN)和门控循环单元(GRU)由于其强
Python Gradio：实现交互式图像编辑 PythonAI编程架构实战家 Python编程之道 python 开发语言 ai
PythonGradio：实现交互式图像编辑关键词：Python,Gradio,交互式图像编辑,计算机视觉,深度学习,图像处理,Web应用摘要：本文将深入探讨如何使用Python的Gradio库构建交互式图像编辑应用。我们将从基础概念开始，逐步介绍Gradio的核心功能，并通过实际代码示例展示如何实现各种图像处理功能。文章将涵盖图像滤镜应用、对象检测、风格迁移等高级功能，同时提供完整的项目实战案例
如何运用深度学习打造高效AI人工智能系统 AI智能探索者 AI Agent 智能体开发实战人工智能深度学习 ai
如何运用深度学习打造高效AI人工智能系统关键词：深度学习、AI系统、神经网络、模型优化、实战开发摘要：本文将从深度学习的核心概念出发，结合生活实例和代码实战，系统讲解如何构建高效AI系统。我们会拆解数据准备、模型设计、训练优化、部署落地的全流程，揭秘“数据-模型-训练-推理”的协同机制，并通过具体案例演示从0到1开发AI系统的关键技巧，帮助开发者掌握打造高效AI系统的底层逻辑。背景介绍目的和范围在
非欧空间计算加速：图神经网络与微分几何计算的GPU优化（流形数据的内存布局优化策略）九章云极AladdinEdu 空间计算神经网络人工智能 gpu算力算法 java 开发语言
一、非欧空间计算的革命性意义与核心挑战在三维形状分析、社交网络建模、分子动力学模拟等领域，非欧几里得空间数据（流形数据）的处理正推动人工智能技术向更复杂的几何结构迈进。传统欧式空间优化方法在处理流形数据时面临根本性局限：黎曼度量导致距离计算失效、局部坐标系动态变化引发内存访问模式混乱、曲率变化影响并行计算效率。本文提出基于分块流形存储（BlockedManifoldStorage,BMS）与层次化
响应式编程实践：Spring Boot WebFlux构建高性能非阻塞服务 fanxbl957 Web spring boot 后端 java
博主介绍：Java、Python、js全栈开发“多面手”，精通多种编程语言和技术，痴迷于人工智能领域。秉持着对技术的热爱与执着，持续探索创新，愿在此分享交流和学习，与大家共进步。全栈开发环境搭建运行攻略：多语言一站式指南(环境搭建+运行+调试+发布+保姆级详解)感兴趣的可以先收藏起来，希望帮助更多的人响应式编程实践：SpringBootWebFlux构建高性能非阻塞服务一、引言在当今数字化时代，互
企业级RAG的数据方案选择 - 向量数据库、图数据库和知识图谱南七小僧 AI技术产品经理网站开发人工智能数据库知识图谱人工智能
如何为企业RAG选择合适的数据存储方式摘要:本文讨论了矢量数据库、图数据库和知识图谱在解决信息检索挑战方面的重要性，特别是针对企业规模的检索增强生成（RAG）。看看海外人工智能企业Writer是如何利用知识图谱增强企业级RAG。要点概要：矢量数据库高效存储数据，但缺乏上下文和关联信息。图数据库优先考虑数据点之间的关系，受益于关系结构。知识图谱在语义存储方面表现出色，由于其能够编码丰富的上下文信息，
【人工智能入门必看的最全Python编程实战（1）】 DFCED 人工智能 python 开发语言深度学习找工作就业
--------------------------------------------------------------------------------------------------------------------1.AIGC未来发展前景未完持续…1.1人工智能相关科研重要性拥有一篇人工智能科研论文及专利软著竞赛是保研考研留学深造以及找工作的关键门票！！！拥有一篇人工智能科研论文
基于深度学习的目标检测算法综述：从RCNN到YOLOv13，一文看懂十年演进！人工智能教程深度学习目标检测算法人工智能自动驾驶 YOLO 机器学习
一、引言：目标检测的十年巨变2012年AlexNet拉开深度学习序幕，2014年RCNN横空出世，目标检测从此进入“深度时代”。十年间，算法从两阶段到单阶段，从Anchor-base到Anchor-free，从CNN到Transformer，从2D到3D，从监督学习到自监督学习，迭代速度之快令人目不暇接。本文将系统梳理基于深度学习的目标检测算法，带你全面了解技术演进、核心思想、代表算法、工业落地与
Baumer工业相机堡盟工业相机如何通过YoloV8深度学习模型实现不同水果的检测识别（C#代码，UI界面版）
Baumer工业相机堡盟工业相机如何通过YoloV8深度学习模型实现不同水果的检测识别（C#代码，UI界面版））工业相机使用YoloV8模型实现不同水果的检测识别工业相机通过YoloV8模型实现不同水果的检测识别的技术背景在相机SDK中获取图像转换图像的代码分析工业相机图像转换Bitmap图像格式和Mat图像重要核心代码本地文件图像转换Bitmap图像格式和Mat图像重要核心代码Mat图像导入Yo
2025毫米波雷达技术白皮书：智能汽车与物联网的感知核心
随着人工智能、物联网（IoT）和智能汽车产业的迅猛发展，毫米波雷达技术正成为感知领域的核心驱动力。毫米波雷达凭借其高精度、全天候和强抗干扰能力，广泛应用于智能汽车的自动驾驶、物联网的环境感知以及工业自动化。2025年，毫米波雷达技术在性能、应用场景和市场规模上都达到了一个全新的高度。本白皮书将深入探讨毫米波雷达技术的核心优势、发展趋势及其在智能汽车与物联网中的应用前景，同时推荐各大品牌的领先产品方
从零开始构建深度学习环境：基于Pytorch、CUDA与cuDNN的虚拟环境搭建与实践（适合初学者）荣华富贵8 程序员的知识储备2 程序员的知识储备3 深度学习 pytorch 人工智能
摘要：深度学习正在引领人工智能技术的革新，而对于初学者来说，正确搭建深度学习环境是迈向AI研究与应用的第一步。本文将为读者提供一套详尽的教程，指导如何在本地环境中搭建Pytorch、CUDA与cuDNN，以及如何利用Anaconda和PyCharm进行高效开发。内容涵盖从环境配置、常见错误修正，到基础的深度学习模型构建及训练。我们旨在为深度学习零基础的入门者提供一个全面且易于理解的“保姆级”教程，
人工智能概念之九：深度学习概述
文章目录相关文章一、深度学习的定位：AI时代的基石技术1.1技术生态全景图1.2技术革命的催化剂二、深度学习的双面性：性能优势与技术挑战2.1技术优势全景扫描2.2技术挑战深度剖析三、技术演进时间轴：70年的厚积薄发四、主流框架生态对比五、未来演进方向相关文章人工智能概念之二：人工智能核心概念：网页链接一、深度学习的定位：AI时代的基石技术1.1技术生态全景图深度学习处于人工智能（AI）技术金字塔
H800核心技术突破与行业应用实战智能计算研究中心其他
内容概要在人工智能技术持续迭代的背景下，H800芯片凭借自主架构优化与算力跃升，成为推动行业场景化落地的关键驱动力。本文将从技术路径、性能突破与行业应用三个维度，系统解析H800如何在高并发计算与低延时响应领域实现底层架构创新。首先聚焦其自主架构优化的核心技术路径，包括动态资源调度算法与异构计算单元的深度协同设计，揭示其在能效比与计算密度上的突破逻辑；进一步结合算力跃升的具体表现，探讨该芯片如何通
智慧建筑：科技引领房地产与建筑业的未来 RedPhoenix45
最新接入DeepSeek-V3模型，点击下载最新版本InsCodeAIIDE智慧建筑：科技引领房地产与建筑业的未来随着科技的飞速发展，人工智能（AI）和智能化工具正以前所未有的速度改变着各行各业。在房地产与建筑领域，这种变革尤为显著。从建筑设计到施工管理，再到物业管理，智能化技术正在重塑行业的每一个环节。本文将探讨如何利用先进的智能化工具提升房地产与建筑行业的效率，并介绍一款革命性的开发工具——它
学苑教育杂志《学苑教育》杂志社学苑教育编辑部2025年第21期目录 QQ296078736 人工智能
专题研究推进“教-学-评”一体化，打造小学语文高效课堂刘月兰;4-6教育管理新高考制度下普通高中生涯教育课程设计的研究霍亚贞;马玲;7-9课堂教学核心素养下小学数学深度学习课堂的构建策略康贵景;10-12“双减”背景下初中英语教学的课堂模式高燕;13-15小学低年级数学说理课堂构建策略玉洁;16-18基于法治观念培育的道法课项目式教学策略许静;19-21“双师课堂”在初中语文写作教学中的实践孙巧玲
智慧施工：AI技术赋能建筑安全监测新纪元
开发AI智能应用，就下载InsCodeAIIDE，一键接入DeepSeek-R1满血版大模型！智慧施工：AI技术赋能建筑安全监测新纪元在现代建筑行业中，施工安全始终是核心关注点之一。随着科技的飞速发展，人工智能（AI）和大数据分析逐渐成为提升施工安全的重要工具。本文将探讨如何利用智能化软件和大模型API来构建高效的施工安全监测系统，并介绍一款强大的开发工具——InsCodeAIIDE的应用场景及其
智慧工地系统：建筑行业数字化变革的引领者青云智慧园区 java
在建筑行业积极迈向数字化转型的浪潮中，智慧工地系统凭借“数据驱动、智能管控、协同增效”的核心优势，深度融合物联网、大数据、人工智能等前沿技术，构建起覆盖工程项目全生命周期的精细化管理体系。以下将从系统架构、核心功能模块、应用价值以及未来展望等方面，全方位剖析智慧工地系统如何实现施工全过程的智能化、高效化管理。一、系统架构：打造一体化协同管理平台智慧工地系统采用先进的分层架构设计，以底层的数据采集层
戴尔笔记本win8系统改装win7系统 sophia天雪 win7 戴尔改装系统 win8
戴尔win8 系统改装win7 系统详述第一步：使用U盘制作虚拟光驱： 1）下载安装UltraISO：注册码可以在网上搜索。 2）启动UltraISO，点击“文件”—》“打开”按钮，打开已经准备好的ISO镜像文
BeanUtils.copyProperties使用笔记 bylijinnan java
BeanUtils.copyProperties VS PropertyUtils.copyProperties 两者最大的区别是： BeanUtils.copyProperties会进行类型转换，而PropertyUtils.copyProperties不会。既然进行了类型转换，那BeanUtils.copyProperties的速度比不上PropertyUtils.copyProp
MyEclipse中文乱码问题 0624chenhong MyEclipse
一、设置新建常见文件的默认编码格式，也就是文件保存的格式。在不对MyEclipse进行设置的时候，默认保存文件的编码，一般跟简体中文操作系统（如windows2000，windowsXP）的编码一致，即GBK。在简体中文系统下，ANSI 编码代表 GBK编码;在日文操作系统下，ANSI 编码代表 JIS 编码。 Window-->Preferences-->General -
发送邮件不懂事的小屁孩 send email
import org.apache.commons.mail.EmailAttachment; import org.apache.commons.mail.EmailException; import org.apache.commons.mail.HtmlEmail; import org.apache.commons.mail.MultiPartEmail;
动画合集换个号韩国红果果 html css
动画指一种样式变为另一种样式 keyframes应当始终定义0 100 过程 1 transition 制作鼠标滑过图片时的放大效果 css .wrap{ width: 340px;height: 340px; position: absolute; top: 30%; left: 20%; overflow: hidden; bor
网络最常见的攻击方式竟然是SQL注入蓝儿唯美 sql注入
NTT研究表明，尽管SQL注入（SQLi）型攻击记录详尽且为人熟知，但目前网络应用程序仍然是SQLi攻击的重灾区。信息安全和风险管理公司NTTCom Security发布的《2015全球智能威胁风险报告》表明，目前黑客攻击网络应用程序方式中最流行的，要数SQLi攻击。报告对去年发生的60亿攻击行为进行分析，指出SQLi攻击是最常见的网络应用程序攻击方式。全球网络应用程序攻击中，SQLi攻击占
java笔记2 a-john java
类的封装： 1，java中，对象就是一个封装体。封装是把对象的属性和服务结合成一个独立的的单位。并尽可能隐藏对象的内部细节（尤其是私有数据） 2，目的：使对象以外的部分不能随意存取对象的内部数据（如属性），从而使软件错误能够局部化，减少差错和排错的难度。 3，简单来说，“隐藏属性、方法或实现细节的过程”称为——封装。 4，封装的特性： 4.1设置
[Andengine]Error：can't creat bitmap form path “gfx/xxx.xxx” aijuans 学习Android遇到的错误
最开始遇到这个错误是很早以前了，以前也没注意，只当是一个不理解的bug，因为所有的texture，textureregion都没有问题，但是就是提示错误。昨天和美工要图片，本来是要背景透明的png格式，可是她却给了我一个jpg的。说明了之后她说没法改，因为没有png这个保存选项。我就看了一下，和她要了psd的文件，还好我有一点
自己写的一个繁体到简体的转换程序 asialee java 转换繁体 filter 简体
今天调研一个任务，基于java的filter实现繁体到简体的转换，于是写了一个demo，给各位博友奉上，欢迎批评指正。实现的思路是重载request的调取参数的几个方法，然后做下转换。
android意图和意图监听器技术百合不是茶 android 显示意图隐式意图意图监听器
Intent是在activity之间传递数据;Intent的传递分为显示传递和隐式传递显式意图：调用Intent.setComponent() 或 Intent.setClassName() 或 Intent.setClass()方法明确指定了组件名的Intent为显式意图，显式意图明确指定了Intent应该传递给哪个组件。隐式意图;不指明调用的名称,根据设
spring3中新增的@value注解 bijian1013 java spring @Value
在spring 3.0中，可以通过使用@value，对一些如xxx.properties文件中的文件，进行键值对的注入，例子如下： 1.首先在applicationContext.xml中加入： <beans xmlns="http://www.springframework.
Jboss启用CXF日志 sunjing log jboss CXF
1. 在standalone.xml配置文件中添加system-properties： <system-properties> <property name="org.apache.cxf.logging.enabled" value=&
【Hadoop三】Centos7_x86_64部署Hadoop集群之编译Hadoop源代码 bit1129 centos
编译必需的软件 Firebugs3.0.0 Maven3.2.3 Ant JDK1.7.0_67 protobuf-2.5.0 Hadoop 2.5.2源码包 Firebugs3.0.0 http://sourceforge.jp/projects/sfnet_findbug
struts2验证框架的使用和扩展白糖_ 框架 xml bean struts 正则表达式
struts2能够对前台提交的表单数据进行输入有效性校验，通常有两种方式： 1、在Action类中通过validatexx方法验证，这种方式很简单，在此不再赘述； 2、通过编写xx-validation.xml文件执行表单验证，当用户提交表单请求后，struts会优先执行xml文件，如果校验不通过是不会让请求访问指定action的。本文介绍一下struts2通过xml文件进行校验的方法并说
记录-感悟 braveCS 感悟
再翻翻以前写的感悟，有时会发现自己很幼稚，也会让自己找回初心。 2015-1-11 1. 能在工作之余学习感兴趣的东西已经很幸福了； 2. 要改变自己，不能这样一直在原来区域，要突破安全区舒适区，才能提高自己，往好的方面发展； 3. 多反省多思考；要会用工具，而不是变成工具的奴隶； 4. 一天内集中一个定长时间段看最新资讯和偏流式博
编程之美-数组中最长递增子序列 bylijinnan 编程之美
import java.util.Arrays; import java.util.Random; public class LongestAccendingSubSequence { /** * 编程之美数组中最长递增子序列 * 书上的解法容易理解 * 另一方法书上没有提到的是，可以将数组排序（由小到大）得到新的数组， * 然后求排序后的数组与原数
读书笔记5 chengxuyuancsdn 重复提交 struts2的token验证
1、重复提交 2、struts2的token验证 3、用response返回xml时的注意 1、重复提交 (1)应用场景 (1-1)点击提交按钮两次。 (1-2)使用浏览器后退按钮重复之前的操作，导致重复提交表单。 (1-3)刷新页面 (1-4)使用浏览器历史记录重复提交表单。 (1-5)浏览器重复的 HTTP 请求。 (2)解决方法 (2-1)禁掉提交按钮 (2-2)
[时空与探索]全球联合进行第二次费城实验的可能性 comsci
二次世界大战前后,由爱因斯坦参加的一次在海军舰艇上进行的物理学实验 -费城实验至今给我们大家留下很多迷团..... 关于费城实验的详细过程,大家可以在网络上搜索一下,我这里就不详细描述了在这里,我的意思是,现在
easy connect 之 ORA-12154: TNS: 无法解析指定的连接标识符 daizj oracle ORA-12154
用easy connect连接出现“tns无法解析指定的连接标示符”的错误，如下： C:\Users\Administrator>sqlplus username/[email protected]:1521/orcl SQL*Plus: Release 10.2.0.1.0 – Production on 星期一 5月 21 18:16:20 2012 Copyright (c) 198
简单排序:归并排序 dieslrae 归并排序
public void mergeSort(int[] array){ int temp = array.length/2; if(temp == 0){ return; } int[] a = new int[temp]; int
C语言中字符串的\0和空格 dcj3sjt126com c
\0 为字符串结束符，比如说： abcd (空格)cdefg；存入数组时，空格作为一个字符占有一个字节的空间，我们
解决Composer国内速度慢的办法 dcj3sjt126com Composer
用法：有两种方式启用本镜像服务： 1 将以下配置信息添加到 Composer 的配置文件 config.json 中（系统全局配置）。见“例1” 2 将以下配置信息添加到你的项目的 composer.json 文件中（针对单个项目配置）。见“例2” 为了避免安装包的时候都要执行两次查询，切记要添加禁用 packagist 的设置，如下 1 2 3 4 5
高效可伸缩的结果缓存 shuizhaosi888 高效可伸缩的结果缓存
/** * 要执行的算法，返回结果v */ public interface Computable<A, V> { public V comput(final A arg); } /** * 用于缓存数据 */ public class Memoizer<A, V> implements Computable<A,
三点定位的算法 haoningabc c 算法
三点定位，已知a,b,c三个顶点的x,y坐标和三个点都z坐标的距离，la，lb,lc 求z点的坐标原理就是围绕a,b,c 三个点画圆，三个圆焦点的部分就是所求但是，由于三个点的距离可能不准，不一定会有结果，所以是三个圆环的焦点，环的宽度开始为0，没有取到则加1 运行 gcc -lm test.c test.c代码如下 #include "stdi
epoll使用详解 jimmee c linux 服务端编程 epoll
epoll - I/O event notification facility在linux的网络编程中，很长的时间都在使用select来做事件触发。在linux新的内核中，有了一种替换它的机制，就是epoll。相比于select，epoll最大的好处在于它不会随着监听fd数目的增长而降低效率。因为在内核中的select实现中，它是采用轮询来处理的，轮询的fd数目越多，自然耗时越多。并且，在linu
Hibernate对Enum的映射的基本使用方法 linzx0212 enum Hibernate
枚举 /** * 性别枚举 */ public enum Gender { MALE(0), FEMALE(1), OTHER(2); private Gender(int i) { this.i = i; } private int i; public int getI
第10章高级事件（下） onestopweb 事件
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
孙子兵法 roadrunners 孙子兵法
始计第一孙子曰：兵者，国之大事，死生之地，存亡之道，不可不察也。故经之以五事，校之以计，而索其情：一曰道，二曰天，三曰地，四曰将，五曰法。道者，令民于上同意，可与之死，可与之生，而不危也；天者，阴阳、寒暑、时制也；地者，远近、险易、广狭、死生也；将者，智、信、仁、勇、严也；法者，曲制、官道、主用也。凡此五者，将莫不闻，知之者胜，不知之者不胜。故校之以计，而索其情，曰
MySQL双向复制 tomcat_oracle mysql
本文包括: 主机配置从机配置建立主-从复制建立双向复制背景按照以下简单的步骤: 参考一下：在机器A配置主机(192.168.1.30) 在机器B配置从机(192.168.1.29) 我们可以使用下面的步骤来实现这一点步骤1：机器A设置主机在主机中打开配置文件 ,
zoj 3822 Domination(dp) 阿尔萨斯 Mina
题目链接：zoj 3822 Domination 题目大意：给定一个N∗M的棋盘，每次任选一个位置放置一枚棋子，直到每行每列上都至少有一枚棋子，问放置棋子个数的期望。解题思路：大白书上概率那一张有一道类似的题目，但是因为时间比较久了，还是稍微想了一下。dp[i][j][k]表示i行j列上均有至少一枚棋子，并且消耗k步的概率（k≤i∗j）,因为放置在i+1~n上等价与放在i+1行上，同理

简单transformer运用

通俗易懂解读：hw04.py 文件内容与 Transformer 的应用

1. 文件概述

2. Transformer 和 Self-Attention 的原理与应用

(1) Transformer 和 Self-Attention 原理

(2) 代码中的 Transformer 和 Self-Attention

3. 如何使用 Transformer

(1) 定义 Transformer 模型

(2) 输入数据准备

(3) 前向传播

(4) 应用场景

4. 如何训练模型

(1) 数据准备

(2) 模型和优化器

(3) 训练循环（main 函数）

(4) 推理（main 函数，推理部分）

5. 如何调整 Transformer 参数

(1) 调整参数的地方

(2) 调整建议

(3) 注意事项

6. 总结：如何使用 Transformer 训练模型

7. 动手实践

逐行讲解 Conformer 代码实现

1. Conformer 代码实现

2. 逐行讲解 ConformerConvModule

(1) 初始化方法 __init__

(2) 前向传播方法 forward

3. 逐行讲解 ConformerBlock

(1) 初始化方法 __init__

(2) 前向传播方法 forward

4. 总结与使用

你可能感兴趣的:(deeplearning,transformer,深度学习,人工智能)

(1) 初始化方法 init

(1) 初始化方法 init