HalukiSan

Happy-LLM 第二章 Transformer

Transform架构

图片来自[Happy-llm](happy-llm/docs/chapter2/第二章 Transformer架构.md at main · datawhalechina/happy-llm)，若加载不出来，请开梯子

注意力机制

前馈神经网络

每一层的神经元都与上下两层的每一个神经元完全连接

数据在其中只向前流动，用于处理静态的数据，进行图像识别或者分类，但是该网络没有记忆能力，数据在它里面没有循环。
卷积神经网络（Convolutional Neural Network，CNN），即训练参数量远小于前馈神经网络的卷积层来进行特征提取和学习

只要用于处理具有网格结构的数据，比如时间序列或者图像数据，通过局部感知野（即每个神经元只需要“看到”输入数据的一部分）和权值共享（同一特征检测器可以用于整个输入空间）来减少参数数量，从而能够更高效地进行训练和预测。该网络适用于图像识别、语音信号处理

循环神经网络（Recurrent Neural Network，RNN），能够使用历史信息作为输入、包含环和自重复的网络

网络中的节点按链式方式连接形成一个有向图，允许信息持久存在，可以用于语言模型，理解上下文的场景。

由于RNN在处理长序列时是顺序进行输入和计算，会有梯度消失或者爆炸的问题，还浪费了GPU的并行能力，Vaswani等人借鉴了计算机视觉（CV）领域提出的注意力机制，并创新地构建了一个完全基于注意力机制的神经网络——Transformer。

梯度消失、爆炸

梯度消失：在深层网络中，靠近输入层的权重由于梯度接近于0而难以得到有效的更新，是使得网络无法学习到有用的特征表示，尤其是那些自然语言处理（有上下文，长距离任务）

梯度爆炸：指相反的情况，即梯度变得异常大，导致权重更新幅度巨大，使得网络不稳定，甚至可能导致数值溢出错误。训练过程不稳定，网络性能下降。

Transformer允许更大的并行化处理，显著提高了计算效率。
通过自注意力机制（self-attention mechanism），Transformer能够更有效地捕捉到序列中任意位置间的依赖关系，不受限于序列长度。

注意力机制

核心思想是模型在处理每个位置的输入时，动态的关注到某些部分的信息，就像我们看照片，不可能全部细节都看，在自然语言处理中，我们可以将注意力集中在一个或者几个token上，给予不同元素不同的权重，从而获取到更加高质量的计算效果。

注意力有三个核心变量：Query（查询值）、Key（键值）和 Value（真值），

假设有如下简化的新闻报道：“开营会议马上召开，时间为2025年6月9日。”

Query可能是“时间在哪里？”
Keys将是每个词（”开营“，“会议”，“马上”，“召开”，“时间”，“为”，“2025年”，“6月”，“9日”）的向量表示。
Values也是这些词的向量表示。

key可以视为标识符，用于和query进行比较，确定哪些部分与query最相关。value就是后续的输出。通过计算Query与所有Key之间的相似度或相关性来确定对每个词的关注程度，结果是一组权重，反映了从Query出发，对文本中每一个token应该分配多少注意力，然后，利用这些权重对相应的Values进行加权求和，从而获得最终的输出结果。这意味着，那些与Query高度相关的部分（如包含时间信息的词）将对最终结果产生更大的影响。

Happy-llm提到了如何计算注意力分数，使用词向量，进行点积运算，首先对query进行向量化，然后对key中的某一个进行向量化，然后进行点积运算，获取一个相似度值，然后选中key的下一个，继续这样操作，计算 Query 和每一个键的相似程度。

然后我们通过一个Softmax层将其转化为和为1的权重 $\text{softmax}(x)*i = \frac{e^{xi}}{\sum*{j}e^{x_j}}$

这样，得到的向量就能够反映 Query 和每一个 Key 的相似程度，同时又相加权重为 1，也就是我们的注意力分数了。

不过，此时的值还是一个标量，同时，我们此次只查询了一个 Query。我们可以将同时一次性查询多个 Query，同样将多个 Query 对应的词向量堆叠在一起形成矩阵 Q，这个矩阵的每一行都是一个query：

对于这个Q矩阵，比如句子“I love NLP”有3个词，就会有3个Query，分别对应每个词的向量。我们可以把这些Query堆叠成一个矩阵 QQ，一次性计算所有Query对应的注意力结果。这样就

不需要一个一个地单独计算每个Query，节省大量时间。

充分利用GPU的并行计算能力。

并且！模型可以关注到整个句子的各个词的相关性，对于长难句或者长距离依赖的处理更加好。

对于每个查询，计算它与所有Key之间的相似度。这可以通过矩阵乘法实现，即 QKTQKT，其结果是一个矩阵，其中每个元素表示对应Query和Key之间的相似度。
权重转换：同样地，我们需要使用Softmax函数将这些相似度转换为权重。这里的Softmax是对每个查询分别应用的，以确保每组权重加起来等于1。
加权求和：最后，我们利用这些权重对Values进行加权求和，得到针对每个查询的输出。这一步也是通过矩阵乘法完成的。

这样处理有什么用呢，比如在语言处理场景下，你要把英文句子 “The cat is on the mat.” 翻译成中文，需要知道每个中文词应该“关注”英文句子中的哪个部分。比如，猫这个字就需要关注英文语句中的cat，垫子这个词就要关注mat。注意力机制就像让模型在处理一个目标词时，自动选择性关注源语言中最相关的部分。

自注意力

自注意力机制的关键在于认识到它允许每个位置的token能够直接与其他所有位置的token进行交互，这与传统的RNN或者LSTM不同，RNN只能顺序的处理，浪费了GPU并行计算的能力。

在自注意力机制中，输入序列的每一个token都会生成三个向量：Q、K、V。这三个向量是通过原始向量分别乘以不同的权重矩阵而得到的。Q就是当前关注点的信息，K与Q进行相似度计算，找到相关性，V包含实际要传递的信息。

在Transformer的Encoder部分，对于输入序列中的每个token，我们使用相同的输入向量来计算Q、K、V，但通过不同的权重矩阵变换它们。这意味着：

$Q = X W q$

$K = X Wk$

$V = X W v$

其中，X 是输入序列的嵌入表示（embedding）， $W q$ 、 $Wk$ 和 $W v$ 分别是学习到的参数矩阵。

通过自注意力机制，可以找到一段文本中每一个token与其他所有的token的相关关系大小，并根据它们的相关性调整自己的表示。

自注意力机制：

提高了模型处理长距离依赖的关系

使得模型结构更加适合并行化处理，提高了训练效率

掩码自注意力

指的是使用掩码来遮蔽掉特定位置的token，主要控制哪些部分的信息可以被模型看到，哪些部分应该被忽略或者屏蔽，这对于确保模型不会“作弊”（幻觉，利用了没有看到的信息进行预测），有很好的作用。

在标准的自注意力机制中，每个token能够与序列中所有的其他token交互，包括哪些在实际应用场景中未出现的未来token。然而，在模型训练中，我们希望模型只能依赖于已见过的信息来做出预测，而不是未来的信息。这就需要使用掩码来阻止模型访问未来的token。

例如，对于句子“我喜欢猫。”

首先基于“我”预测出“喜欢”，然后基于“我喜欢”预测出“猫”。

在这个过程中，我们不希望模型提前知道喜欢和猫这俩词来预测，但是这样就是并行计算了，浪费了GPU。所以就有了掩码自注意力的方法，掩码自注意力机制会生成一串掩码，来屏蔽未来信息。例如，我们待学习的文本序列仍然是【BOS】I like you【EOS】，我们使用的注意力掩码是【MASK】，那么模型的输入为：

 【MASK】【MASK】【MASK】【MASK】
    I   【MASK】 【MASK】【MASK】
    I     like  【MASK】【MASK】
    I     like    you  【MASK】
    I     like    you

在每一行输入中，模型仍然是只看到前面的 token，预测下一个 token。但是注意，上述输入不再是串行的过程，而可以一起并行地输入到模型中，模型只需要每一个样本根据未被遮蔽的 token 来预测下一个 token 即可，从而实现了并行的语言模型。

下面的关于掩码的实现将直接引用表达非常完美的原文

在具体实现中，我们通过以下代码生成 Mask 矩阵：

# 创建一个上三角矩阵，用于遮蔽未来信息。
# 先通过 full 函数创建一个 1 * seq_len * seq_len 的矩阵
mask = torch.full((1, args.max_seq_len, args.max_seq_len), float("-inf"))
# triu 函数的功能是创建一个上三角矩阵
mask = torch.triu(mask, diagonal=1)

生成的 Mask 矩阵会是一个上三角矩阵，上三角位置的元素均为 -inf，其他位置的元素置为0。

在注意力计算时，我们会将计算得到的注意力分数与这个掩码做和，再进行 Softmax 操作：

# 此处的 scores 为计算得到的注意力分数，mask 为上文生成的掩码矩阵
scores = scores + mask[:, :seqlen, :seqlen]
scores = F.softmax(scores.float(), dim=-1).type_as(xq)

通过做求和，上三角区域（也就是应该被遮蔽的 token 对应的位置）的注意力分数结果都变成了 -inf，而下三角区域的分数不变。再做 Softmax 操作，-inf 的值在经过 Softmax 之后会被置为 0，从而忽略了上三角区域计算的注意力分数，从而实现了注意力遮蔽。

多头注意力机制

注意力机制在一段序列中，很难拟合全部的相关关系，所以有了多头注意力机制，即对同一个语料进行多次注意力的计算，每次注意力计算都能拟合不同的关系，将最后的多次结果拼接起来作为最后的输出，即可更全面深入地拟合语言信息。

事实上，所谓的多头注意力机制其实就是将原始的输入序列进行多组的自注意力处理；然后再将每一组得到的自注意力结果拼接起来，再通过一个线性层进行处理。

多头注意力允许模型从不同的角度理解和处理输入数据。每个头可以专注于不同类型的关系或特征，从而提供更丰富和多样化的信息表示。
由于不同头可以关注序列中的不同部分，因此它们能够更好地捕捉长距离依赖以及复杂的语法和语义结构。
模型能够更精确地捕捉细微的区别和关联。
看起来计算量很多，但每个的注意力计算都是独立的，充分利用了GPU的并行能力

Encoder-Decoder（编码-解码器）

Seq2Seq模型

Transformer 是一个经典的 Seq2Seq 模型，即模型的输入为文本序列，输出为另一个文本序列。例如，我们的输入可能是“今天天气真好”，输出是“Today is a good day.”。

对于 Seq2Seq 任务，一般的思路是对自然语言序列进行编码再解码。

编码：

将输入的自然语言序列通过隐藏层编码成能够表征语义的向量（或矩阵），可以简单理解为更复杂的词向量表示。

解码：

就是对输入的自然语言序列编码得到的向量或矩阵通过隐藏层输出，再解码成对应的自然语言目标序列。

Transformer 由 Encoder 和 Decoder 组成，每一个 Encoder（Decoder）又由 6个 Encoder（Decoder）Layer 组成。输入源序列会进入 Encoder 进行编码，到 Encoder Layer 的最顶层再将编码结果输出给 Decoder Layer 的每一层，通过 Decoder 解码后就可以得到输出目标序列了。

前馈神经网络FFN

FNN：每一层的神经元都和上下两层的每一个神经元完全连接的网络结构。

每一个 Encoder Layer 都包含一个上文讲的注意力机制和一个前馈神经网络。

FNN的作用是什么

引入非线性：尽管自注意力机制可以捕捉输入序列中不同位置之间的复杂依赖关系，但它本质上是一个线性操作（加上Softmax函数）。为了增强模型的学习能力和表达力，需要引入非线性变换。前馈神经网络通过使用激活函数（如ReLU或GELU），为模型引入了必要的非线性。
特征转换：前馈神经网络允许模型学习更复杂的特征表示。具体来说，它由两层线性变换组成，中间夹有一个非线性激活函数。这使得模型可以在不同的特征空间之间进行映射，从而可能发现原始输入中未直接显现的模式或结构 。
维度变换：在Transformer中，前馈神经网络通常会增加维度大小（即所谓的“扩展维度”）。例如，如果输入的隐藏层维度是512，那么前馈神经网络的第一个线性层可能会将其映射到一个更高的维度（比如2048），然后通过第二个线性层再映射回原来的维度（512）。这种维度上的先增后减有助于模型捕捉更丰富的信息。

层归一化Layer Normalization

归一化核心是为了让不同层输入的取值范围或者分布能够比较一致。由于深度神经网络中每一层的输入都是上一层的输出，因此**多层传递下，对网络中较高的层，之前的所有神经层的参数变化会导致其输入的分布发生较大的改变 **。各层的输出分布差异随着网络深度的增大而增大。但是，需要预测的条件分布始终是相同的，从而也就造成了预测的误差。归一化操作可以帮助稳定每一层的输入分布，从而加速训练并提高模型的表现。

批归一化Batch Normalization

在每个mini-batch上进行归一化。

通过Layer Norm，可以有效解决Batch Norm的一些局限性：

当batch size较小时，计算出的均值和方差可能不能很好地代表整个数据集的分布。
由于RNN处理的是变长序列，不同时间步的分布可能差异很大，导致Batch Norm的效果不佳。
在训练过程中需要保存每一步的统计信息，在推理时则需要使用这些统计量，这对变长序列特别麻烦。

残差连接

随着神经网络层数的增加，传统的深层网络面临两个主要问题：梯度消失/爆炸和退化问题。这些问题限制了模型的深度和性能。

对于非常深的网络，如果每层的梯度都非常小或非常大，那么经过多层后，梯度可能会变得极小（梯度消失）或极大（梯度爆炸），从而导致训练不稳定甚至无法收敛。

即使解决了梯度消失/爆炸的问题，更深的网络并不总是表现得更好。在某些情况下，更深的网络可能比浅层网络表现更差。这是因为深层网络难以优化，即使有足够的训练时间，网络也可能陷入较差的局部最优解。

残差连接，即下一层的输入不仅是上一层的输出，还包括上一层的输入。

残差连接的出现，很有效的保持了梯度的稳定性和强度，从而支持更深的网络训练 。

Encoder

Encoder由N个Encoder Layer组成，每一个Encoder Layer包括一个注意力层和一个前馈神经网络。

多头注意力机制用于捕获输入序列中不同token之间的依赖关系

前馈神经网络FNN用于提供一个非线性变化，增强模型表达能力

此外，在每个子层周围还应用了残差连接，并跟随一个层归一化。

残差连接在每个子层之后添加输入的直接连接，即output = layer(input) + input，这有助于缓解深层网络中的梯度消失问题。

层归一化，对每个样本的所有特征维度进行归一化处理，确保每一层的输入分布保持稳定。

Decoder

与Encoder不同的是，Decoder是由两个注意力层和一个前馈神经网络组成。

第一个注意力层是一个掩码自注意力层，使用Mask的注意力计算，保证每一个token只能使用该token之前的注意力分数。
第二个注意力层是一个多头注意力层，使用第一个注意力层的输出作为query，使用Encoder的输出作为key和value来计算注意力分数。
最后在经过前馈神经网络。

Encoder的主要任务是将输入序列转换为一个连续的表示形式，这个表示形式可以被后续的Decoder使用来生成输出序列。

首先接受原始的数据，将其转换为模型可以理解的形式
再通过多层的Encoder层，让模型捕捉输入序列中的复杂模式和依赖关系，每一层包括：
- 多头注意力机制：每个位置的token都可以关注到其他各个位置的token，从而捕获全局信息
- 前馈神经网络FNN：提供线性变化，增强模型的表达能力
- 残差连接与层归一化：缓解梯度消失，稳定训练
输出一个与输入序列长度相同的序列，包含了输入序列的重要信息，可以被Decoder用来生成目标序列。

Decoder的任务是基于Encoder层提供的上下文信息生成输出序列Decoder通常从一个特殊的开始标记（如）开始解码过程。

对于每一个时间步，Decoder执行以下操作：
- 多头自注意力机制：类似于Encoder中的自注意力，但这里的Query来自于当前Decoder层的上一层，而Key和Value既可以来自同一层也可以来自Encoder的最后一层。这使得Decoder可以同时关注到之前生成的所有token以及整个输入序列的信息。
- 编码器-解码器注意力机制：除了自身的自注意力外，Decoder还会进行一次编码器-解码器之间的注意力计算，其中Query来自Decoder，而Key和Value则来自Encoder的输出。这种方式让Decoder能够“查看”输入序列中的所有信息，以指导其生成下一个token。
- 前馈神经网络：与Encoder类似，也包含了一个前馈神经网络来引入非线性变换。
- 输出预测：经过上述步骤后，Decoder会输出一个分布，从中选择最有可能的下一个token加入到已生成的序列中。
终止条件：当生成了特殊的结束标记（如）或者达到了预设的最大序列长度时，解码过程结束。

搭建Transformer

Embedding层

Embedding层的作用就是将这些符号转化为高维空间中的向量表示，这样就可以被神经网络处理了。

Embedding层内部实际上是一个可训练的权重矩阵，其形状为(vocab_size, embedding_dim)。这里的vocab_size是词汇表的大小，而embedding_dim是你希望每个词向量具有的维度。
当给定一个包含整数索引的输入时，Embedding层会根据这些索引来查找对应的行（即词向量），并将其作为输出的一部分。
对于输入中的每一个索引，Embedding层都会找到对应的词向量，并将这些词向量按顺序拼接起来形成最终的输出张量。

import torch
import torch.nn as nn

# 假设我们的词汇表大小是4，嵌入维度是5
vocab_size = 4
embedding_dim = 5

# 创建一个Embedding层
embedding_layer = nn.Embedding(vocab_size, embedding_dim)

# 输入是一个形状为(batch_size, seq_len)的张量，这里我们只有一个样本，序列长度为3
input_indices = torch.tensor([[0, 1, 2]])  # 形状为(1, 3)

# 使用Embedding层进行转换
embedded_output = embedding_layer(input_indices)

print("Input Indices:\n", input_indices)
print("\nEmbedded Output Shape:", embedded_output.shape)
print("\nEmbedded Output:\n", embedded_output)

vocab_size=4 表示词汇表中有4个不同的词。
embedding_dim=5 表示每个词会被映射到一个5维的向量空间中。
input_indices 是输入的索引，形状为 (1, 3)，表示有1个样本，序列长度为3，每个位置上的整数代表词汇表中的某个词。
embedded_output 是经过Embedding层后的输出，形状为 (1, 3, 5)，即 (batch_size, seq_len, embedding_dim)。

Input Indices:
 tensor([[0, 1, 2]])

Embedded Output Shape: torch.Size([1, 3, 5])

Embedded Output:
 tensor([[[-0.7986, -0.4993, -0.8005, -0.7126, -0.6747],
          [ 0.4580,  0.7640,  0.4576, -0.5646, -0.4797],
          [-0.6667,  0.3355,  0.3609, -0.4949,  0.6763]]], grad_fn=<EmbeddingBackward>)

位置编码

在注意力机制的计算过程中，对于序列中的每一个 token，其他各个位置对其来说都是平等的，即“我喜欢你”和“你喜欢我”在注意力机制看来是完全相同的，因此，为使用序列顺序信息，保留序列中的相对位置信息，Transformer 采用了位置编码机制，该机制也在之后被多种模型沿用。

位置编码，即根据序列中 token 的相对位置对其进行编码，再将位置编码加入词向量编码中。位置编码的方式有很多，Transformer 使用了正余弦函数来进行位置编码（绝对位置编码Sinusoidal），其编码方式为：

假设 $ pos $ 表示位置，$ i $ 表示维度索引，而 $ d_{model} $ 是模型的隐藏层维度大小。

对于偶数维度（ $2 i$ ）的位置编码使用正弦函数：
$\sin\left(\frac{pos}{10000^{\frac{2i}{d_{model}}}}\right)$
对于奇数维度（ $2 i + 1$ ）的位置编码使用余弦函数：
$\cos\left(\frac{pos}{10000^{\frac{2i}{d_{model}}}}\right)$
这样的位置编码主要有两个好处：

使 PE 能够适应比训练集里面所有句子更长的句子，假设训练集里面最长的句子是有 20 个单词，突然来了一个长度为 21 的句子，则使用公式计算的方法可以计算出第 21 位的 Embedding。
可以让模型容易地计算出相对位置，对于固定长度的间距 k，PE(pos+k) 可以用 PE(pos) 计算得到。因为 Sin(A+B) = Sin(A)Cos(B) + Cos(A)Sin(B), Cos(A+B) = Cos(A)Cos(B) - Sin(A)Sin(B)。

我们也可以通过严谨的数学推导证明该编码方式的优越性。原始的 Transformer Embedding 可以表示为：

$\begin{equation}f(\cdots,\boldsymbol{x}_m,\cdots,\boldsymbol{x}_n,\cdots)=f(\cdots,\boldsymbol{x}_n,\cdots,\boldsymbol{x}_m,\cdots)\end{equation}$

很明显，这样的函数是不具有不对称性的，也就是无法表征相对位置信息。我们想要得到这样一种编码方式：

f~(⋯,\boldsymbolxm,⋯,\boldsymbolxn,⋯)=f(⋯,\boldsymbolxm+\boldsymbolpm,⋯,\boldsymbolxn+\boldsymbolpn,⋯)

这里加上的 pm， $p_n$ 就是位置编码。接下来我们将 f(…,xm+pm,…,xn+pn) 在 m,n 两个位置上做泰勒展开：

$\begin{equation}\tilde{f}\approx f + \boldsymbol{p}_m^{\top} \frac{\partial f}{\partial \boldsymbol{x}_m} + \boldsymbol{p}_n^{\top} \frac{\partial f}{\partial \boldsymbol{x}_n} + \frac{1}{2}\boldsymbol{p}_m^{\top} \frac{\partial^2 f}{\partial \boldsymbol{x}_m^2}\boldsymbol{p}_m + \frac{1}{2}\boldsymbol{p}_n^{\top} \frac{\partial^2 f}{\partial \boldsymbol{x}_n^2}\boldsymbol{p}_n + \underbrace{\boldsymbol{p}_m^{\top} \frac{\partial^2 f}{\partial \boldsymbol{x}_m \partial \boldsymbol{x}_n}\boldsymbol{p}*n}*{\boldsymbol{p}_m^{\top} \boldsymbol{\mathcal{H}} \boldsymbol{p}_n}\end{equation}$

可以看到第1项与位置无关，2～5项仅依赖单一位置，第6项（f 分别对 m、n 求偏导）与两个位置有关，所以我们希望第六项（ $p_m^THp_n$ ）表达相对位置信息，即求一个函数 g 使得:

pmTHpn=g(m−n)

我们假设 H 是一个单位矩阵，则：

pmTHpn=pmTpn=⟨\boldsymbolpm,\boldsymbolpn⟩=g(m−n)

通过将向量 [x,y] 视为复数 x+yi，基于复数的运算法则构建方程:

⟨\boldsymbolpm,\boldsymbolpn⟩=Re[\boldsymbolpm\boldsymbolpn∗]

再假设存在复数 qm−n 使得：

$KaTeX parse error: Undefined control sequence: \* at position 52: …oldsymbol{p}*n^\̲*̲ = \boldsymbol{…$

使用复数的指数形式求解这个方程，得到二维情形下位置编码的解：

\boldsymbolpm=eimθ⇔\boldsymbolpm=(cos⁡mθ sin⁡mθ)

由于内积满足线性叠加性，所以更高维的偶数维位置编码，我们可以表示为多个二维位置编码的组合：

$\begin{equation}\boldsymbol{p}*m = \begin{pmatrix}e^{\text{i}m\theta_0} \ e^{\text{i}m\theta_1} \ \vdots \ e^{\text{i}m\theta*{d/2-1}}\end{pmatrix}\quad\Leftrightarrow\quad \boldsymbol{p}*m=\begin{pmatrix}\cos m\theta_0 \ \sin m\theta_0 \ \cos m\theta_1 \ \sin m\theta_1 \ \vdots \ \cos m\theta*{d/2-1} \ \sin m\theta_{d/2-1} \end{pmatrix}\end{equation}$

再取 θi=10000−2i/d（该形式可以使得随着|m−n|的增大，⟨pm,pn⟩有着趋于零的趋势，这一点可以通过对位置编码做积分来证明，而 base 取为 10000 是实验结果），就得到了上文的编码方式。

当 H 不是一个单位矩阵时，因为模型的 Embedding 层所形成的 d 维向量之间任意两个维度的相关性比较小，满足一定的解耦性，我们可以将其视作对角矩阵，那么使用上述编码：

$\begin{equation}\boldsymbol{p}*m^{\top} \boldsymbol{\mathcal{H}} \boldsymbol{p}n=\sum{i=1}^{d/2} \boldsymbol{\mathcal{H}}*{2i,2i} \cos m\theta_i \cos n\theta_i + \boldsymbol{\mathcal{H}}_{2i+1,2i+1} \sin m\theta_i \sin n\theta_i\end{equation}$

通过积化和差：

$\begin{equation}\sum_{i=1}^{d/2} \frac{1}{2}\left(\boldsymbol{\mathcal{H}}*{2i,2i} + \boldsymbol{\mathcal{H}}*{2i+1,2i+1}\right) \cos (m-n)\theta_i + \frac{1}{2}\left(\boldsymbol{\mathcal{H}}*{2i,2i} - \boldsymbol{\mathcal{H}}*{2i+1,2i+1}\right) \cos (m+n)\theta_i \end{equation}$

说明该编码仍然可以表示相对位置。

基于上述原理，我们实现一个位置编码层：

class PositionalEncoding(nn.Module):
    '''位置编码模块'''

    def __init__(self, args):
        super(PositionalEncoding, self).__init__()
        # Dropout 层
        self.dropout = nn.Dropout(p=args.dropout)

        # block size 是序列的最大长度
        pe = torch.zeros(args.block_size, args.n_embd)
        position = torch.arange(0, args.block_size).unsqueeze(1)
        # 计算 theta
        div_term = torch.exp(
            torch.arange(0, args.n_embd, 2) * -(math.log(10000.0) / args.n_embd)
        )
        # 分别计算 sin、cos 结果
        pe[:, 0::2] = torch.sin(position * div_term)
        pe[:, 1::2] = torch.cos(position * div_term)
        pe = pe.unsqueeze(0)
        self.register_buffer("pe", pe)

    def forward(self, x):
        # 将位置编码加到 Embedding 结果上
        x = x + self.pe[:, : x.size(1)].requires_grad_(False)
        return self.dropout(x)

完整的Transformer

pip install torch torchvision torchaudio
pip install numpy

import torch
import torch.nn as nn
import torch.nn.functional as F

# 参数配置类
class Args:
    # 初始化参数类
    def __init__(self):
        # 词汇表大小
        self.vocab_size = 10000
        # 块大小
        self.block_size = 512
        # 嵌入维度
        self.n_embd = 768
        # dropout率
        self.dropout = 0.1
        # 层数
        self.n_layer = 6

# 辅助类定义
class PositionalEncoding(nn.Module):
    def __init__(self, args):
        super().__init__()
        # 初始化dropout层
        self.dropout = nn.Dropout(args.dropout)
        
    def forward(self, x):
        # 简化实现
        # 返回dropout后的输入
        return self.dropout(x)

class Encoder(nn.Module):
    # 定义一个编码器类，继承自nn.Module
    def __init__(self, args):
        # 初始化函数，接收一个参数args
        super().__init__()
        # 调用父类的初始化函数
        self.layers = nn.ModuleList([nn.Linear(args.n_embd, args.n_embd) for _ in range(args.n_layer)])
        
        # 创建一个ModuleList，其中包含n_layer个全连接层，输入和输出的维度都是args.n_embd
    def forward(self, x):
        # 定义前向传播函数，接收一个参数x
        for layer in self.layers:
            # 遍历layers中的每个层
            x = layer(x)
            # 将x传入当前层，得到新的x
        return x

class Decoder(nn.Module):
    # 定义解码器类，继承自nn.Module
    def __init__(self, args):
        # 初始化函数，接收参数args
        super().__init__()
        # 调用父类的初始化函数
        self.layers = nn.ModuleList([nn.Linear(args.n_embd, args.n_embd) for _ in range(args.n_layer)])
        
        # 定义一个nn.ModuleList，其中包含n_layer个nn.Linear层，每个层的输入和输出维度都是args.n_embd
    def forward(self, x, enc_out):
        # 定义前向传播函数，接收输入x和编码器输出enc_out
        for layer in self.layers:
            # 遍历layers中的每个层
            x = layer(x)
            # 将输入x通过当前层进行处理，得到新的输出x
        return x

# Transformer 模型
class Transformer(nn.Module):
    def __init__(self, args):
        super().__init__()
        # 检查参数是否为空
        assert args.vocab_size is not None
        assert args.block_size is not None
        self.args = args
        # 定义transformer模块
        self.transformer = nn.ModuleDict(dict(
            wte = nn.Embedding(args.vocab_size, args.n_embd),
            wpe = PositionalEncoding(args),
            drop = nn.Dropout(args.dropout),
            encoder = Encoder(args),
            decoder = Decoder(args),
        ))
        # 定义语言模型头
        self.lm_head = nn.Linear(args.n_embd, args.vocab_size, bias=False)
        # 初始化权重
        self.apply(self._init_weights)
        # 打印参数数量
        print("number of parameters: %.2fM" % (self.get_num_params()/1e6,))

    def get_num_params(self, non_embedding=False):
        # 计算参数数量
        n_params = sum(p.numel() for p in self.parameters())
        if non_embedding:
            # 如果不计算embedding参数，则减去embedding参数的数量
            n_params -= self.transformer.wpe.weight.numel()
        return n_params

    def _init_weights(self, module):
        # 初始化权重
        if isinstance(module, nn.Linear):
            torch.nn.init.normal_(module.weight, mean=0.0, std=0.02)
            if module.bias is not None:
                torch.nn.init.zeros_(module.bias)
        elif isinstance(module, nn.Embedding):
            torch.nn.init.normal_(module.weight, mean=0.0, std=0.02)
    
    def forward(self, idx, targets=None):
        # 前向传播
        device = idx.device
        b, t = idx.size()
        # 检查序列长度是否超过最大长度
        assert t <= self.args.block_size, f"不能计算该序列，该序列长度为 {t}, 最大序列长度只有 {self.args.block_size}"

        # 计算token嵌入
        tok_emb = self.transformer.wte(idx)
        # 计算位置嵌入
        pos_emb = self.transformer.wpe(tok_emb) 
        # 添加dropout
        x = self.transformer.drop(pos_emb)
        # 计算编码器输出
        enc_out = self.transformer.encoder(x)
        # 计算解码器输出
        x = self.transformer.decoder(x, enc_out)

        # 如果有目标，计算损失
        if targets is not None:
            # 计算logits
            logits = self.lm_head(x)
            # 计算损失
            loss = F.cross_entropy(logits.view(-1, logits.size(-1)), targets.view(-1), ignore_index=-1)
        else:
            # 如果没有目标，计算logits
            logits = self.lm_head(x[:, [-1], :])
            # 没有损失
            loss = None

        # 返回logits和损失
        return logits, loss

# 测试运行
if __name__ == "__main__":
    args = Args()
    model = Transformer(args)
    
    # 创建测试输入
    input_ids = torch.randint(0, args.vocab_size, (2, args.block_size))
    targets = torch.randint(0, args.vocab_size, (2, args.block_size))
    
    # 前向传播
    logits, loss = model(input_ids, targets)
    print("Logits shape:", logits.shape)
    print("Loss:", loss)

注意，上述代码除去搭建了整个 Transformer 结构外，我们还额外实现了三个函数：

get_num_params：用于统计模型的参数量
_init_weights：用于对模型所有参数进行随机初始化
forward：前向计算函数

关于Happy-llm 的部分问答

1. Transformer 的核心思想是什么？它主要解决了什么问题？

答案：
Transformer 的核心思想是利用自注意力（Self-Attention）机制来捕捉序列中任意位置的依赖关系，摆脱了 RNN 的顺序计算限制。这样可以并行处理序列数据，大幅提升训练效率，并且在长距离依赖建模上表现更好。

2. Transformer 的结构主要包括哪些部分？每个部分的作用是什么？

答案：
Transformer 主要由编码器（Encoder）和解码器（Decoder）组成。编码器负责将输入序列编码为隐藏表示，解码器则根据编码器的输出生成目标序列。每个编码器和解码器都由多层堆叠，每层包含多头自注意力机制（Multi-Head Self-Attention）和前馈神经网络（Feed Forward Network），并配有残差连接和层归一化。

什么是梯度消失、爆炸

梯度消失：在深层网络中，靠近输入层的权重由于梯度接近于0而难以得到有效的更新，是使得网络无法学习到有用的特征表示，尤其是那些自然语言处理（有上下文，长距离任务）
梯度爆炸：指相反的情况，即梯度变得异常大，导致权重更新幅度巨大，使得网络不稳定，甚至可能导致数值溢出错误。训练过程不稳定，网络性能下降。

3. 什么是多头自注意力机制？它为什么重要？

答案： 注意力机制在一段序列中，很难拟合全部的相关关系，所以有了多头注意力机制，即对同一个语料进行多次注意力的计算，每次注意力计算都能拟合不同的关系，将最后的多次结果拼接起来作为最后的输出，即可更全面深入地拟合语言信息。

事实上，所谓的多头注意力机制其实就是将原始的输入序列进行多组的自注意力处理；然后再将每一组得到的自注意力结果拼接起来，再通过一个线性层进行处理。这样可以捕捉到丰富的表达能力和不同层次的特征。

4. 为什么 Transformer 要加入位置编码？常见的位置编码方式有哪些？

答案：
由于 Transformer 完全基于注意力机制，没有内建序列顺序信息，因此需要加入位置编码（Positional Encoding）来提供序列中每个位置的信息。常见方式有正弦-余弦位置编码（Sinusoidal Positional Encoding）和可学习的位置编码（Learnable Positional Encoding）。

多头注意力允许模型从不同的角度理解和处理输入数据。每个头可以专注于不同类型的关系或特征，从而提供更丰富和多样化的信息表示。
由于不同头可以关注序列中的不同部分，因此它们能够更好地捕捉长距离依赖以及复杂的语法和语义结构。
模型能够更精确地捕捉细微的区别和关联。
看起来计算量很多，但每个的注意力计算都是独立的，充分利用了GPU的并行能力

5. 请简述 Transformer 在自然语言处理中的优势和局限。

答案：
优势：

并行计算高效，适合大规模数据训练
长距离依赖建模能力强
在多种 NLP 任务（如翻译、文本生成）中表现优异

局限：

对于超长文本，计算和内存消耗大
需要大量数据和算力支持

6. 你如何理解残差连接和层归一化在 Transformer 中的作用？

答案： 随着神经网络层数的增加，传统的深层网络面临两个主要问题：梯度消失/爆炸和退化问题。这些问题限制了模型的深度和性能。

对于非常深的网络，如果每层的梯度都非常小或非常大，那么经过多层后，梯度可能会变得极小（梯度消失）或极大（梯度爆炸），从而导致训练不稳定甚至无法收敛。

即使解决了梯度消失/爆炸的问题，更深的网络并不总是表现得更好。在某些情况下，更深的网络可能比浅层网络表现更差。这是因为深层网络难以优化，即使有足够的训练时间，网络也可能陷入较差的局部最优解。

残差连接，即下一层的输入不仅是上一层的输出，还包括上一层的输入。

残差连接的出现，很有效的保持了梯度的稳定性和强度，从而支持更深的网络训练 。

7. 你能用自己的话描述自注意力机制是如何工作的么？

答案参考： 注意力有三个核心变量：Query（查询值）、Key（键值）和 Value（真值），

假设有如下简化的新闻报道：“开营会议马上召开，时间为2025年6月9日。”

Query可能是“时间在哪里？”
Keys将是每个词（”开营“，“会议”，“马上”，“召开”，“时间”，“为”，“2025年”，“6月”，“9日”）的向量表示。
Values也是这些词的向量表示。

然后我们通过一个Softmax层将其转化为和为1的权重 $\text{softmax}(x)*i = \frac{e^{xi}}{\sum*{j}e^{x_j}}$

这样，得到的向量就能够反映 Query 和每一个 Key 的相似程度，同时又相加权重为 1，也就是我们的注意力分数了。

对于这个Q矩阵，比如句子“I love NLP”有3个词，就会有3个Query，分别对应每个词的向量。我们可以把这些Query堆叠成一个矩阵 Q，一次性计算所有Query对应的注意力结果。这样就

不需要一个一个地单独计算每个Query，节省大量时间。

充分利用GPU的并行计算能力。

并且！模型可以关注到整个句子的各个词的相关性，对于长难句或者长距离依赖的处理更加好。

对于每个查询，计算它与所有Key之间的相似度。这可以通过矩阵乘法实现，其结果是一个矩阵，其中每个元素表示对应Query和Key之间的相似度。
权重转换：同样地，我们需要使用Softmax函数将这些相似度转换为权重。这里的Softmax是对每个查询分别应用的，以确保每组权重加起来等于1。
加权求和：最后，我们利用这些权重对Values进行加权求和，得到针对每个查询的输出。这一步也是通过矩阵乘法完成的。

7.1 自注意力机制有什么好处呢，是如何实现这些“好处”呢

比如在语言处理场景下，你要把英文句子 “The cat is on the mat.” 翻译成中文，需要知道每个中文词应该“关注”英文句子中的哪个部分。比如，猫这个字就需要关注英文语句中的cat，垫子这个词就要关注mat。注意力机制就像让模型在处理一个目标词时，自动选择性关注源语言中最相关的部分。

提高了模型处理长距离依赖的关系
使得模型结构更加适合并行化处理，提高了训练效率

8.为什么我们要用矩阵形式的注意力？

优势1：并行化处理多个查询（Query）

在Transformer等模型中，输入是一个序列（比如一句话），每一个词都会成为一个Query。

例如，句子“I love NLP”有3个词，就会有3个Query，分别对应每个词的向量。我们可以把这些Query堆叠成一个矩阵 [QQQ]，一次性计算所有Query对应的注意力结果。

✅ 好处：

不需要一个一个地单独计算每个Query，节省大量时间。
充分利用GPU的并行计算能力。

优势2：捕捉全局依赖关系

传统的RNN只能按顺序处理信息，前面的词很难影响后面的词（特别是距离很远的时候）。而注意力机制允许每个Query同时看到所有的Key，也就是说：

每个词都可以直接“看到”整个句子中所有其他词的相关性。

✅ 好处：

更容易捕捉长距离依赖（比如句首和句尾之间的联系）。
对复杂语义结构理解更好。

⚡ 优势3：提升模型表达能力

通过不同的Query、Key、Value组合，注意力机制可以灵活地建模各种类型的关系：

Query 和 Key 相似 → 高注意力分数
Query 和 Key 不相关 → 低注意力分数

这使得模型可以根据上下文自动调整关注点，而不是固定地只看前几个词或者后几个词。

你可能感兴趣的:(transformer,深度学习,人工智能)

MotionLCM 部署优化踩坑解决bug AI算法网奇 aigc与数字人深度学习宝典文生motion
目录依赖项windowstorchok：渲染黑白图问题解决：humanml3d：sentence-t5-large下载数据：报错：Nomodulenamed'sentence_transformers'继续报错：fromtransformers.integrationsimportCodeCarbonCallback解决方法：推理相关转mesh：module‘matplotlib.cm‘hasno
为了在未来的人工智能世界中取得成功，学生们必须学习人类写作的优点睿邸管家
澳大利亚各地的学生在新学年开始使用铅笔、钢笔和键盘学习写字。在工作场所，机器也在学习写作，如此有效，几年之内，它们可能会写得比人类更好。有时它们已经做到了，就像Grammarly这样的应用程序所展示的那样。当然，人类现在的日常写作可能很快就会由具有人工智能(AI)的机器来完成。手机和电子邮件软件常用的预测文本是无数人每天都在使用的一种人工智能写作形式。据AI行业研究机构称，到2022年，人工智能及
人工智能应用研究快讯 2021-11-30 峰谷皆平
[HTML]ArtificialIntelligenceforSkinCancerDetection:ScopingReviewATakiddin,JSchneider,YYang,AAbd-Alrazaq...JournalofMedicalInternet...,2021ABSTACT:Background:Skincanceristhemostcommoncancertypeaffectin
从振动信号到精准预警：AI 如何重塑工业设备健康管理？缘华工业智维人工智能计算机视觉边缘计算信息与通信
在智能制造浪潮席卷全球的当下，工业生产正经历着从传统模式向智能化、数字化转型的深刻变革。在这场变革中，AI驱动的振动分析技术犹如一颗璀璨新星，成为工业设备可靠运行的“健康卫士”。它通过在设备关键部位部署振动传感器，如同医生为患者听诊般实时采集设备运行时的振动信号，再借助强大的人工智能算法对这些“工业脉搏”进行深度解析，从而实现对工业设备从故障预警到寿命预测的全周期精准守护。一、AI振动分析：设备状
AI 生成虚拟宠物：24 小时陪你聊天解闷大力出奇迹985 人工智能宠物
本文围绕AI生成虚拟宠物展开，介绍这类依托人工智能技术诞生的虚拟伙伴，能实现24小时不间断陪伴聊天，为人们解闷。文中详细阐述其技术基础，包括自然语言处理、机器学习等；分析多样功能，如个性化互动、情绪回应等；探讨在独居人群、压力大者等不同群体中的应用场景，最后总结其为人们生活带来的积极影响及未来发展潜力，展现AI虚拟宠物在陪伴领域的独特价值。一、AI生成虚拟宠物的诞生背景与技术基石在快节奏的现代社会
GPT-4 在 AIGC 中的微调技巧：让模型更懂你的需求 AIGC应用创新大全 AI人工智能与大数据应用开发 MCP&Agent 云算力网络 AIGC ai
GPT-4在AIGC中的微调技巧：让模型更懂你的需求关键词：GPT-4、AIGC、模型微调、监督学习、指令优化、过拟合预防、个性化生成摘要：AIGC（人工智能生成内容）正在重塑内容创作行业，但通用的GPT-4模型可能无法精准匹配你的垂直需求——比如写电商爆款文案时总“跑题”，或生成技术文档时专业术语不够。本文将用“教小朋友学画画”的通俗类比，从微调的底层逻辑讲到实战技巧，带你掌握让GPT-4“更懂
AIGC内容生成实战：如何用ChatGPT+DALL·E打造高转化内容 AI大模型应用工坊 AI大模型开发实战 AIGC chatgpt ai
AIGC内容生成实战：如何用ChatGPT+DALL·E打造高转化内容关键词：AIGC、ChatGPT、DALL·E、内容生成、高转化营销、多模态协同、提示词工程摘要：随着AIGC（人工智能生成内容）技术的爆发式发展，ChatGPT（文本生成）与DALL·E（图像生成）的组合已成为内容创作领域的“黄金搭档”。本文将深度解析二者的协同原理，结合实战案例演示从需求分析到内容落地的全流程，并揭示提升内容
数据分析领域中AI人工智能的发展前景展望 AI大模型应用工坊 AI大模型开发实战数据分析人工智能数据挖掘 ai
数据分析领域中AI人工智能的发展前景展望关键词：数据分析、人工智能、机器学习、深度学习、数据挖掘、预测分析、自动化摘要：本文深入探讨了人工智能在数据分析领域的发展现状和未来趋势。我们将从核心技术原理出发，分析AI如何改变传统数据分析范式，详细讲解机器学习算法在数据分析中的应用，并通过实际案例展示AI驱动的数据分析解决方案。文章还将探讨行业应用场景、工具生态以及未来发展面临的挑战和机遇，为数据分析师
AI人工智能中的数据挖掘：提升智能决策能力
AI人工智能中的数据挖掘：提升智能决策能力关键词：数据挖掘、人工智能、机器学习、智能决策、数据分析、特征工程、模型优化摘要：本文深入探讨了数据挖掘在人工智能领域中的核心作用，重点分析了如何通过数据挖掘技术提升智能决策能力。文章从基础概念出发，详细介绍了数据挖掘的关键算法、数学模型和实际应用场景，并通过Python代码示例展示了数据挖掘的全流程。最后，文章展望了数据挖掘技术的未来发展趋势和面临的挑战
【三桥君】MCP中台，究竟如何实现多模型、多渠道、多环境的统一管控？如何以MCP为核心设计AI应用架构？三桥君《三桥君 MCP落地方法论》《三桥君 AI大模型落地方法论》#《三桥君 AI产品方法论》人工智能 AI产品经理 MCP API 三桥君系统架构 llama
你好，我是✨三桥君✨本文介绍>>一、引言随着人工智能技术的快速发展，越来越多的企业开始引入大语言模型（LLM）以提升用户体验和运营效率。然而，如何高效、稳定地将这些AI能力落地到生产环境呢？传统的系统架构往往难以应对AI应用的高并发、低延迟和灵活扩展需求，因此，从整体架构角度设计AI应用架构显得尤为重要。本文三桥君将深入探讨以MCP为核心的AI应用架构，并分析多种部署方式的优劣势，为企业在AI落地
深入理解卷积神经网络（CNN）与循环神经网络（RNN） CodeJourney. cnn rnn 人工智能
在当今的人工智能领域，神经网络无疑是最为璀璨的明珠之一。而卷积神经网络（ConvolutionalNeuralNetworks，CNN）和循环神经网络（RecurrentNeuralNetworks，RNN）作为神经网络家族中的重要成员，各自有着独特的架构和强大的功能，广泛应用于众多领域。本文将深入探讨这两种神经网络的原理、特点以及应用场景，为对深度学习感兴趣的读者提供全面的知识讲解。一、卷积神经
今年校招竞争真激烈 12_05
程序员满大街，都要找不到工作了。即使人工智能满大街，我也后悔当初没学机器学习，后悔当初没学Java。C++真难找工作。难道毕了业就失业吗？好担心！
时序预测 | MATLAB实现贝叶斯优化CNN-GRU时间序列预测(股票价格预测) Matlab机器学习之心 matlab cnn gru
✅作者简介：热爱数据处理、数学建模、仿真设计、论文复现、算法创新的Matlab仿真开发者。更多Matlab代码及仿真咨询内容点击主页：Matlab科研工作室个人信条：格物致知，期刊达人。内容介绍股票价格预测一直是金融领域一个极具挑战性的课题。其内在的非线性、随机性和复杂性使得传统的预测方法难以取得令人满意的效果。近年来，深度学习技术，特别是卷积神经网络(CNN)和门控循环单元(GRU)的结合，为时
时序预测 | MATLAB实现BO-CNN-GRU贝叶斯优化卷积门控循环单元时间序列预测 Matlab算法改进和仿真定制工程师 matlab cnn gru
✅作者简介：热爱数据处理、数学建模、算法创新的Matlab仿真开发者。更多Matlab代码及仿真咨询内容点击：Matlab科研工作室个人信条：格物致知。内容介绍时间序列预测在各个领域都具有重要的应用价值，例如金融市场预测、气象预报、交通流量预测等。准确地预测未来趋势对于决策制定至关重要。近年来，深度学习技术在时间序列预测领域取得了显著进展，其中卷积神经网络(CNN)和门控循环单元(GRU)由于其强
Python Gradio：实现交互式图像编辑 PythonAI编程架构实战家 Python编程之道 python 开发语言 ai
PythonGradio：实现交互式图像编辑关键词：Python,Gradio,交互式图像编辑,计算机视觉,深度学习,图像处理,Web应用摘要：本文将深入探讨如何使用Python的Gradio库构建交互式图像编辑应用。我们将从基础概念开始，逐步介绍Gradio的核心功能，并通过实际代码示例展示如何实现各种图像处理功能。文章将涵盖图像滤镜应用、对象检测、风格迁移等高级功能，同时提供完整的项目实战案例
如何运用深度学习打造高效AI人工智能系统 AI智能探索者 AI Agent 智能体开发实战人工智能深度学习 ai
如何运用深度学习打造高效AI人工智能系统关键词：深度学习、AI系统、神经网络、模型优化、实战开发摘要：本文将从深度学习的核心概念出发，结合生活实例和代码实战，系统讲解如何构建高效AI系统。我们会拆解数据准备、模型设计、训练优化、部署落地的全流程，揭秘“数据-模型-训练-推理”的协同机制，并通过具体案例演示从0到1开发AI系统的关键技巧，帮助开发者掌握打造高效AI系统的底层逻辑。背景介绍目的和范围在
非欧空间计算加速：图神经网络与微分几何计算的GPU优化（流形数据的内存布局优化策略）九章云极AladdinEdu 空间计算神经网络人工智能 gpu算力算法 java 开发语言
一、非欧空间计算的革命性意义与核心挑战在三维形状分析、社交网络建模、分子动力学模拟等领域，非欧几里得空间数据（流形数据）的处理正推动人工智能技术向更复杂的几何结构迈进。传统欧式空间优化方法在处理流形数据时面临根本性局限：黎曼度量导致距离计算失效、局部坐标系动态变化引发内存访问模式混乱、曲率变化影响并行计算效率。本文提出基于分块流形存储（BlockedManifoldStorage,BMS）与层次化
响应式编程实践：Spring Boot WebFlux构建高性能非阻塞服务 fanxbl957 Web spring boot 后端 java
博主介绍：Java、Python、js全栈开发“多面手”，精通多种编程语言和技术，痴迷于人工智能领域。秉持着对技术的热爱与执着，持续探索创新，愿在此分享交流和学习，与大家共进步。全栈开发环境搭建运行攻略：多语言一站式指南(环境搭建+运行+调试+发布+保姆级详解)感兴趣的可以先收藏起来，希望帮助更多的人响应式编程实践：SpringBootWebFlux构建高性能非阻塞服务一、引言在当今数字化时代，互
企业级RAG的数据方案选择 - 向量数据库、图数据库和知识图谱南七小僧 AI技术产品经理网站开发人工智能数据库知识图谱人工智能
如何为企业RAG选择合适的数据存储方式摘要:本文讨论了矢量数据库、图数据库和知识图谱在解决信息检索挑战方面的重要性，特别是针对企业规模的检索增强生成（RAG）。看看海外人工智能企业Writer是如何利用知识图谱增强企业级RAG。要点概要：矢量数据库高效存储数据，但缺乏上下文和关联信息。图数据库优先考虑数据点之间的关系，受益于关系结构。知识图谱在语义存储方面表现出色，由于其能够编码丰富的上下文信息，
【人工智能入门必看的最全Python编程实战（1）】 DFCED 人工智能 python 开发语言深度学习找工作就业
--------------------------------------------------------------------------------------------------------------------1.AIGC未来发展前景未完持续…1.1人工智能相关科研重要性拥有一篇人工智能科研论文及专利软著竞赛是保研考研留学深造以及找工作的关键门票！！！拥有一篇人工智能科研论文
基于深度学习的目标检测算法综述：从RCNN到YOLOv13，一文看懂十年演进！人工智能教程深度学习目标检测算法人工智能自动驾驶 YOLO 机器学习
一、引言：目标检测的十年巨变2012年AlexNet拉开深度学习序幕，2014年RCNN横空出世，目标检测从此进入“深度时代”。十年间，算法从两阶段到单阶段，从Anchor-base到Anchor-free，从CNN到Transformer，从2D到3D，从监督学习到自监督学习，迭代速度之快令人目不暇接。本文将系统梳理基于深度学习的目标检测算法，带你全面了解技术演进、核心思想、代表算法、工业落地与
Baumer工业相机堡盟工业相机如何通过YoloV8深度学习模型实现不同水果的检测识别（C#代码，UI界面版）
Baumer工业相机堡盟工业相机如何通过YoloV8深度学习模型实现不同水果的检测识别（C#代码，UI界面版））工业相机使用YoloV8模型实现不同水果的检测识别工业相机通过YoloV8模型实现不同水果的检测识别的技术背景在相机SDK中获取图像转换图像的代码分析工业相机图像转换Bitmap图像格式和Mat图像重要核心代码本地文件图像转换Bitmap图像格式和Mat图像重要核心代码Mat图像导入Yo
2025毫米波雷达技术白皮书：智能汽车与物联网的感知核心
随着人工智能、物联网（IoT）和智能汽车产业的迅猛发展，毫米波雷达技术正成为感知领域的核心驱动力。毫米波雷达凭借其高精度、全天候和强抗干扰能力，广泛应用于智能汽车的自动驾驶、物联网的环境感知以及工业自动化。2025年，毫米波雷达技术在性能、应用场景和市场规模上都达到了一个全新的高度。本白皮书将深入探讨毫米波雷达技术的核心优势、发展趋势及其在智能汽车与物联网中的应用前景，同时推荐各大品牌的领先产品方
从零开始构建深度学习环境：基于Pytorch、CUDA与cuDNN的虚拟环境搭建与实践（适合初学者）荣华富贵8 程序员的知识储备2 程序员的知识储备3 深度学习 pytorch 人工智能
摘要：深度学习正在引领人工智能技术的革新，而对于初学者来说，正确搭建深度学习环境是迈向AI研究与应用的第一步。本文将为读者提供一套详尽的教程，指导如何在本地环境中搭建Pytorch、CUDA与cuDNN，以及如何利用Anaconda和PyCharm进行高效开发。内容涵盖从环境配置、常见错误修正，到基础的深度学习模型构建及训练。我们旨在为深度学习零基础的入门者提供一个全面且易于理解的“保姆级”教程，
人工智能概念之九：深度学习概述
文章目录相关文章一、深度学习的定位：AI时代的基石技术1.1技术生态全景图1.2技术革命的催化剂二、深度学习的双面性：性能优势与技术挑战2.1技术优势全景扫描2.2技术挑战深度剖析三、技术演进时间轴：70年的厚积薄发四、主流框架生态对比五、未来演进方向相关文章人工智能概念之二：人工智能核心概念：网页链接一、深度学习的定位：AI时代的基石技术1.1技术生态全景图深度学习处于人工智能（AI）技术金字塔
H800核心技术突破与行业应用实战智能计算研究中心其他
内容概要在人工智能技术持续迭代的背景下，H800芯片凭借自主架构优化与算力跃升，成为推动行业场景化落地的关键驱动力。本文将从技术路径、性能突破与行业应用三个维度，系统解析H800如何在高并发计算与低延时响应领域实现底层架构创新。首先聚焦其自主架构优化的核心技术路径，包括动态资源调度算法与异构计算单元的深度协同设计，揭示其在能效比与计算密度上的突破逻辑；进一步结合算力跃升的具体表现，探讨该芯片如何通
智慧建筑：科技引领房地产与建筑业的未来 RedPhoenix45
最新接入DeepSeek-V3模型，点击下载最新版本InsCodeAIIDE智慧建筑：科技引领房地产与建筑业的未来随着科技的飞速发展，人工智能（AI）和智能化工具正以前所未有的速度改变着各行各业。在房地产与建筑领域，这种变革尤为显著。从建筑设计到施工管理，再到物业管理，智能化技术正在重塑行业的每一个环节。本文将探讨如何利用先进的智能化工具提升房地产与建筑行业的效率，并介绍一款革命性的开发工具——它
学苑教育杂志《学苑教育》杂志社学苑教育编辑部2025年第21期目录 QQ296078736 人工智能
专题研究推进“教-学-评”一体化，打造小学语文高效课堂刘月兰;4-6教育管理新高考制度下普通高中生涯教育课程设计的研究霍亚贞;马玲;7-9课堂教学核心素养下小学数学深度学习课堂的构建策略康贵景;10-12“双减”背景下初中英语教学的课堂模式高燕;13-15小学低年级数学说理课堂构建策略玉洁;16-18基于法治观念培育的道法课项目式教学策略许静;19-21“双师课堂”在初中语文写作教学中的实践孙巧玲
智慧施工：AI技术赋能建筑安全监测新纪元
开发AI智能应用，就下载InsCodeAIIDE，一键接入DeepSeek-R1满血版大模型！智慧施工：AI技术赋能建筑安全监测新纪元在现代建筑行业中，施工安全始终是核心关注点之一。随着科技的飞速发展，人工智能（AI）和大数据分析逐渐成为提升施工安全的重要工具。本文将探讨如何利用智能化软件和大模型API来构建高效的施工安全监测系统，并介绍一款强大的开发工具——InsCodeAIIDE的应用场景及其
智慧工地系统：建筑行业数字化变革的引领者青云智慧园区 java
在建筑行业积极迈向数字化转型的浪潮中，智慧工地系统凭借“数据驱动、智能管控、协同增效”的核心优势，深度融合物联网、大数据、人工智能等前沿技术，构建起覆盖工程项目全生命周期的精细化管理体系。以下将从系统架构、核心功能模块、应用价值以及未来展望等方面，全方位剖析智慧工地系统如何实现施工全过程的智能化、高效化管理。一、系统架构：打造一体化协同管理平台智慧工地系统采用先进的分层架构设计，以底层的数据采集层
对股票分析时要注意哪些主要因素？会飞的奇葩猪股票分析云掌股吧
　　众所周知，对散户投资者来说，股票技术分析是应战股市的核心武器，想学好股票的技术分析一定要知道哪些是重点学习的，其实非常简单，我们只要记住三个要素：成交量、价格趋势、振荡指标。一、成交量　　大盘的成交量状态。成交量大说明市场的获利机会较多，成交量小说明市场的获利机会较少。当沪市的成交量超过150亿时是强市市场状态，运用技术找综合买点较准；
【Scala十八】视图界定与上下文界定 bit1129 scala
Context Bound，上下文界定，是Scala为隐式参数引入的一种语法糖，使得隐式转换的编码更加简洁。隐式参数首先引入一个泛型函数max，用于取a和b的最大值 def max[T](a: T, b: T) = { if (a > b) a else b } 因为T是未知类型，只有运行时才会代入真正的类型，因此调用a >
C语言的分支——Object-C程序设计阅读有感 darkblue086 apple c 框架 cocoa
自从1972年贝尔实验室Dennis Ritchie开发了C语言，C语言已经有了很多版本和实现，从Borland到microsoft还是GNU、Apple都提供了不同时代的多种选择，我们知道C语言是基于Thompson开发的B语言的，Object-C是以SmallTalk-80为基础的。和C++不同的是，Object C并不是C的超集，因为有很多特性与C是不同的。 Object-C程序设计这本书
去除浏览器对表单值的记忆周凡杨 html 记忆 autocomplete form 浏览
&n
java的树形通讯录 g21121 java
最近用到企业通讯录，虽然以前也开发过，但是用的是jsf，拼成的树形，及其笨重和难维护。后来就想到直接生成json格式字符串，页面上也好展现。 // 首先取出每个部门的联系人 for (int i = 0; i < depList.size(); i++) { List<Contacts> list = getContactList(depList.get(i
Nginx安装部署 510888780 nginx linux
Nginx ("engine x") 是一个高性能的 HTTP 和反向代理服务器，也是一个 IMAP/POP3/SMTP 代理服务器。 Nginx 是由 Igor Sysoev 为俄罗斯访问量第二的 Rambler.ru 站点开发的，第一个公开版本0.1.0发布于2004年10月4日。其将源代码以类BSD许可证的形式发布，因它的稳定性、丰富的功能集、示例配置文件和低系统资源
java servelet异步处理请求墙头上一根草ｊａｖａ异步返回ｓｅｒｖｌｅｔ
servlet3.0以后支持异步处理请求，具体是使用AsyncContext ，包装httpservletRequest以及httpservletResponse具有异步的功能， final AsyncContext ac = request.startAsync(request, response); ac.s
我的spring学习笔记8-Spring中Bean的实例化 aijuans Spring 3
在Spring中要实例化一个Bean有几种方法： 1、最常用的（普通方法） <bean id="myBean" class="www.6e6.org.MyBean" /> 使用这样方法，按Spring就会使用Bean的默认构造方法，也就是把没有参数的构造方法来建立Bean实例。（有构造方法的下个文细说） 2、还
为Mysql创建最优的索引 annan211 mysql 索引
索引对于良好的性能非常关键，尤其是当数据规模越来越大的时候，索引的对性能的影响越发重要。索引经常会被误解甚至忽略，而且经常被糟糕的设计。索引优化应该是对查询性能优化最有效的手段了，索引能够轻易将查询性能提高几个数量级，最优的索引会比较好的索引性能要好2个数量级。 1 索引的类型 (1) B-Tree 不出意外，这里提到的索引都是指 B-
日期函数百合不是茶 oracle sql 日期函数查询
ORACLE日期时间函数大全 TO_DATE格式(以时间:2007-11-02 13:45:25为例) Year: yy two digits 两位年显示值:07 yyy three digits 三位年显示值:007
线程优先级 bijian1013 java thread 多线程 java多线程
多线程运行时需要定义线程运行的先后顺序。线程优先级是用数字表示，数字越大线程优先级越高，取值在1到10，默认优先级为5。实例： package com.bijian.study; /** * 因为在代码段当中把线程B的优先级设置高于线程A,所以运行结果先执行线程B的run()方法后再执行线程A的run()方法 * 但在实际中，JAVA的优先级不准，强烈不建议用此方法来控制执
适配器模式和代理模式的区别 bijian1013 java 设计模式
一.简介适配器模式：适配器模式（英语：adapter pattern）有时候也称包装样式或者包装。将一个类的接口转接成用户所期待的。一个适配使得因接口不兼容而不能在一起工作的类工作在一起，做法是将类别自己的接口包裹在一个已存在的类中。 &nbs
【持久化框架MyBatis3三】MyBatis3 SQL映射配置文件 bit1129 Mybatis3
SQL映射配置文件一方面类似于Hibernate的映射配置文件，通过定义实体与关系表的列之间的对应关系。另一方面使用<select>,<insert>,<delete>，<update>元素定义增删改查的SQL语句，这些元素包含三方面内容 1. 要执行的SQL语句 2. SQL语句的入参，比如查询条件 3. SQL语句的返回结果
oracle大数据表复制备份个人经验 bitcarter oracle 大表备份大表数据复制
前提：数据库仓库A（就拿oracle11g为例）中有两个用户user1和user2,现在有user1中有表ldm_table1,且表ldm_table1有数据5千万以上，ldm_table1中的数据是从其他库B（数据源）中抽取过来的，前期业务理解不够或者需求有变，数据有变动需要重新从B中抽取数据到A库表ldm_table1中。
HTTP加速器varnish安装小记 ronin47 http varnish 加速
上午共享的那个varnish安装手册，个人看了下，有点不知所云，好吧~看来还是先安装玩玩！苦逼公司服务器没法连外网，不能用什么wget或yum命令直接下载安装，每每看到别人博客贴出的在线安装代码时，总有一股羡慕嫉妒“恨”冒了出来。。。好吧，既然没法上外网，那只能麻烦点通过下载源码来编译安装了！ Varnish 3.0.4下载地址： http://repo.varnish-cache.org/
java-73-输入一个字符串，输出该字符串中对称的子字符串的最大长度 bylijinnan java
public class LongestSymmtricalLength { /* * Q75题目：输入一个字符串，输出该字符串中对称的子字符串的最大长度。 * 比如输入字符串“google”，由于该字符串里最长的对称子字符串是“goog”，因此输出4。 */ public static void main(String[] args) { Str
学习编程的一点感想 Cb123456 编程感想 Gis
写点感想，总结一些，也顺便激励一些自己.现在就是复习阶段，也做做项目. 本专业是GIS专业，当初觉得本专业太水，靠这个会活不下去的，所以就报了培训班。学习的时候，进入状态很慢，而且当初进去的时候，已经上到Java高级阶段了，所以.....，呵呵，之后有点感觉了，不过，还是不好好写代码，还眼高手低的，有
[能源与安全]美国与中国 comsci 能源
现在有一个局面：地球上的石油只剩下N桶，这些油只够让中国和美国这两个国家中的一个顺利过渡到宇宙时代，但是如果这两个国家为争夺这些石油而发生战争，其结果是两个国家都无法平稳过渡到宇宙时代。。。。而且在战争中，剩下的石油也会被快速消耗在战争中，结果是两败俱伤。。。在这个大
SEMI-JOIN执行计划突然变成HASH JOIN了的原因分析 cwqcwqmax9 oracle
甲说： A B两个表总数据量都很大，在百万以上。 idx1 idx2字段表示是索引字段 A B 两表上都有 col1字段表示普通字段 select xxx from A where A.idx1 between mmm and nnn and exists (select 1 from B where B.idx2 =
SpringMVC-ajax返回值乱码解决方案 dashuaifu Ajax springMVC response 中文乱码
SpringMVC-ajax返回值乱码解决方案一：（自己总结，测试过可行） ajax返回如果含有中文汉字，则使用：（如下例：） @RequestMapping(value="/xxx.do") public @ResponseBody void getPunishReasonB
Linux系统中查看日志的常用命令 dcj3sjt126com OS
因为在日常的工作中，出问题的时候查看日志是每个管理员的习惯，作为初学者，为了以后的需要，我今天将下面这些查看命令共享给各位 cat tail -f 日志文件说明 /var/log/message 系统启动后的信息和错误日志，是Red Hat Linux中最常用的日志之一 /var/log/secure 与安全相关的日志信息 /var/log/maillog 与邮件相关的日志信
[应用结构]应用 dcj3sjt126com PHP yii2
应用主体应用主体是管理 Yii 应用系统整体结构和生命周期的对象。每个Yii应用系统只能包含一个应用主体，应用主体在入口脚本中创建并能通过表达式 \Yii::$app 全局范围内访问。补充: 当我们说"一个应用"，它可能是一个应用主体对象，也可能是一个应用系统，是根据上下文来决定[译：中文为避免歧义，Application翻译为应
assertThat用法 eksliang JUnit assertThat
junit4.0 assertThat用法一般匹配符1、assertThat( testedNumber, allOf( greaterThan(8), lessThan(16) ) ); 注释： allOf匹配符表明如果接下来的所有条件必须都成立测试才通过，相当于“与”（&&） 2、assertThat( testedNumber, anyOf( g
android点滴2 gundumw100 应用服务器 android 网络应用 OS HTC
如何让Drawable绕着中心旋转？ Animation a = new RotateAnimation(0.0f, 360.0f, Animation.RELATIVE_TO_SELF, 0.5f, Animation.RELATIVE_TO_SELF,0.5f); a.setRepeatCount(-1); a.setDuration(1000); 如何控制Andro
超简洁的CSS下拉菜单 ini html Web 工作 html5 css
效果体验：http://hovertree.com/texiao/css/3.htmHTML文件： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"> <head> <title>简洁的HTML+CSS下拉菜单-HoverTree</title>
kafka consumer防止数据丢失 kane_xie kafka offset commit
kafka最初是被LinkedIn设计用来处理log的分布式消息系统，因此它的着眼点不在数据的安全性（log偶尔丢几条无所谓），换句话说kafka并不能完全保证数据不丢失。尽管kafka官网声称能够保证at-least-once，但如果consumer进程数小于partition_num，这个结论不一定成立。考虑这样一个case，partiton_num=2
@Repository、@Service、@Controller 和 @Component mhtbbx DAO spring bean prototype
@Repository、@Service、@Controller 和 @Component 将类标识为Bean Spring 自 2.0 版本开始，陆续引入了一些注解用于简化 Spring 的开发。@Repository注解便属于最先引入的一批，它用于将数据访问层 (DAO 层 ) 的类标识为 Spring Bean。具体只需将该注解标注在 DAO类上即可。同时，为了让 Spring 能够扫描类
java 多线程高并发读写控制误区 qifeifei java thread
先看一下下面的错误代码，对写加了synchronized控制，保证了写的安全，但是问题在哪里呢？ public class testTh7 { private String data; public String read(){ System.out.println(Thread.currentThread().getName() + "read data "
mongodb replica set(副本集)设置步骤 tcrct java mongodb
网上已经有一大堆的设置步骤的了，根据我遇到的问题，整理一下，如下：首先先去下载一个mongodb最新版，目前最新版应该是2.6 cd /usr/local/bin wget http://fastdl.mongodb.org/linux/mongodb-linux-x86_64-2.6.0.tgz tar -zxvf mongodb-linux-x86_64-2.6.0.t
rust学习笔记 wudixiaotie 学习笔记
1.rust里绑定变量是let，默认绑定了的变量是不可更改的，所以如果想让变量可变就要加上mut。 let x = 1; let mut y = 2; 2.match 相当于erlang中的case，但是case的每一项后都是分号，但是rust的match却是逗号。 3.match 的每一项最后都要加逗号，但是最后一项不加也不会报错，所有结尾加逗号的用法都是类似。 4.每个语句结尾都要加分