【Pytorch】CNN中的Attention

更大层面上的Attention

在attention中，怎么分区channel-wise还是spatial-wise

为了更好地理解 “wise”，可以将其看作是一种特定维度或方面的强调。例如：
“time-wise” 表示与时间相关的事物。
在这种用法中，“wise” 帮助明确我们正在讨论的是哪一个特定的维度或方面。因此，当我们谈论 “channel-wise” attention 时，我们的焦点是在于如何以通道为基础进行操作；当我们谈论 “spatial-wise” attention 时，我们的焦点是在于空间位置或区域。

在神经网络中，特别是在处理图像或视频数据时，Attention 机制可以以不同的方式集中于输入数据的不同部分。在这些方法中，“channel-wise” 和 “spatial-wise” attention 是两种常见的方式。下面解释这两种方式：

Channel-wise Attention

含义：在 “channel-wise” attention 中，“wise” 指的是关注操作是针对不同的通道进行的。在图像处理中，通道通常指的是颜色通道（如RGB中的红、绿、蓝），或者在深度学习模型中，通道可以是不同的特征表示。
例子：如果一个图像处理模型正在处理一个具有多个通道的特征图，“channel-wise” attention 将决定哪些通道更重要，可能会增强一些通道的特征而减弱其他通道的特征。

应用：这种类型的attention在处理那些不同通道具有不同语义信息的数据时特别有用。例如，在卷积神经网络中，不同的卷积层可能会学习到代表不同高级特征的通道（如边缘、纹理等）。

Spatial-wise Attention

含义：在 “spatial-wise” attention 中，“wise” 指的是关注操作是针对图像或特征图的不同空间区域进行的。这种方法关注于图像中的不同位置，而不是整个图像作为一个整体。
例子：在对象检测任务中，“spatial-wise” attention 可能会集中于图像中包含重要对象的区域，而忽略其他不相关的区域。

应用：这种类型的attention在图像识别或对象检测等任务中特别有用，因为它可以帮助模型集中于图像中最重要的部分，例如，一个对象可能只占据图像的一小部分。

如何选择

选择 channel-wise 还是 spatial-wise attention 取决于具体任务和数据的特点。在某些情况下，甚至可以将两者结合起来，以便同时利用通道和空间信息。例如，一些高级神经网络架构在其attention机制中同时考虑了通道和空间维度，从而提高了模型对图像的理解能力。

举一个Spatial-Channel Attention的例子

例子来自于《Cross-Modal Relation-Aware Networks for Audio-Visual Event Localization》中的AGSCA模块，图片和英文部分均为原文

Given audio features $\boldsymbol{a}_t \in \mathbb{R}^{d_a}$ and visual features $v_t \in \mathbb{R}^{d_v \times(H * W)}$ where $H$ and $W$ are the height and width of feature maps respectively, AGSCA first generates channel-wise attention maps $\boldsymbol{M}_t^c \in \mathbb{R}^{d_v \times 1}$ to adaptively emphasize informative features. It then produces spatial attention maps $\boldsymbol{M}_t^s \in \mathbb{R}^{1 \times(H * W)}$ for the channelattentive features to highlight sounding regions, yielding channelspatial attentive visual features $v_t^{c s}$ , as illustrated in Figure 3. The attention process can be summarized as, $\begin{aligned} & v_t^{c s}=\boldsymbol{M}_t^s \otimes\left(v_t^c\right)^T, \\ & v_t^c=\boldsymbol{M}_t^c \odot v_t, \end{aligned}$ where $\otimes$ denotes matrix multiplication, and $\odot$ means element-wise multiplication. We next separately introduce the channel-wise attention that generates attention maps $\boldsymbol{M}_t^c$ and spatial attention that produces attention maps $\boldsymbol{M}_t^s$ .

我们先来看如何得到channel-wise attention maps $\boldsymbol{M}_t^c$ :

Channel-Wise Attention. We explicitly model the dependencies between channels of features with the guidance of audio signals. Specifically, we first project audio and visual features to the same dimension $d_v$ using fully-connected layers with non-linearity, resulting in audio guidance maps $\boldsymbol{a}_t^m \in \mathbb{R}^{d_v}$ and projected visual features with dimensions of $d_v \times(H * W)$ . We then leverage the guidance information of $\boldsymbol{a}_t^m$ by fusing visual features with $\boldsymbol{a}_t^m$ via element-wise multiplication. Following [17], we spatially squeeze the fused features by global average pooling. Last, we forward the fused feature vector through two fully-connected layers with nonlinearity to model the relationships between channels, yielding channel attention maps $\boldsymbol{M}_t^c$ . We give the details as follows:
$\boldsymbol{M}_{\boldsymbol{t}}^{\boldsymbol{c}}=\sigma\left(\boldsymbol{W}_1 \boldsymbol{U}_1^c\left(\delta_a\left(\boldsymbol{U}_a^c \boldsymbol{a}_t \odot \boldsymbol{U}_v^c \boldsymbol{v}_t\right)\right)\right),$
where $\boldsymbol{U}_a^c \in \mathbb{R}^{d_v \times d_a}, \boldsymbol{U}_v^c \in \mathbb{R}^{d_v \times d_v}$ , and $\boldsymbol{U}_1^c \in \mathbb{R}^{d \times d_v}$ are fullyconnected layers with ReLU as an activation function, $\boldsymbol{W}_1 \in \mathbb{R}^{d_v \times d}$ are learnable parameters with $d = 256$ as a hidden dimension, $\delta_a$ indicates global average pooling, and $\sigma$ denotes the sigmoid function. We add a residual connection by adding one to each element of $\boldsymbol{M}_t^c$ to obtain the final channel attention maps.

代码如下：

        # ============================== Channel Attention ====================================
        audio_query_1 = self.relu(self.affine_audio_1(audio_feature)).unsqueeze(-2)
        video_query_1 = self.relu(self.affine_video_1(visual_feature)).reshape(batch*t_size, h*w, -1)
        audio_video_query_raw = (audio_query_1 * video_query_1).mean(-2)
        audio_video_query = self.relu(self.affine_bottleneck(audio_video_query_raw))
        channel_att_maps = self.affine_v_c_att(audio_video_query).sigmoid().reshape(batch, t_size, -1, v_dim)
        c_att_visual_feat = (raw_visual_feature * (channel_att_maps + 1))

就是说利用音频特征，和视觉特征中的特征图进行相乘，接着对空间特征做一个全局池化，每个通道得到一个值。最终得到 $\boldsymbol{M}_t^c \in \mathbb{R}^{d_v \times 1}$ ，代表着操作是针对不同的通道，给每个通道一个attention的分数。

接着是如何得到Spatial-wise attention maps $\boldsymbol{M}_t^s$ :

Spatial Attention. We also leverage the guidance capability of audio signals to guide visual spatial attention. Spatial attention follows a similar pattern to the aforementioned channel-wise attention. Note that the input visual features $v_t^c$ are channel attentive. We formulate the process of spatial attention as follows:
$\begin{gathered} \boldsymbol{M}_t^s=\operatorname{Softmax}\left(x_t^s\right), \\ x_t^s=\delta\left(\boldsymbol{W}_2\left(\left(\boldsymbol{U}_a^s \boldsymbol{a}_t\right) \odot\left(\boldsymbol{U}_v^s v_t^c\right)\right)\right), \end{gathered}$
where $\boldsymbol{U}_a^s \in \mathbb{R}^{d \times d_a}, \boldsymbol{U}_v^s \in \mathbb{R}^{d \times d_v}$ are fully-connected layers with ReLU as an activation function, $\boldsymbol{W}_2 \in \mathbb{R}^{1 \times d}$ are learnable parameters with $d = 256$ as a hidden dimension, and $\delta$ denotes the hyperbolic tangent function. With the spatial attention maps $\boldsymbol{M}_t^s$ at hand, we perform weighted summation over $v_t^c$ according to $\boldsymbol{M}_t^s$ to highlight informative regions and shrink spatial dimensions, yielding a channel-spatial attentive visual feature vector $v_t^{c s} \in \mathbb{R}^{d_v}$ as output.

代码如下：

        # ============================== Spatial Attention =====================================
        # channel attended visual feature: [batch * 10, 49, v_dim]
        c_att_visual_feat = c_att_visual_feat.reshape(batch*t_size, -1, v_dim)
        c_att_visual_query = self.relu(self.affine_video_2(c_att_visual_feat))
        audio_query_2 = self.relu(self.affine_audio_2(audio_feature)).unsqueeze(-2)
        audio_video_query_2 = c_att_visual_query * audio_query_2
        spatial_att_maps = self.softmax(self.tanh(self.affine_v_s_att(audio_video_query_2)).transpose(2, 1))
        c_s_att_visual_feat = torch.bmm(spatial_att_maps, c_att_visual_feat).squeeze().reshape(batch, t_size, v_dim)

就是说利用音频特征，和视觉特征中的特征图进行相乘，接着对空间特征不做全局池化了，而是做一个softmax，这样遍得到了空间特征的特征图，最终将通道变为1，得到 $\boldsymbol{M}_t^s \in \mathbb{R}^{1 \times(H * W)}$ ，代表着操作是针对不同的空间，给特征图中每个pixel一个attention的分数，然后每个pixel都乘以这个分数。

使用广泛的Dot-product Attention

第一节介绍了attention的一些理解，事实上，给特征不同的关注度，即通过自己设计的方法，算出attention map再乘到或者作用到特征上，是更早期的attention。目前大家更多的在使用的是dot-product attention.

attention机制中的query,key,value的概念解释

这篇文章给出很好的解释：attention机制中的query,key,value的概念解释，以下直接引用原文

Attention的一个例子

在注意力机制的公式 $\operatorname{Attention}(Q, K, V) = \operatorname{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)$ 中，输出维度之所以是 $\times d_v$ ，与注意力机制如何操作有关。这里， $Q$ 、 $K$ 、 $V$ 分别代表查询（Query）、键（Key）和值（Value），其中 $n$ 是查询的数量， $m$ 是键和值的数量， $d_k$ 是键和查询的维度，而 $d_v$ 是值的维度。

为什么第一维度是 $n$
第一维度 $n$ 代表查询的数量。在注意力机制中，每一个查询向量都会独立地与所有键向量进行匹配，计算出一个注意力分布。这个注意力分布然后用来加权对应的值向量，生成一个加权的值向量。因此，每一个查询都会产生一个输出，这就是为什么输出的第一维度是查询的数量 $n$ 。

为什么第二维度是 $d_v$
第二维度 $d_v$ 代表值向量的维度。注意力机制的输出是值向量的加权和，因此输出的每个元素都处在值向量所在的空间，即具有相同的维度 $d_v$ 。这表示，尽管注意力分数是基于查询和键的相似度计算的，但最终的输出是对值的加权，反映了值向量的维度而不是查询或键的维度。

物理意义
输出维度的物理意义在于，每个查询都会得到一个对应的输出向量，这个输出向量是基于与该查询相关的所有键的信息加权的值向量。这意味着每个输出向量都是一个上下文化的表示，它综合了所有与该查询相关的值的信息。这使得模型能够根据查询的不同，动态地调整对不同信息的关注程度，从而实现对信息的有效提取和利用。

注意力机制的目的
因此，注意力机制的设计确保了输出不仅仅是简单地复制值向量，而是根据查询和键之间的关系动态生成的上下文化的表示。这种机制使得模型能够在处理复杂的序列或者执行序列到序列的任务时，有效地捕捉和利用输入数据中的复杂关系和模式。

当Q，K，V都是相同内容时，代表着对自己全局特性的信息提取，称为self-attention

以《Cross-Modal Relation-Aware Networks for Audio-Visual Event Localization》中的cross-modality
relation attention mechanism (CMRA) 模块为例，其目的是利用attention，提高视频和音频处理系统中视觉特征和音频特征之间的相互理解和关联性，以在不同模态（如视觉和音频）之间及其内部探索和利用丰富的关系信息。

        # audio query
        video_key_value_feature = self.video_encoder(visual_feature)
        audio_query_output = self.audio_decoder(audio_feature, video_key_value_feature)  # audio作为查询，输出的还是audio中感兴趣的特征

        # video query
        audio_key_value_feature = self.audio_encoder(audio_feature)
        video_query_output = self.video_decoder(visual_feature, audio_key_value_feature)

其中的一个EncoderLayer实现如下：

class EncoderLayer(Module):
    r"""EncoderLayer is mainly made up of self-attention.

    Args:
        d_model: the number of expected features in the input (required).
        nhead: the number of heads in the multiheadattention models (required).
        dim_feedforward: the dimension of the feedforward network model (default=2048).
        dropout: the dropout value (default=0.1).
        activation: the activation function of intermediate layer, relu or gelu (default=relu).

    """

    def __init__(self, d_model, nhead, dim_feedforward=2048, dropout=0.1, activation="relu"):
        super(EncoderLayer, self).__init__()
        self.self_attn = MultiheadAttention(d_model, nhead, dropout=dropout)
        # Implementation of Feedforward model
        self.linear1 = Linear(d_model, dim_feedforward)
        self.dropout = Dropout(dropout)
        self.linear2 = Linear(dim_feedforward, d_model)

        self.norm1 = LayerNorm(d_model)
        self.norm2 = LayerNorm(d_model)
        self.dropout1 = Dropout(dropout)
        self.dropout2 = Dropout(dropout)

        self.activation = _get_activation_fn(activation)

    def forward(self, src):
        r"""Pass the input through the endocder layer.
        """
        src2 = self.self_attn(src, src, src)[0]
        src = src + self.dropout1(src2)
        src = self.norm1(src)
        if hasattr(self, "activation"):
            src2 = self.linear2(self.dropout(self.activation(self.linear1(src))))
        else:  # for backward compatibility
            src2 = self.linear2(self.dropout(F.relu(self.linear1(src))))
        src = src + self.dropout2(src2)
        src = self.norm2(src)
        return src

【Python】一文详细介绍 py格式文件高斯小哥 Python基础【高质量合集】python 新手入门学习
【Python】一文详细介绍py格式文件个人主页：高斯小哥高质量专栏：Matplotlib之旅：零基础精通数据可视化、Python基础【高质量合集】、PyTorch零基础入门教程希望得到您的订阅和支持~创作高质量博文(平均质量分92+)，分享更多关于深度学习、PyTorch、Python领域的优质内容！（希望得到您的关注~）文章目录一、py格式文件简介二、如何创建和编辑py格式文件三、如何运行py
【Python】成功解决ModuleNotFoundError: No module named ‘torchinfo‘ 高斯小哥 BUG解决方案合集 python pytorch 新手入门学习 debug
【Python】成功解决ModuleNotFoundError:Nomodulenamed‘torchinfo’个人主页：高斯小哥高质量专栏：Matplotlib之旅：零基础精通数据可视化、Python基础【高质量合集】、PyTorch零基础入门教程希望得到您的订阅和支持~创作高质量博文(平均质量分92+)，分享更多关于深度学习、PyTorch、Python领域的优质内容！（希望得到您的关注~）文
【循环神经网络rnn】一篇文章讲透 CX330的烟花 rnn 人工智能深度学习算法 python 机器学习数据结构
目录引言二、RNN的基本原理代码事例三、RNN的优化方法1长短期记忆网络（LSTM）2门控循环单元（GRU）四、更多优化方法1选择合适的RNN结构2使用并行化技术3优化超参数4使用梯度裁剪5使用混合精度训练6利用分布式训练7使用预训练模型五、RNN的应用场景1自然语言处理2语音识别3时间序列预测六、RNN的未来发展七、结论引言众所周知，CNN与循环神经网络（RNN）或生成对抗网络（GAN）等算法结
SWIFT环境配置及大模型微调实践 weixin_43870390 swift 开发语言 ios
SWIFT环境配置及大模型微调实践SWIFT环境配置基础配置增量配置SWIFTQwen_audio_chat大模型微调实践问题1:问题2:问题定位解决方法手动安装pytorchSWIFT介绍参考：这里SWIFT环境配置基础配置condacreate-nswiftpython=3.8pipinstallms-swift[all]-U#下载项目gitclonehttps://github.com/mo
Win环境下安装 torch==1.1.0 JOYCE_Leo16 Bug记录深度学习 python 人工智能 pytorch
问题描述复现很多模型的时候，会遇到torch版本不一致问题，尤其是torch1.1.0一直都在安装错误，试了很多方法都没用。解决方案在默认环境中安装torch：pipinstallhttps://download.pytorch.org/whl/cu90/torch-1.1.0-cp36-cp36m-win_amd64.whlpipinstallhttps://download.pytorch.o
最新ChatGPT支持下的PyTorch机器学习与深度学习 zkzhzy ChatGPT 机器学习 python 机器学习深度学习 pytorch chatgpt 数据分析人工智能
近年来，随着AlphaGo、无人驾驶汽车、医学影像智慧辅助诊疗、ImageNet竞赛等热点事件的发生，人工智能迎来了新一轮的发展浪潮。尤其是深度学习技术，在许多行业都取得了颠覆性的成果。另外，近年来，Pytorch深度学习框架受到越来越多科研人员的关注和喜爱。郁磊（副教授）主要从事AI人工智能、大语言模型及软件开发、生理系统建模与仿真、生物医学信号处理，具有丰富的科研经验，主编《MATLAB智能算
线性代数在卷积神经网络（CNN）中的体现科学的N次方人工智能线性代数 cnn 人工智能
案例：深度学习中的卷积神经网络（CNN）在图像识别领域，卷积神经网络（ConvolutionalNeuralNetworks,CNN）是一个广泛应用深度学习模型，它在人脸识别、物体识别、医学图像分析等方面取得了显著成效。CNN中的核心操作——卷积，就是一个直接体现线性代数应用的例子。假设我们正在训练一个用于识别猫和狗的图像分类器，原始输入是一幅RGB彩色图片，可以将其视为一个高度、宽度和通道数（R
【PyTorch】成功解决ModuleNotFoundError: No module named ‘torch’ 高斯小哥 PyTorch零基础入门教程 pytorch 人工智能 python conda debug 深度学习机器学习
【PyTorch】成功解决ModuleNotFoundError:Nomodulenamed‘torch’个人主页：高斯小哥高质量专栏：Matplotlib之旅：零基础精通数据可视化、Python基础【高质量合集】、PyTorch零基础入门教程希望得到您的订阅和支持~创作高质量博文(平均质量分92+)，分享更多关于深度学习、PyTorch、Python领域的优质内容！（希望得到您的关注~）文章目录
今日无更新我的昵称违规了
学校的一个会忙得昏天黑地。明天有自己的一个发表，还要准备PPT，根据原来的改改就好……这周真的是有点繁杂了，搞定之后连着四五月份要写两篇论文，再加上五月底的课程论文还有紧接着的文献综述，看样子要疯……现在梳理一下自己手里的锤子：转到Pytorch，使用AllenNLP了解Transformer、了解LSTM了解jieba等分词工具了解Gensim等NLP处理工具接下来要做的：基于AllenNLP搞
PyTorch学习笔记之基础函数篇（四）熊猫Devin 深度学习之PyTorch pytorch 学习笔记
文章目录2.8torch.logspace函数讲解2.9torch.ones函数2.10torch.rand函数2.11torch.randn函数2.12torch.zeros函数2.8torch.logspace函数讲解torch.logspace函数在PyTorch中用于生成一个在对数尺度上均匀分布的张量（tensor）。这意味着张量中的元素是按照对数间隔排列的，而不是线性间隔。这对于创建在数
加速 PyTorch 模型预测常见方法梳理 samoyan pytorch pytorch 人工智能 python
目录1.使用GPU加速2.批量推理3.使用半精度浮点数(FP16)4.禁用梯度计算5.模型简化与量化6.使用TorchScript7.模型并行和数据并行结论在使用PyTorch进行模型预测时，可以通过多种方法来加快推理速度。以下是一些加速模型预测的常用方法，但注意有些模型直接使用下面方法会出错，大家谨慎使用：1.使用GPU加速如果您有可用的GPU资源，确保您的模型在GPU上运行，因为GPU提供了比
机器学习常用框架碧落&凡尘机器学习人工智能
机器学习是人工智能的一个重要分支，它通过让计算机系统利用数据自我学习来改进任务执行的能力。在机器学习领域，有许多成熟的框架被广泛使用，这些框架提供了构建和训练机器学习模型的工具。以下是一些常用的机器学习框架：TensorFlow：由Google开发，是一个开源的软件库，用于数据流编程，广泛应用于各类机器学习任务。它支持分布式计算，能够在大规模数据集上训练复杂的模型。PyTorch：由Faceboo
pytorch中张量变换函数 weixin_42924890 pytorch 人工智能 python
在PyTorch中view(),transpose()和permute()函数都是用于改变张量（Tensor）维度结构的，但它们的作用和使用场景有所不同。torch.view()功能：该函数用于将一个张量重塑为新的形状，但它必须保持原有元素数量不变。它主要用于改变张量的维度布局，而不仅仅是交换维度。用法：通常用于简化或展开张量的维度，例如将三维张量展平成一维或二维。importtorchbatch
深度学习pytorch——索引与切片 Echo-J AI 深度学习 pytorch 人工智能
indexingimporttorcha=torch.rand(4,3,28,28)#表示4张28*28的rgb图print(a[0].shape)#a[0]获得第一张图片print(a[0,0].shape)#a[0,0]获得第一张图片的r图print(a[0,0,2,4])#获得第一张图片第一个通道的一个像素点，因此得到的是一个标量selectfirst/lastN#selectfirst/l
Pytorch nn.Module 霖大侠 pytorch 人工智能 python 深度学习 cnn 神经网络卷积神经网络
一、torch.nn简介torch.nn是PyTorch中用于构建神经网络的模块。它提供了一系列的类和函数，用于定义神经网络的各种层、损失函数、优化器等。torch.nn提供的类：Module:所有神经网络模型的基类，用于定义自定义神经网络模型。Linear:线性层，进行线性变换。Conv2d:二维卷积层。RNN,LSTM,GRU:循环神经网络层，分别对应简单RNN、长短时记忆网络（LSTM）、门
YOLOv9改进添加可变形注意力机制DAttention 学yolo的小白 UPgrade YOLOv9 YOLO python 目标检测 pytorch
一、DeformableAttentionTransformer论文论文地址：arxiv.org/pdf/2201.00520.pdf二、DeformableAttentionTransformer注意力结构DeformableAttentionTransformer包含可变形注意力机制，允许模型根据输入的内容动态调整注意力权重。在传统的Transformer中，注意力是通过对查询和键向量之间的点
【深度学习笔记】1 数据操作 RIKI_1 深度学习深度学习笔记人工智能
注：本文为《动手学深度学习》开源内容，仅为个人学习记录，无抄袭搬运意图数据操作在深度学习中，我们通常会频繁地对数据进行操作。作为动手学深度学习的基础，本节将介绍如何对内存中的数据进行操作。在PyTorch中，torch.Tensor是存储和变换数据的主要工具。如果你之前用过NumPy，你会发现Tensor和NumPy的多维数组非常类似。然而，Tensor提供GPU计算和自动求梯度等更多功能，这些使
【python】成功解决ModuleNotFoundError: No module named ‘tensorboardX‘ 高斯小哥 BUG解决方案合集 python 学习 debug
【python】成功解决ModuleNotFoundError:Nomodulenamed‘tensorboardX’个人主页：高斯小哥高质量专栏：Matplotlib之旅：零基础精通数据可视化、Python基础【高质量合集】、PyTorch零基础入门教程希望得到您的订阅和支持~创作高质量博文(平均质量分92+)，分享更多关于深度学习、PyTorch、Python领域的优质内容！（希望得到您的关注
KGCN---pytorch代码（1）---data_loader sweet_Mary 推荐算法 python 推荐算法 pytorch 人工智能机器学习深度学习
代码：importpandasaspdimportnumpyasnpfromsklearn.preprocessingimportLabelEncoderfromsklearn.model_selectionimporttrain_test_splitimportrandomclassDataLoader:'''DataLoaderclasswhichmakesdatasetfortraining
【Python】成功解决AttributeError: ‘MyClass‘ object has no attribute ‘my_attribute‘ 高斯小哥 BUG解决方案合集 python 新手入门学习 debug
【Python】成功解决AttributeError:‘MyClass’objecthasnoattribute‘my_attribute’个人主页：高斯小哥高质量专栏：Matplotlib之旅：零基础精通数据可视化、Python基础【高质量合集】、PyTorch零基础入门教程希望得到您的订阅和支持~创作高质量博文(平均质量分92+)，分享更多关于深度学习、PyTorch、Python领域的优质内
PyTorch 实现图像卷积和反卷积操作及代码算法channel pytorch 人工智能 python 深度学习机器学习
你好，我是郭震在深度学习中，尤其是在处理图像相关任务时，卷积和反卷积（转置卷积）都是非常核心的概念。它们在神经网络中扮演着重要的角色，但用途和工作原理有所不同。以下是对传统卷积和反卷积的介绍，以及它们在PyTorch中的应用示例。传统卷积(nn.Conv2d)用途传统卷积通常用于特征提取。在处理图像时，通过应用卷积核（也称为滤波器）来扫描输入图像或特征映射，可以有效地识别图像中的局部特征（如边缘、
小白看得懂的 Transformer zy_zeros python 开发语言
1.导语谷歌推出的BERT模型在11项NLP任务中夺得SOTA结果，引爆了整个NLP界。而BERT取得成功的一个关键因素是Transformer的强大作用。谷歌的Transformer模型最早是用于机器翻译任务，当时达到了SOTA效果。Transformer改进了RNN最被人诟病的训练慢的缺点，利用self-attention机制实现快速并行。并且Transformer可以增加到非常深的深度，充分
大模型加速与性能对比 __如风__ 人工智能语言模型
大模型加速与性能对比阿里通义千问flash-attention加速正常运行通义千问会提示安装flash-attention以获得更快的推理速度，缺少这个包并不影响模型运行。事实证明安装之后对于推理速度的提升也很小（5%），网上说对于微调训练的速度提升比较大，因为是在内网环境下，安装还费了一番周折。本人环境torch2.0.1+cu118cuda11.8nvidia-driver535.98gcc9
webpack5高级--01_提升开发体验化作繁星 webpack webpack javascript 前端
提升开发体验SourceMap为什么开发时我们运行的代码是经过webpack编译后的，例如下面这个样子：/**ATTENTION:The"eval"devtoolhasbeenused(maybebydefaultinmode:"development").*Thisdevtoolisneithermadeforproductionnorforreadableoutputfiles.*Ituses
beam search原理与常见实现，与直接sample的区别 samoyan LLM 面试 transformer 面试
目录BeamSearch原理1.基本概念2.工作流程3.特点BeamSearch与直接Sample的区别1.确定性与随机性2.结果多样性3.性能与效率4.应用场景常见的BeamSearch实现1.TensorFlow库2.PyTorch库3.HuggingFace的Transformers库算法库和工具BeamSearch原理1.基本概念BeamSearch是一种启发式图搜索算法，常用于自然语言处
Mastering Convolutional Neural Networks: A Comprehensive Practical Exploration Bio大恐龙人工智能深度学习数据可视化机器学习
ConvolutionalNeuralNetworks(CNNs)haverevolutionizedthefieldofcomputervisionandimagerecognition,enablinggroundbreakingadvancementsinvariousdomains.Thesepowerfuldeeplearningmodelshaveproventheirprowessi
深度学习，人工智能总结 qq_14827935 人工智能深度学习
1，入门建议少看书，多看csdn上帖子总结（主要就是BP神经网络，CNN，rnn），建立宏观的概念和主要框架，书可以作为进阶补充作为工具书查阅。2,目前的神经网络还处于前牛顿时代，就是实践中图像识别效果很好，但是原理不太清楚3，现在的人工智能有点像通信行业2g时代，从2012年alexnet到openai的chatgpt，未来还有很长的发展潜力。丰田不是汽车的发明者，但现在销量最高。oepnai在
PyTorch：深度学习的革命性框架奔强的程序学习
在深度学习领域，PyTorch已经成为了一个革命性的框架。自2016年开源以来，它以其高效、灵活和易于使用的特性，迅速获得了研究者和开发者的青睐。PyTorch不仅简化了深度学习的复杂流程，还提供了丰富的功能和强大的扩展性，使得深度学习的应用更加广泛和深入。下面将从PyTorch的核心特性、应用场景、生态系统、与其他框架的比较以及未来发展等方面，对PyTorch进行详细介绍。一、核心特性动态计算图
不同框架表示图像时维度顺序的区别：pytorch、keras&tf、opencv、numpy、PIL 蓝海渔夫 python pytorch pytorch keras opencv pillow python 人工智能 numpy
在PyTorch、Keras、OpenCV、NumPy和PIL这几个框架中，它们在表示图像时的维度存储顺序有所不同。下面我将逐一解释每个框架中图像维度的存储顺序：1，PyTorch:PyTorch中图像的维度顺序通常遵循[N,C,H,W]的格式，也就是channelfirst格式，其中：C代表通道数（channels），例如RGB图像有3个通道。N代表批量大小（batchsize），即一次处理的图
PyTorch训练，TensorRT部署的简要步骤（采用ONNX中转的方式）赛先生.AI TensorRT pytorch 人工智能 TensorRT ONNX
1.简述使用PyTorch执行训练，使用TensorRT进行部署有很多种方法，比较常用的是基于INetworkDefinition进行每一层的自定义，这样一来，会反向促使研究者能够对真个网络的细节有更深的理解。另一种相对简便的方式就是通过ONNX中间转换的形式。本文主要针对该途径进行简单的脉络阐述。2.导出ONNX如果使用的是PyTorch训练框架，可采用其自带的ONNX导出API。torch.o
Java序列化进阶篇 g21121 java序列化
1.transient 类一旦实现了Serializable 接口即被声明为可序列化，然而某些情况下并不是所有的属性都需要序列化，想要人为的去阻止这些属性被序列化，就需要用到transient 关键字。
escape()、encodeURI()、encodeURIComponent()区别详解 aigo JavaScript Web
原文：http://blog.sina.com.cn/s/blog_4586764e0101khi0.html JavaScript中有三个可以对字符串编码的函数，分别是： escape,encodeURI,encodeURIComponent，相应3个解码函数：,decodeURI,decodeURIComponent 。下面简单介绍一下它们的区别 1 escape()函
ArcgisEngine实现对地图的放大、缩小和平移 Cb123456 添加矢量数据对地图的放大、缩小和平移 Engine
ArcgisEngine实现对地图的放大、缩小和平移: 个人觉得是平移，不过网上的都是漫游，通俗的说就是把一个地图对象从一边拉到另一边而已。就看人说话吧. 具体实现: 一、引入命名空间 using ESRI.ArcGIS.Geometry; using ESRI.ArcGIS.Controls; 二、代码实现.
Java集合框架概述天子之骄 Java集合框架概述
集合框架集合框架可以理解为一个容器，该容器主要指映射(map)、集合(set)、数组(array)和列表(list)等抽象数据结构。从本质上来说，Java集合框架的主要组成是用来操作对象的接口。不同接口描述不同的数据类型。简单介绍： Collection接口是最基本的接口，它定义了List和Set，List又定义了LinkLi
旗正4.0页面跳转传值问题何必如此 java jsp
跳转和成功提示 a) 成功字段非空forward 成功字段非空forward，不会弹出成功字段，为jsp转发，页面能超链接传值,传输变量时需要拼接。接拼接方式list.jsp?test="+strweightUnit+"或list.jsp?test="+weightUnit+&qu
全网唯一:移动互联网服务器端开发课程 cocos2d-x小菜 web开发移动开发移动端开发移动互联程序员
移动互联网时代来了！ App市场爆发式增长为Web开发程序员带来新一轮机遇，近两年新增创业者，几乎全部选择了移动互联网项目！传统互联网企业中超过98%的门户网站已经或者正在从单一的网站入口转向PC、手机、Pad、智能电视等多端全平台兼容体系。据统计，AppStore中超过85%的App项目都选择了PHP作为后端程
Log4J通用配置|注意问题笔记 7454103 DAO apache tomcat log4j Web
关于日志的等级那些去百度就知道了！这几天要搭个新框架配置了日志记下来！做个备忘！ #这里定义能显示到的最低级别,若定义到INFO级别,则看不到DEBUG级别的信息了~! log4j.rootLogger=INFO,allLog # DAO层 log记录到dao.log 控制台和总日志文件 log4j.logger.DAO=INFO,dao,C
SQLServer TCP/IP 连接失败问题 ---SQL Server Configuration Manager darkranger sql c windows SQL Server XP
当你安装完之后,连接数据库的时候可能会发现你的TCP/IP 没有启动.. 发现需要启动客户端协议 : TCP/IP 需要打开 SQL Server Configuration Manager... 却发现无法打开 SQL Server Configuration Manager..?? 解决方法: C:\WINDOWS\system32目录搜索framedyn.
[置顶] 做有中国特色的程序员 aijuans 程序员
从出版业说起网络作品排到靠前的，都不会太难看，一般人不爱看某部作品也是因为不喜欢这个类型，而此人也不会全不喜欢这些网络作品。究其原因，是因为网络作品都是让人先白看的，看的好了才出了头。而纸质作品就不一定了，排行榜靠前的，有好作品，也有垃圾。许多大牛都是写了博客，后来出了书。这些书也都不次，可能有人让为不好，是因为技术书不像小说，小说在读故事，技术书是在学知识或温习知识，有些技术书读得可
document.domain 跨域问题 avords document
document.domain用来得到当前网页的域名。比如在地址栏里输入：javascript:alert(document.domain); //www.315ta.com我们也可以给document.domain属性赋值，不过是有限制的，你只能赋成当前的域名或者基础域名。比如：javascript:alert(document.domain = "315ta.com");
关于管理软件的一些思考 houxinyou 管理
工作好多看年了,一直在做管理软件,不知道是我最开始做的时候产生了一些惯性的思维,还是现在接触的管理软件水平有所下降.换过好多年公司,越来越感觉现在的管理软件做的越来越乱. 在我看来,管理软件不论是以前的结构化编程,还是现在的面向对象编程,不管是CS模式,还是BS模式.模块的划分是很重要的.当然,模块的划分有很多种方式.我只是以我自己的划分方式来说一下. 做为管理软件,就像现在讲究MVC这
NoSQL数据库之Redis数据库管理(String类型和hash类型) bijian1013 redis 数据库 NoSQL
一.Redis的数据类型 1.String类型及操作 String是最简单的类型，一个key对应一个value，string类型是二进制安全的。Redis的string可以包含任何数据，比如jpg图片或者序列化的对象。 Set方法：设置key对应的值为string类型的value
Tomcat 一些技巧征客丶 java tomcat dos
以下操作都是在windows 环境下一、Tomcat 启动时配置 JAVA_HOME 在 tomcat 安装目录，bin 文件夹下的 catalina.bat 或 setclasspath.bat 中添加 set JAVA_HOME=JAVA 安装目录 set JRE_HOME=JAVA 安装目录/jre 即可；二、查看Tomcat 版本在 tomcat 安装目
【Spark七十二】Spark的日志配置 bit1129 spark
在测试Spark Streaming时，大量的日志显示到控制台，影响了Spark Streaming程序代码的输出结果的查看(代码中通过println将输出打印到控制台上)，可以通过修改Spark的日志配置的方式，不让Spark Streaming把它的日志显示在console 在Spark的conf目录下，把log4j.properties.template修改为log4j.p
Haskell版冒泡排序 bookjovi 冒泡排序 haskell
面试的时候问的比较多的算法题要么是binary search，要么是冒泡排序，真的不想用写C写冒泡排序了，贴上个Haskell版的，思维简单，代码简单，下次谁要是再要我用C写冒泡排序，直接上个haskell版的，让他自己去理解吧。 sort [] = [] sort [x] = [x] sort (x:x1:xs) | x>x1 = x1:so
java 路径配置文件读取 bro_feng java
这几天做一个项目，关于路径做如下笔记，有需要供参考。取工程内的文件，一般都要用相对路径，这个自然不用多说。在src统计目录建配置文件目录res,在res中放入配置文件。读取文件使用方式： 1. MyTest.class.getResourceAsStream("/res/xx.properties") 2. properties.load(MyTest.
读《研磨设计模式》-代码笔记-简单工厂模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ package design.pattern; /* * 个人理解：简单工厂模式就是IOC; * 客户端要用到某一对象，本来是由客户创建的，现在改成由工厂创建，客户直接取就好了 */ interface IProduct {
SVN与JIRA的关联 chenyu19891124 SVN
SVN与JIRA的关联一直都没能装成功，今天凝聚心思花了一天时间整合好了。下面是自己整理的步骤：一、搭建好SVN环境，尤其是要把SVN的服务注册成系统服务二、装好JIRA，自己用是jira-4.3.4破解版三、下载SVN与JIRA的插件并解压，然后拷贝插件包下lib包里的三个jar，放到Atlassian\JIRA 4.3.4\atlassian-jira\WEB-INF\lib下，再
JWFDv0.96 最新设计思路 comsci 数据结构算法工作企业应用公告
随着工作流技术的发展，工作流产品的应用范围也不断的在扩展，开始进入了像金融行业(我已经看到国有四大商业银行的工作流产品招标公告了)，实时生产控制和其它比较重要的工程领域，而
vi 保存复制内容格式粘贴 daizj vi 粘贴复制保存原格式不变形
vi是linux中非常好用的文本编辑工具，功能强大无比，但对于复制带有缩进格式的内容时，粘贴的时候内容错位很严重，不会按照复制时的格式排版，vi能不能在粘贴时，按复制进的格式进行粘贴呢？答案是肯定的，vi有一个很强大的命令可以实现此功能。在命令模式输入:set paste，则进入paste模式，这样再进行粘贴时
shell脚本运行时报错误：/bin/bash^M: bad interpreter 的解决办法 dongwei_6688 shell脚本
出现原因：windows上写的脚本，直接拷贝到linux系统上运行由于格式不兼容导致解决办法： 1. 比如文件名为myshell.sh，vim myshell.sh 2. 执行vim中的命令 : set ff?查看文件格式，如果显示fileformat=dos，证明文件格式有问题 3. 执行vim中的命令 :set fileformat=unix 将文件格式改过来就可以了，然后:w
高一上学期难记忆单词 dcj3sjt126com word english
honest 诚实的；正直的 argue 争论 classical 古典的 hammer 锤子 share 分享；共有 sorrow 悲哀；悲痛 adventure 冒险 error 错误；差错 closet 壁橱；储藏室 pronounce 发音；宣告 repeat 重做；重复 majority 大多数；大半 native 本国的，本地的，本国
hibernate查询返回DTO对象，DTO封装了多个pojo对象的属性 frankco POJO hibernate查询 DTO
DTO-数据传输对象；pojo-最纯粹的java对象与数据库中的表一一对应。简单讲：DTO起到业务数据的传递作用，pojo则与持久层数据库打交道。有时候我们需要查询返回DTO对象，因为DTO
Partition List hcx2013 partition
Given a linked list and a value x, partition it such that all nodes less than x come before nodes greater than or equal to x. You should preserve the original relative order of th
Spring MVC测试框架详解——客户端测试 jinnianshilongnian
上一篇《Spring MVC测试框架详解——服务端测试》已经介绍了服务端测试，接下来再看看如果测试Rest客户端，对于客户端测试以前经常使用的方法是启动一个内嵌的jetty/tomcat容器，然后发送真实的请求到相应的控制器；这种方式的缺点就是速度慢；自Spring 3.2开始提供了对RestTemplate的模拟服务器测试方式，也就是说使用RestTemplate测试时无须启动服务器，而是模拟一
关于推荐个人观点 liyonghui160com 推荐系统关于推荐个人观点
回想起来，我也做推荐了3年多了，最近公司做了调整招聘了很多算法工程师，以为需要多么高大上的算法才能搭建起来的，从实践中走过来，我只想说【不是这样的】第一次接触推荐系统是在四年前入职的时候，那时候，机器学习和大数据都是没有的概念，什么大数据处理开源软件根本不存在，我们用多台计算机web程序记录用户行为，用.net的w
不间断旋转的动画 pangyulei 动画
CABasicAnimation* rotationAnimation; rotationAnimation = [CABasicAnimation animationWithKeyPath:@"transform.rotation.z"]; rotationAnimation.toValue = [NSNumber numberWithFloat: M
自定义annotation sha1064616837 java enum annotation reflect
对象有的属性在页面上可编辑，有的属性在页面只可读，以前都是我们在页面上写死的，时间一久有时候会混乱，此处通过自定义annotation在类属性中定义。越来越发现Java的Annotation真心很强大，可以帮我们省去很多代码，让代码看上去简洁。下面这个例子主要用到了 1.自定义annotation：@interface，以及几个配合着自定义注解使用的几个注解 2.简单的反射 3.枚举
Spring 源码 up2pu spring
1.Spring源代码 https://github.com/SpringSource/spring-framework/branches/3.2.x 注：兼容svn检出 2.运行脚本 import-into-eclipse.bat 注：需要设置JAVA_HOME为jdk 1.7 build.gradle compileJava { sourceCompatibilit
利用word分词来计算文本相似度 yangshangchuan word word分词文本相似度余弦相似度简单共有词
word分词提供了多种文本相似度计算方式：方式一：余弦相似度，通过计算两个向量的夹角余弦值来评估他们的相似度实现类：org.apdplat.word.analysis.CosineTextSimilarity 用法如下： String text1 = "我爱购物"; String text2 = "我爱读书"; String text3 =