浅冲一下

神经网络多种注意力机制原理和代码讲解

多种注意力表格：
大神参考仓库链接：魔鬼面具
对应 name 就是目录，点击即可跳转到对应学习。

name	need_chaneel	paper
SE	True	https://arxiv.org/abs/1709.01507
BAM	True	https://arxiv.org/pdf/1807.06514.pdf
CBAM	True	https://openaccess.thecvf.com/content_ECCV_2018/papers/Sanghyun_Woo_Convolutional_Block_Attention_ECCV_2018_paper.pdf
CoTAttention	True	https://arxiv.org/abs/2107.12292
MobileViTAttention	True	https://arxiv.org/abs/2110.02178
SK	True	https://arxiv.org/pdf/1903.06586.pdf
ShuffleAttention	True	https://arxiv.org/pdf/2102.00240.pdf
S2Attention	True	https://arxiv.org/abs/2108.01072
ParNetAttention	True	https://arxiv.org/abs/2110.07641
CoordAttention	True	https://arxiv.org/abs/2103.02907
MHSA Multi-Head-Self-Attention	True	https://wuch15.github.io/paper/EMNLP2019-NRMS.pdf
A2Attention	True	https://arxiv.org/pdf/1810.11579.pdf
GC Global Context Attention	True	https://arxiv.org/abs/1904.11492
EffectiveSE Effective Squeeze-Excitation	True	https://arxiv.org/abs/1911.06667
GE Gather-Excite Attention	True	https://arxiv.org/abs/1810.12348
CrissCrossAttention	True	https://arxiv.org/abs/1811.11721
Polarized Self-Attention	True	https://arxiv.org/abs/2107.00782
Sequential Self-Attention	True	https://arxiv.org/abs/2107.00782
GAM	True	https://arxiv.org/pdf/2112.05561v1.pdf
Biformer	True	https://arxiv.org/abs/2303.08810
EMA	True	https://arxiv.org/abs/2305.13563v2
CloAttention	True	https://arxiv.org/abs/2303.17803
LSKBlock	True	https://arxiv.org/pdf/2303.09030.pdf
ECA	False	https://arxiv.org/pdf/1910.03151.pdf
SimAM	False	http://proceedings.mlr.press/v139/yang21o/yang21o.pdf
SGE	False	https://arxiv.org/pdf/1905.09646.pdf
TripletAttention	False	https://arxiv.org/abs/2010.03045

注意：博客尽可能的简单的介绍各个注意力主要的思想和图示，并通过代码的解释和测试来详细的理解各个注意力机制的使用。(内容可能不全，希望各位理解)

SE

全称：Squeeze-and-Excitation 挤压和激励
1、主要思想：想通过全局池化和全链接，形成通道上的注意力。然后从通道域的角度赋予图像不同位置不同的权重，得到更重要的特征信息。
简单来说：将原始特征图H 、W 维度上压缩为为1、1(长条形状)，再进行一些全链接层，得到1 * 1 * C的条形，再和原始的特征图进行通道上的相称，得到最终的注意力特征层。

对应公式具体流程如下：
$\hat{X} = F_{scale()}(U, F_{ex}(F_{sq}(U), W)) \\ F_{sq}(U) = AvgPool(U) , \ F_{ex} = MLP.$

值得注意的地方：1、论文中对比了平均池化与最大池化的实验结果，发现平均池化效果稍好一些（后面一些注意力机制，两者都用）。2、SE 的如何防止才可以使得网络的性能最优，论文中也在探讨。

2、模块使用地方：SE模块是一个即插即用的模块，可以在卷积模块之后直接插入SE模块，也可以在残差结构里面添加了SE模块。

3、代码

import numpy as np
import torch
from torch import nn
from torch.nn import init

class SEAttention(nn.Module):

    def __init__(self, channel=512, reduction=16):
        super().__init__()
        # 对应全局平均池化
        self.avg_pool = nn.AdaptiveAvgPool2d(1)
        
        # 两层全连接层，用于获取通道注意力机制，最后用 Sigmoid 激活函数，输出 0~1 之间的权重
        self.fc = nn.Sequential(
            nn.Linear(channel, channel // reduction, bias=False),
            nn.ReLU(inplace=True),
            nn.Linear(channel // reduction, channel, bias=False),
            nn.Sigmoid()
        )

    def init_weights(self):
        for m in self.modules():
            if isinstance(m, nn.Conv2d):
                init.kaiming_normal_(m.weight, mode='fan_out')
                if m.bias is not None:
                    init.constant_(m.bias, 0)
            elif isinstance(m, nn.BatchNorm2d):
                init.constant_(m.weight, 1)
                init.constant_(m.bias, 0)
            elif isinstance(m, nn.Linear):
                init.normal_(m.weight, std=0.001)
                if m.bias is not None:
                    init.constant_(m.bias, 0)

    def forward(self, x):
        b, c, _, _ = x.size()
        y = self.avg_pool(x).view(b, c)
        y = self.fc(y).view(b, c, 1, 1)
        return x * y.expand_as(x)


if __name__ == '__main__':
    input=torch.randn(50,512,7,7)
    se = SEAttention(channel=512,reduction=8)
    output=se(input)
    print(output.shape)

BAM

全称：Bottleneck Attention Module 瓶颈注意模块
1、主要思想：沿着两个不同的路径（通道和空间）推断注意力映射，通道注意力使得网络关注那个通道上的数据更加重要，空间注意力机制使得网络关注那个位置上的数据更加重要。
简单来说：一个分支将原始特征图H 、W 维度上压缩为为1、1(长条形状)，再进行一些全链接层，得到C * 1 * 1的条形。另一个分支将在通道C上进行压缩，压缩为C/R (R为比例)(拍扁一些)，再经过一些卷积层，得到1 * H * W的特征图。将C * 1 * 1 对应乘上1 * H * W，就变成 C * H * W 的 BAM 注意力。再和原始特征图对应相乘，经过残差层即可。对应图示如下：

对应公式具体流程如下：
$M_c(F) = BN(MLP(AvgPool(F))) = BN(W_1(W_0AvgPool(F) + b_0) + b_1), \\ M_s(F) = BN(f^{1×1}_3(f^{3×3}_2(f^{3×3}_1(f^{1×1}_0(F))))), \\ M(F) = σ(M_c(F) +M_s(F)), \\ F' = F+F⊗M(F), \\ 1、其中，F \in R^{C*H*W},AvgPool(F) \in R^{C*1*1},W_0 ∈ R^{C/r×C}, b_0 ∈ R^{C/r}, W_1 ∈ R^{C×C/r}, b_1 ∈ R^C. \\ 2、其中，f^{1×1}_0 \in R^{C*1*1},f^{3×3}_1 \in R^{C/r*3*3},f^{3×3}_2 \in R^{C/r*3*3}, f^{1×1}_3 \in R^{C/r*1*1}, \\ f^{1×1}_0 * C/r 个， f^{3×3}_1 * C/r 个，f^{3×3}_2 * C/r 个，f^{1×1}_0 * 1 个， \\ 3、其中， M_c(F) +M_s(F)在相加之前都被调整为R^{C×H×W}大小。 \\ 4、其中，⊗表示逐元素乘法。$
值得注意的点是：模块有两个超参数：膨胀值 d 和收缩比 r。膨胀值决定了接受域的大小，有助于空间分支的上下文信息聚集。收缩比控制着两个注意力分支的能力和开销。通过实验验证，设 d = 4, r = 16。

2、模块使用地方：将模块放在模型的每个瓶颈处（特征映射产生降采样的地方），构建一个具有多个参数的分层注意，可以与任何前馈模型以端到端方式进行训练。

3、代码

import numpy as np
import torch
from torch import nn
from torch.nn import init

def autopad(k, p=None, d=1):  # kernel, padding, dilation
    """Pad to 'same' shape outputs."""
    if d > 1:
        k = d * (k - 1) + 1 if isinstance(k, int) else [d * (x - 1) + 1 for x in k]  # actual kernel-size
    if p is None:
        p = k // 2 if isinstance(k, int) else [x // 2 for x in k]  # auto-pad
    return p

class Flatten(nn.Module):
    def forward(self, x):
        return x.view(x.shape[0], -1)

class ChannelAttention(nn.Module):
    def __init__(self, channel, reduction=16, num_layers=3):
        super().__init__()
        # 添加通道注意力机制的通道数，方便后面的全连接层
        gate_channels = [channel]
        gate_channels += [channel // reduction] * num_layers
        gate_channels += [channel]
        
        # 全局平均池化，用于降维为 B * C * 1 * 1
        self.avgpool = nn.AdaptiveAvgPool2d(1)
        
        self.ca = nn.Sequential()
        
        # 展平，用于全连接层 B * C * 1 * 1 -> B * C
        self.ca.add_module('flatten', Flatten())
        
        # 连续的全链接层，来获取通道注意力机制 
        for i in range(len(gate_channels) - 2):
            self.ca.add_module('fc%d' % i, nn.Linear(gate_channels[i], gate_channels[i + 1]))
            self.ca.add_module('bn%d' % i, nn.BatchNorm1d(gate_channels[i + 1]))
            self.ca.add_module('relu%d' % i, nn.ReLU())
            
        # 最后的全连接层，用于恢复通道数为 B * C.
        self.ca.add_module('last_fc', nn.Linear(gate_channels[-2], gate_channels[-1]))

    def forward(self, x):
        res = self.avgpool(x)
        res = self.ca(res)
        # unsqueeze(-1).unsqueeze(-1) 的作用是为了将 B * C 转换为 B * C * 1 * 1，方便后面的广播。
        # expand_as(x) 的作用是为了将 B * C * 1 * 1 广播为 B * C * H * W
        res = res.unsqueeze(-1).unsqueeze(-1).expand_as(x)
        return res


class SpatialAttention(nn.Module):
    def __init__(self, channel, reduction=16, num_layers=3, dia_val=2):
        super().__init__()
        self.sa = nn.Sequential()
        # 最开始的 1x1 卷积，用于降维为原来的 1/r
        self.sa.add_module('conv_reduce1',
                           nn.Conv2d(kernel_size=1, in_channels=channel, out_channels=channel // reduction))
        self.sa.add_module('bn_reduce1', nn.BatchNorm2d(channel // reduction))
        self.sa.add_module('relu_reduce1', nn.ReLU())
        
        # 连续的 3x3 的空洞卷积， 用于捕捉空间信息
        for i in range(num_layers):
            self.sa.add_module('conv_%d' % i, nn.Conv2d(kernel_size=3, in_channels=channel // reduction,
                                                        out_channels=channel // reduction, padding=autopad(3, None, dia_val), dilation=dia_val))
            self.sa.add_module('bn_%d' % i, nn.BatchNorm2d(channel // reduction))
            self.sa.add_module('relu_%d' % i, nn.ReLU())
            
        # 最后的 1x1 卷积，用于恢复通道数
        self.sa.add_module('last_conv', nn.Conv2d(channel // reduction, 1, kernel_size=1))

    def forward(self, x):
        res = self.sa(x)
        res = res.expand_as(x)
        return res


class BAMBlock(nn.Module):
    def __init__(self, channel=512, reduction=16, dia_val=2):
        super().__init__()
        self.ca = ChannelAttention(channel=channel, reduction=reduction)
        self.sa = SpatialAttention(channel=channel, reduction=reduction, dia_val=dia_val)
        self.sigmoid = nn.Sigmoid()

    def init_weights(self):
        # 根据不同的网络初始化权重
        for m in self.modules():
            if isinstance(m, nn.Conv2d):
                init.kaiming_normal_(m.weight, mode='fan_out')
                if m.bias is not None:
                    init.constant_(m.bias, 0)
            elif isinstance(m, nn.BatchNorm2d):
                init.constant_(m.weight, 1)
                init.constant_(m.bias, 0)
            elif isinstance(m, nn.Linear):
                init.normal_(m.weight, std=0.001)
                if m.bias is not None:
                    init.constant_(m.bias, 0)

    def forward(self, x):
        # b, c, _, _ = x.size()
        sa_out = self.sa(x)
        ca_out = self.ca(x)
        weight = self.sigmoid(sa_out + ca_out)
        out = (1 + weight) * x
        return out

if __name__ == '__main__':
    input = torch.randn(50, 512, 7, 7)
    bam = BAMBlock(channel=512, reduction=16, dia_val=2)
    output = bam(input)
    print(output.shape)

CBAM

注意：和BAM的不一样，BAM模块是放在网络的每个瓶颈处，CBAM放在每个卷积块上。
全称：Convolutional Block Attention Module 卷积块注意力模块
1、主要思想：沿着一条路径路径推断注意力映射，先执行通道注意力模块，和原始特征图相乘之后，再执行空间注意力模块，再和原始特征层相乘。通道注意力使得网络关注那个通道上的数据更加重要，空间注意力机制使得网络关注那个位置上的数据更加重要。
简单来说，

对应公式流程如下：
$=M_c(F) ⊗F, \\ F'' =M_s(F') ⊗F', \\ 其中， F、F'、F'' \in R^{C×H×W}, M_c(F) \in R^{1×H×W}, M_s(F') \in R^{C×1×1},$
其中⊗表示基于元素的乘法。在乘法过程中，注意值被广播(复制):通道注意值沿着空间维度广播，反之亦然。F”是最终的精炼输出。

细化两个注意力模块：
1、通道注意力模块：在 H * W 的维度上，利用平均池化和最大池化操作聚合特征映射的空间信息，生成两种不同的空间上下文描述符，经过共享MLP 之后，再相加经过 sigmoid，得到最终的通道注意力机制。(SE 注意力中只要的全局平均池化，这里全都要)
也就是说：由于feature map的每个通道都被认为是一个特征检测器，所以通道的注意力集中在给定一个输入图像的“什么”是有意义的。

2、空间注意力机制：在 C 的维度上，分别得到全局平均池化和平均池化的结果，进行叠加，为B * 2 * H * W，再经过卷积提取、压缩一些信息，通过 sigmoid 之后得到空间注意力机制。(和 BAM 不一样的地方，没有使用 1 * 1 的卷积来降维，而是采用了池化的方式)

对应公式流程：
$通道注意力\\\ M_c(F) = σ(MLP(AvgPool(F)) +MLP(MaxPool(F))) \\ = σ(W_1(W_0(F^c_{avg})) +W_1(W_0(F^c_{max}))), \\ 其中，σ为sigmoid函数，W_0∈R^{C/r×C}, W_1∈R^{C×C/r}，\\ 空间注意力\\ M_s(F) = σ(f^{7×7}([AvgPool(F);MaxPool(F)])) \\ = σ(f^{7×7}([F^s_{avg}; F^s_{max}])), \\ 其中，其中σ为sigmoid函数，f^{7×7}为为7×7的卷积。$

值得注意的是：
1、空间注意力的时候，使用的为 7 * 7 的卷积，r 为 16 。
2、在实际实现通道注意力的时候，因为 MLP 是共享的，我们输入有两个，所以这里可以使用 1 * 1 的卷积来实现 MLP 的效果，但是可以很方便的实现参数共享。其次为了减少参数开销，隐藏的激活大小设置为 $R^{C/r×1×1}$ ，其中r是减少率。
3、论文实验证实，同时使用平均池和最大池特性这两个特性比单独使用它们大大提高了网络的表示能力。
4、注意模块的安排。给定一个输入图像，两个注意模块，通道和空间，计算互补注意，分别关注“什么”和“在哪里”。考虑到这一点，两个模块可以以并行或顺序的方式放置。我们发现序列排列比并行排列有更好的结果。对于顺序过程的排列，我们的实验结果表明，信道优先顺序略好于空间优先顺序。
5、在VOC数据集上，作者将SE和CBAM放在每个分类器的前面，在预测之前细化由上采样的全局特征和相应的局部特征组成的最终特征，强制模型自适应地只选择有意义的特征。

2、模块使用地方：CBAM放在每个卷积块上，可以使用在网络的任何地方。
下面的方法是在残差结构内部使用：

3、代码

import numpy as np
import torch
from torch import nn
from torch.nn import init


class ChannelAttention(nn.Module):
    def __init__(self, channel, reduction=16):
        super().__init__()
        # 两种全局池化方式 + 共享的两层全连接层(1 * 1 卷积相当于全连接层)
        self.maxpool = nn.AdaptiveMaxPool2d(1)
        self.avgpool = nn.AdaptiveAvgPool2d(1)
        self.se = nn.Sequential(
            nn.Conv2d(channel, channel // reduction, 1, bias=False),
            nn.ReLU(),
            nn.Conv2d(channel // reduction, channel, 1, bias=False)
        )
        self.sigmoid = nn.Sigmoid()

    def forward(self, x):
        max_result = self.maxpool(x)
        avg_result = self.avgpool(x)
        max_out = self.se(max_result)
        avg_out = self.se(avg_result)
        output = self.sigmoid(max_out + avg_out)
        return output


class SpatialAttention(nn.Module):
    def __init__(self, kernel_size=7):
        super().__init__()
        self.conv = nn.Conv2d(2, 1, kernel_size=kernel_size, padding=kernel_size // 2)
        self.sigmoid = nn.Sigmoid()

    def forward(self, x):
        # 1 代表通道维度，输入为 B * C * H * W
        max_result, _ = torch.max(x, dim=1, keepdim=True)
        avg_result = torch.mean(x, dim=1, keepdim=True)
        result = torch.cat([max_result, avg_result], 1)
        output = self.conv(result)
        output = self.sigmoid(output)
        return output


class CBAMBlock(nn.Module):

    def __init__(self, channel=512, reduction=16, kernel_size=7):
        super().__init__()
        self.ca = ChannelAttention(channel=channel, reduction=reduction)
        self.sa = SpatialAttention(kernel_size=kernel_size)

    def init_weights(self):
        for m in self.modules():
            if isinstance(m, nn.Conv2d):
                init.kaiming_normal_(m.weight, mode='fan_out')
                if m.bias is not None:
                    init.constant_(m.bias, 0)
            elif isinstance(m, nn.BatchNorm2d):
                init.constant_(m.weight, 1)
                init.constant_(m.bias, 0)
            elif isinstance(m, nn.Linear):
                init.normal_(m.weight, std=0.001)
                if m.bias is not None:
                    init.constant_(m.bias, 0)

    def forward(self, x):
        b, c, _, _ = x.size()
        out = x * self.ca(x)
        out = out * self.sa(out)
        return out


if __name__ == '__main__':
    input = torch.randn(50, 512, 7, 7)
    kernel_size = input.shape[2]
    cbam = CBAMBlock(channel=512, reduction=16, kernel_size=kernel_size)
    output = cbam(input)
    print(output.shape)

CoTAttention

全称：Contextual Transformer Attention 上下文自注意力

背景提要：传统的用于视觉任务的transformer结构大多是利用 $1 * 1$ 卷积得到 $Q u ery 、 Key 、 Va l u e$ ，,然后通过简单的相乘，得到注意力矩阵，这种构造方法并并没有考虑到 $Key$ 矩阵相邻位置之间丰富的上下文.( $1 * 1$ 矩阵没有空间上的上下文)

1、主要思想：首先通过3×3卷积上下文编码得到 $k ey$ ，得到静态的上下文表示。我们进一步将编码后的 $Key$ 与原始特征图上的 $Q u ery$ 连接起来，通过两个连续的 $1 * 1$ 卷积学习动态多头注意矩阵 $W e i g h t s$ 。对于 $Va l u e$ ，我们通过 $1 * 1$ 的卷积获得，然后将学习到的注意矩阵 $W e i g h t s$ 与输入值 $Va l u es$ 相乘，实现输入的动态上下文表示。最后将静态和动态语境表示的相加融合作为输出。

简单图示如下：

细节图示对比如下：

上图(a)是作者介绍的传统的局部多头自注意力机制, 这里插播一下传统的局部多头自注意力机制的计算过程：

假设：输入: $\in R^{H *W *C}$ ，有 $C_h$ 个注意力头，每个特征点和 $k * k$ 范围的点做注意力。
第一步：先得到 Query、Key、Value。 $Q = XW_q, K = XW_k, V = XW_v$
第二步：得到注意力。 $R = K \otimes Q$
第三步：得到注意力 + 位置编码。 $\hat{R}= R+P⊗Q$ 。其中, $P ∈ R^{k×k×C_k}$ 表示每个 $k \times k$ 网格内的 2D 相对位置嵌入，并且在所有 $C_h$ 头之间共享。
第四步：得到归一化之后的注意力机制。 $\hat{R})$
第五步：乘上 Value 得到最终的输出。 $Y = V \otimes A$
注意，论文中 $\otimes$ 被定义为：每个查询与空间中局部 k×k 网格内相应键之间的关系。我这里暂时理解为每个特征点的描述子为 $C_k$ 维度，对应位置相乘为 $C_k * C_k$ ，然后加在一起。

上图(b)即为作者提出的Cot模块的实现过程：
第一步：获取 $Q 、 K 、 V$ 。-> $K = X, Q = X, V = XW_v$
第二步：获取静态上下文 $K^1$ 。不同于图(a)采用1x1的卷积生成key矩阵，CoT模块首先采用 $k * k$ 的卷积提取上下文信息，这样得到的 $K^1$ 自然的可以反映近邻间的上下文信息，我们将其作为输入X的 静态上下文 表示。
第三步：获取 $A$ 注意力矩阵。将 $K^1$ 与 $Q$ 拼接起来,并且通过两个 $1 * 1$ 的卷积计算注意力矩阵 $A = [K^1, Q]W_θW_δ$ 。这样得到的注意力矩阵 $A$ 是通过 query 与提取了上下文信息的 $k^1$ 学习所得到的，并不是仅仅通过独立的query-key对得到的。也就是通过引入静态上下文表示增强了自注意力机制。
第四步：获取动态上下文表示： $K^2 = A ⊗ V$ 。
第五步：CoT 模块最终输出：CoT模块最终的输出为静态上下文表示 $K^1$ 和动态上下文表示 $K^2$ 的融合，

值得注意的是：
1、 $K^1$ 和 $K^2$ 的融合，在代码里作者采用的是SE注意力模块进行特征的融合，也可以使用相加的方式。
2、 $W_θ$ 带ReLU激活函数， $W_δ$ 不带激活函数.

2、模块使用地方：
作者设计的CoT模块是一个统一的 self-attention 块，可以直接用来代替 $3 * 3$ 卷积。也就是只要是 $3 * 3$ 卷积出现的地方，你都可以替换。

3、代码

import torch
from torch import nn
from torch.nn import init
from torch.nn import functional as F


class CoTAttention(nn.Module):

    def __init__(self, dim=512, kernel_size=3):
        super().__init__()
        self.dim = dim
        self.kernel_size = kernel_size

        # 用来生成静态上下文 K^1
        self.key_embed = nn.Sequential(
            nn.Conv2d(dim, dim, kernel_size=kernel_size, padding=kernel_size // 2, groups=4, bias=False),
            nn.BatchNorm2d(dim),
            nn.ReLU()
        )
        
        # 用来生成 V
        self.value_embed = nn.Sequential(
            nn.Conv2d(dim, dim, 1, bias=False),
            nn.BatchNorm2d(dim)
        )

        # 用来对 K^1 + Q 进行注意力计算,也就是使用 1 * 1的卷积来计算注意力
        # 这里和传统的自注意力采用q和k相乘不一样，这里采用q和k相加，然后再计算注意力
        factor = 4
        self.attention_embed = nn.Sequential(
            nn.Conv2d(2 * dim, 2 * dim // factor, 1, bias=False),
            nn.BatchNorm2d(2 * dim // factor),
            nn.ReLU(),
            nn.Conv2d(2 * dim // factor, kernel_size * kernel_size * dim, 1)
        )

        def init_weights(self):
            for m in self.modules():
                if isinstance(m, nn.Conv2d):
                    init.kaiming_normal_(m.weight, mode='fan_out')
                    if m.bias is not None:
                        init.constant_(m.bias, 0)
                elif isinstance(m, nn.BatchNorm2d):
                    init.constant_(m.weight, 1)
                    init.constant_(m.bias, 0)
                elif isinstance(m, nn.Linear):
                    init.normal_(m.weight, std=0.001)
                    if m.bias is not None:
                        init.constant_(m.bias, 0)

    def forward(self, x):
        bs, c, h, w = x.shape
        k1 = self.key_embed(x)  # bs,c,h,w
        v = self.value_embed(x).view(bs, c, -1)  # bs,c,h*w
        y = torch.cat([k1, x], dim=1)  # bs,2c,h,w
        att = self.attention_embed(y)  # bs,c*k*k,h,w
        att = att.reshape(bs, c, self.kernel_size * self.kernel_size, h, w)
        att = att.mean(2, keepdim=False).view(bs, c, -1)  # bs,c,h*w
        k2 = F.softmax(att, dim=-1) * v
        k2 = k2.view(bs, c, h, w)

        return k1 + k2


if __name__ == '__main__':
    input = torch.randn(50, 512, 7, 7)
    cot = CoTAttention(dim=512, kernel_size=3)
    output = cot(input)
    print(output.shape)

MobileViTAttention

SK

ShuffleAttention

S2Attention

ParNetAttention

CoordAttention

MHSA

A2Attention

GCAttention

EffectiveSE

GEAttention

CrissCrossAttention

Polarized Self-Attention

Sequential Self-Attention

GAM

Biformer

EMA

CloAttention

LSKBlock

ECA

全称：Efficient Channel Attention

背景提要：更复杂的注意力模块不可避免地增加了模型的复杂性。通过剖析 SENet 中的通道注意力模块，我们凭经验证明避免降维对于学习通道注意力非常重要，适当的跨通道交互可以保持性能，同时显着降低模型复杂性。因此，我们提出了一种无需降维的局部跨通道交互策略，可以通过一维卷积有效地实现。此外，我们开发了一种自适应选择一维卷积核大小的方法，确定局部跨通道交互的覆盖范围。

1、主要思想：使用 $1 * 1 * k$ 的卷积代替 SE 注意力机制中的全连接和降维操作，将全连接变成卷积操作，减少了计算量。并提出了自适应 k 值的选取策略，通过考虑每个通道及其 k 个邻居来捕获局部跨通道交互。

图示如下：

思想步骤解释：
第一步：作者从 SE 出发，说明避免降维。

SE模块的通道注意力通过下式计算：
$\omega = \sigma(f_{\{w_1, w_2\}}(g(X))),$
其中， $\frac{1}{WH}\sum_{i =1, j = 1}^{W, H}X_{i,j}$ 为全局平均池化。如果 $y = g (x)$ ，则 $f_{\{w_1, w_2\}}(y)$ 可以表示为 $f_{\{w_1, w_2\}}(y) = W_2ReLU(W_1y)$ ，也就是两层全连接。 $W_1$ 的尺度为 $R^{C*C/r}$ ， $W_2$ 的尺度为 $R^{C/r*C}$

作者阐述重新说明 SE 的原理，主要想给出下面的观点： $C / r$ 使得维数降低。可以降低模型复杂度，但它破坏了通道与其权重之间的直接对应关系。例如，单个 FC 层使用所有通道的线性组合来预测每个通道的权重。但是 SE 中两层全连接首先将通道特征投影到低维空间，然后将其映射回来，使得通道与其权重之间的对应关系是间接的(没有一一对应)。

为了说明 SE 中通道与其权重之间的对应关系是间接的。为了验证效果，论文中将原始 SE 块与其三个变体（即 SE-Var1、SE-Var2 和 SE-Var3）进行比较，所有变体均不执行降维。比较结果如下：

可以从实验对比上看得出，无参数的SE-Var1仍然优于原始网络，表明通道注意力有能力提高深度CNN的性能。同时，SE-Var2独立学习每个通道的权重，在涉及的参数较少的情况下略优于SE块。这可能表明通道及其权重需要直接对应，同时避免降维比考虑非线性通道依赖性更重要。此外，采用单个 FC 层的 SEVar3 的性能优于在 SE 块中进行降维的两个 FC 层。所有上述结果都清楚地表明，避免降维有助于学习有效的通道注意力。因此，我们开发了没有通道降维的 ECA 模块。

==>>> 所以通道降维不行

第二步：局部跨通道交互的方法

给定没有降维的聚合特征 $y ∈ R^C$ ，通道注意力可以通过以下方式学习：
$\omega = \sigma(Wy)$
其中， $W$ 是 $C * C$ 的参数矩阵，在 SE-Var2 和 SE-Var3 中， $W$ 矩阵的形式如下：(SE-Var2 为 1 对 1 全连接，SE-Var3 为 C 对 1 的全连接)
$\mathbf{W}=\left\{\begin{array}{c} \mathbf{W}_{\text {var } 2}=\left[\begin{array}{ccc} w^{1,1} & \ldots & 0 \\ \vdots & \ddots & \vdots \\ 0 & \ldots & w^{C, C} \end{array}\right] \\ \mathbf{W}_{\text {var } 3}=\left[\begin{array}{ccc} w^{1,1} & \ldots & w^{1, C} \\ \vdots & \ddots & \vdots \\ w^{1, C} & \ldots & w^{C, C} \end{array}\right] \end{array}\right.$
其中 SE-Var2 的 $W_{var2}$ 是对角矩阵，涉及C个参数； SE-Var3 的 $W_{var3}$ 是一个全矩阵，涉及 C×C 参数。如方程式所示。主要区别在于SE-Var3考虑了跨渠道交互，而SEVar2则没有，因此SE-Var3取得了更好的性能。这一结果表明跨渠道交互有利于学习渠道注意力。然而，SEVar3 需要大量参数，导致模型复杂度较高，特别是对于大通道数。

所以作者想折中两种方式：SE-Var2 和 SE-Var3 之间可能的折衷方案是将 $W_{var2}$ 扩展到块对角矩阵，即
$\mathbf{W}_{G}=\left[\begin{array}{ccc} \mathbf{W}_{G}^{1} & \cdots & \mathbf{0} \\ \vdots & \ddots & \vdots \\ \mathbf{0} & \cdots & \mathbf{W}_{G}^{G} \end{array}\right]$
是将通道分为 $G$ 组，每个组包括 $C / G$ 通道，并独立学习每个组中的通道注意力，以局部方式捕获跨通道交互。相应地，涉及到 $C^2/G$ 参数。从卷积的角度来看，SE-Var2、SEVar3和上诉方式可以分别视为深度可分离卷积、FC层和组卷积。这里，具有组卷积的 SE 块（SE-GC）由 $σ(GC_G(y)) = σ(W_Gy)$ 表示。然而，过多的组卷积会增加内存访问成本，从而降低计算效率。

此外，如实验对比表所示，具有不同组的 SE-GC 没有比 SE-Var2 带来任何增益，这表明它不是捕获本地跨通道交互的有效方案。原因可能是SE-GC完全抛弃了不同群体之间的依赖关系。

==>>> 所以组卷积不行。

结合上面的说明：作者采用带状矩阵 $W_k$ 来学习通道注意力， $W_k$ 形式如下：
$\begin{bmatrix}w^{1,1}&\cdots&w^{1,k}&0&0&\cdots&\cdots&0\\0&w^{2,2}&\cdots&w^{2,k+1}&0&\cdots&\cdots&0\\\vdots&\vdots&\vdots&\vdots&\ddots&\vdots&\vdots&\vdots\\0&\cdots&0&0&\cdots&w^{C,C-k+1}&\cdots&w^{C,C}\end{bmatrix}$
第一：避免了组卷积之间的完全独立。
第二：参数比较小。
第三：移动的考虑多个通道之间的关系。

具体公式如： $\omega_{i}=\sigma\bigg(\sum_{j=1}^{k}w_{i}^{j}y_{i}^{j}\bigg),y_{i}^{j}\in\Omega_{i}^{k}$
其中， $Ω^k_i$ 表示 $y_i$ 的 $k$ 个相邻通道的集合。

更有效的方法是让所有通道共享相同的学习参数，即：
$\omega_{i}=\sigma\bigg(\sum_{j=1}^{k}w^{j}y_{i}^{j}\bigg),y_{i}^{j}\in\Omega_{i}^{k}$
请注意，这种策略可以通过内核大小为 k 的快速一维卷积轻松实现，即:
$\omega=\sigma(\mathrm{C1D}_k(\mathbf{y})),$
其中 $C 1 D$ 表示一维卷积，仅涉及k个参数。实验证明，我们的 k = 3 的 ECA 模块实现了与 SE-var3 类似的结果，同时模型复杂度低得多，通过适当捕获本地跨渠道交互来保证效率和有效性。

第三步，确定 k 如何选取：局部跨通道交互覆盖
上述ECA模块旨在适当捕获局部跨道信息交互，因此需要确定通道交互信息的大致范围（即1D卷积的卷积核大小k）。虽然可以针对各种CNN架构中具有不同通道数的卷积块进行手动优化设置信息交互的最佳范围，但是通过手动进行交叉验证调整将花费大量计算资源。而且分组卷积已成功地用于改善CNN架构，在固定group数量的情况下，高维（低维）通道与长距离（短距离）卷积成正比。同理，跨通道信息交互作用的覆盖范围（即一维卷积的内核大小k）与通道维数C应该也是成正比的。换句话说，在k和C之间可能存在映射 $\phi$ ：
$C=\phi(k).$
最简单的映射是线性函数，即 $\phi(k) = γ ∗ k − b$ 。然而，以线性函数为特征的关系过于有限。另一方面，众所周知，通道维度 C（即滤波器的数量）通常设置为 2 的幂。因此，我们通过扩展线性函数 $\phi(k) = γ ∗ k − b$ 来引入一种可能的解决方案为非线性的，即
$C=\phi(k)=2^{(\gamma*k-b)},$
所以，给定通道维度 C，内核大小 k 可以自适应地确定为
$k=\psi(C)=\left|\frac{log_2(C)}{\gamma}+\frac{b}{\gamma}\right|_{odd},$
其中 $t|_{odd}$ 表示 t 最接近的奇数。在本文中，我们在所有实验中将 $γ$ 和 $b$ 分别设置为 2 和 1。显然，通过映射 $ψ$ ，高维通道具有较长范围的相互作用，而低维通道通过使用非线性映射进行较短范围的相互作用。

2、模块使用地方：ECA模块是一个即插即用的模块，可以在卷积模块之后直接插入ECA模块，也可以在残差结构里面添加了ECA模块。

3、代码

import numpy as np
import torch
from torch import nn
from torch.nn import init
from collections import OrderedDict


class ECAAttention(nn.Module):

    def __init__(self, kernel_size=3):
        super().__init__()
        self.gap = nn.AdaptiveAvgPool2d(1)
        self.conv = nn.Conv1d(1, 1, kernel_size=kernel_size, padding=(kernel_size - 1) // 2)
        self.sigmoid = nn.Sigmoid()
        
    def init_weights(self):
        for m in self.modules():
            if isinstance(m, nn.Conv2d):
                init.kaiming_normal_(m.weight, mode='fan_out')
                if m.bias is not None:
                    init.constant_(m.bias, 0)
            elif isinstance(m, nn.BatchNorm2d):
                init.constant_(m.weight, 1)
                init.constant_(m.bias, 0)
            elif isinstance(m, nn.Linear):
                init.normal_(m.weight, std=0.001)
                if m.bias is not None:
                    init.constant_(m.bias, 0)

    def forward(self, x):
        y = self.gap(x)  # bs,c,1,1
        y = y.squeeze(-1).permute(0, 2, 1)  # bs,1,c
        y = self.conv(y)  # bs,1,c
        y = self.sigmoid(y)  # bs,1,c
        y = y.permute(0, 2, 1).unsqueeze(-1)  # bs,c,1,1
        return x * y.expand_as(x)


if __name__ == '__main__':
    input = torch.randn(50, 512, 7, 7)
    eca = ECAAttention(kernel_size=3)
    output = eca(input)
    print(output.shape)

SimAM

全称： Simple, Parameter-Free Attention Module

背景提要：现有的注意力模块通常被继承到每个块中，以改进来自先前层的输出。这种细化步骤通常沿着通道维度(a)或空间维度(b)操作,这些方法生成一维或二维权重，并平等对待每个通道或空间位置中的神经元，
通道注意力：1D注意力，它对不同通道区别对待，对所有位置同等对待；
空域注意力：2D注意力，它对不同位置区别对待，对所有通道同等对待。
这可能会限制他们学习更多辨别线索的能力。因此三维权重(本文)优于传统的一维和二维权重注意力

1、主要思想：基于一些著名的神经科学理论，提出优化能量函数来找出每个神经元的重要性(三维权重)。

思想步骤解释：
为更好的实现注意力，我们需要评估每个神经元的重要性。在神经科学中，信息丰富的神经元通常表现出与周围神经元不同的放电模式。而且，激活神经元通常会抑制周围神经元，即空域抑制。换句话说，具有空域抑制效应的神经元应当赋予更高的重要性，找到这些神经元最简单的实现：测量一个目标神经元和其他神经元之间的线性可分性。

如何理解这个线性可分性：如果当前神经元和其他神经元差异性很明显的话，通过一层 $y = w x + b$ 的分类器，我们能够很容易的将其区分开，结果的均值和方差就很小。要是差异不大，很难分开，那结果的均值和方差就比较大。

基于这些神经科学发现，作者为每个神经元定义了以下能量函数:
$\begin{align} e_{t}\left(w_{t}, b_{t}, \mathbf{y}, x_{i}\right) = \left(y_{t}-\hat{t}\right)^{2}+\frac{1}{M-1} \sum_{i = 1}^{M-1}\left(y_{o}-\hat{x}_{i}\right)^{2} \end{align}$
其中： $\hat{t} = w_tt + b_t$ 和 $\hat{x}_i = w_tx_i + b_t$ 是 $t$ 和 $x_i$ 的线性变换，其中 $t$ 和 $x_i$ 是输入特征 $X ∈ R^{C×H×W}$ 的单个通道中的目标神经元和其他神经元。 $i$ 是空间维度上的索引， $M = H \times W$ 是该通道上的神经元数量。 $w_t$ 和 $b_t$ 是变换的权重和偏置，我们想要求解的就是 $w_t$ 和 $b_t$ 。
方程(1)中的所有值都是标量。当 $\hat{t}$ 等于 $y_t$ 且所有其他 $\hat{x}_i$ 均为 $y_o$ 时，方程（1）达到最小值，其中 $y_t$ 和 $y_o$ 是两个不同的值。

通过最小化方程，方程(1)相当于找到目标神经元 t 与同一通道中所有其他神经元之间的线性可分离性。为了简单起见，我们对 $y_t$ 和 $y_o$ 采用二进制标签（即 1 和 -1），并在方程（1）中添加权重正则化器。最终的能量函数由下式给出：
$\begin{align} e_{t}\left(w_{t}, b_{t}, \mathbf{y}, x_{i}\right) & =\frac{1}{M-1} \sum_{i=1}^{M-1}\left(-1-\left(w_{t} x_{i}+b_{t}\right)\right)^{2} & +\left(1-\left(w_{t} t+b_{t}\right)\right)^{2}+\lambda w_{t}^{2} \end{align}$

理论上，每个通道都有 M 个能量函数 (每个神经元一个)。通过 SGD 等迭代求解器求解所有这些方程的计算量非常大。幸运的是，方程(2)对于 $w_t$ 和 $b_t$ 有一个快速闭式解，可以通过以下方式轻松获得：
$\begin{align} w_t = −\frac{2(t − µ_t)}{(t − µ_t)^2 + 2σ^2_t + 2λ}, \\ b_t = −\frac{1}{2}(t + µ_t)w_t. \end{align}$
其中： $µ_t = \frac{1}{M−1} \sum^{M−1}_{i=1}x_i$ 和 $σ^2_t = \frac{1}{M−1}\sum^{M−1}_i (x_i−μ_t)^2$ 是对该通道中除 t 之外的所有神经元计算的平均值和方差。

由于方程（3）和方程（4）所示的现有解是在单个通道上获得的，因此可以合理地假设单个通道中的所有像素遵循相同的分布(均值和方差一样)。考虑到这一假设，可以计算所有神经元的平均值和方差，并为该通道上的所有神经元重复使用。它可以显着降低计算成本，避免迭代计算每个位置的 $µ$ 和 $σ$ 。
因此，最小能量可以通过以下公式计算：
$\begin{align} e_{t}^{*}=\frac{4\left(\hat{\sigma}^{2}+\lambda\right)}{(t-\hat{\mu})^{2}+2 \hat{\sigma}^{2}+2 \lambda}, \end{align}$
其中： $\hat{µ} = \frac{1}{M} \sum^{M}_{i=1}x_i$ 和 $\hat{σ}^2 = \frac{1}{M}\sum^{M}_i (x_i−\hat{μ})^2$ 是该通道所有神经元的平均值和方差。

公式(5)表明能量 $e^*_t$ 越低，神经元 $t$ 与周围神经元的区别越明显，对视觉处理越重要。因此，每个神经元的重要性可以通过 $1/e^*_t$ 得到。

哺乳动物大脑中的注意力调节通常表现为对神经元反应的增益（即缩放）效应。因此，我们使用缩放运算符而不是加法来进行特征细化。我们模块的整个细化阶段是：
$\begin{align} \hat{X} = sigmoid(\frac{1}{E}) \odot X = \sigma(\frac{(t-\hat{\mu})^{2}+2 \hat{\sigma}^{2}+2 \lambda}{4\left(\hat{\sigma}^{2}+\lambda\right)}) \odot X \\ = \sigma(\frac{(t-\hat{\mu})^{2}}{4\left(\hat{\sigma}^{2}+\lambda\right)} + 0.5) \odot X \end{align}$
其中: $E$ 将所有 $e^*_t$ 跨通道和空间维度进行分组。添加 $s i g m o i d$ 是为了限制 $E$ 值过大，不会影响每个神经元的相对重要性，因为 $s i g m o i d$ 是单峰函数。

论文给出的代码流程图如下：

值得注意的是：论文中唯一的超参数 $\lambda$ 在实验的时候为 $1 e - 4$ 。

2、模块使用地方：一个即插即用的模块，可以在卷积模块之后直接插入simAM模块。

3、代码

import torch
import torch.nn as nn


class SimAM(torch.nn.Module):
    def __init__(self, e_lambda=1e-4):
        super(SimAM, self).__init__()

        self.activaton = nn.Sigmoid()
        self.e_lambda = e_lambda

    def __repr__(self):
        s = self.__class__.__name__ + '('
        s += ('lambda=%f)' % self.e_lambda)
        return s

    @staticmethod
    def get_module_name():
        return "simam"

    def forward(self, x):
        b, c, h, w = x.size()
        n = w * h - 1
        # 计算(t-u)^2
        x_minus_mu_square = (x - x.mean(dim=[2, 3], keepdim=True)).pow(2)
        y = x_minus_mu_square / (4 * (x_minus_mu_square.sum(dim=[2, 3], keepdim=True) / n + self.e_lambda)) + 0.5

        return x * self.activaton(y)


if __name__ == '__main__':
    input = torch.randn(3, 64, 7, 7)
    model = SimAM()
    print(model)
    outputs = model(input)
    print(outputs.shape)

TripletAttention

SGE

全称：

背景提要：

1、主要思想：

简单图示如下：

思想步骤解释：

值得注意的是：

2、模块使用地方：

3、代码

import torch

你可能感兴趣的:(学习pytorch,深度学习之算法学习,Transformer,神经网络,人工智能,深度学习)

x86-64汇编语言训练程序与实战十除以十等于一
本文还有配套的精品资源，点击获取简介：汇编语言是一种低级语言，与机器代码紧密相关，特别适用于编写系统级代码及性能要求高的应用。nasm编译器是针对x86和x86-64架构的汇编语言编译器，支持多种语法风格和指令集。项目Euler提供数学和计算机科学问题，鼓励编程技巧应用，前100个问题的答案可共享。x86-64架构扩展了寄存器数量并引入新指令，提升了数据处理效率。学习汇编语言能够深入理解计算机底层
三菱PLC全套学习资料及应用手册 good2know
本文还有配套的精品资源，点击获取简介：三菱PLC作为工业自动化领域的核心设备，其系列产品的学习和应用需要全面深入的知识。本次资料包为学习者提供从基础到进阶的全方位学习资源，包括各种型号PLC的操作手册、编程指南、软件操作教程以及实际案例分析，旨在帮助用户系统掌握PLC的编程语言、指令系统及在各类工业应用中的实施。1.三菱PLC基础知识入门1.1PLC的基本概念可编程逻辑控制器（PLC）是工业自动化
日更006 终极训练营day3 懒cici
人生创业课（2）今天的主题：学习方法一：遇到有用的书，反复读，然后结合自身实际，列践行清单，不要再写读书笔记思考这本书与我有什么关系，我在哪些地方能用到，之后我该怎么用方法二：读完书没映像怎么办?训练你的大脑，方法：每读完一遍书，立马合上书，做一场分享，几分钟都行对自己的学习要求太低，要逼自己方法三：学习深度不够怎么办？找到细分领域的榜样，把他们的文章、书籍、产品都体验一遍，成为他们的超级用户，向
day15｜前端框架学习和算法 universe_01 前端算法笔记
T22括号生成先把所有情况都画出来，然后（在满足什么情况下）把不符合条件的删除。T78子集要画树状图，把思路清晰。可以用暴力法、回溯法和DFS做这个题DFS深度搜索：每个边都走完，再回溯应用：二叉树搜索，图搜索回溯算法=DFS+剪枝T200岛屿数量（非常经典BFS宽度把树状转化成队列形式，lambda匿名函数“一次性的小函数，没有名字”setup语法糖：让代码更简洁好写的语法ref创建：基本类型的
《极简思维》第三部分小洋苏兮
整理你的人际关系如何改善人际关系？摘录：因为人际关系问题是人们生活中不快乐的主要原因。感想：感觉这个说的挺对，之前我总是埋头学习，不管舍友不管自己的合作伙伴的一些事情，但实际上，这学期关注了之后好多了摘录：“亲密关系与社交会让你健康而快乐。这是基础。太过于关注成就或不太关心人际关系的人都不怎么快乐。基本上来说，人类就是建立在人脉关系上的。”感想：但是如果有时想的太多就不太好，要以一个开放的心态跟别
我不懂什么是爱，但我给你全部我拥有的香尧
因为怕黑，所以愿意陪伴在夜中行走的人，给他一点点的安全感。因为渴望温柔与爱，所以愿意为别的孩子付出爱与温柔。因为曾遭受侮辱和伤害，所以不以同样的方式施于其他人。如果你向别人出之以利刃，对方还了你爱与包容，真的不要感激他，真的不要赞美他。每一个被人伤害过的人心里都留下了一颗仇恨的种子，他也会想要有一天以眼还眼，以牙还牙。但他未让那颗种子生根发芽，他用一把心剑又一次刺向他自己，用他血荐仇恨，开出一朵温
你要记住，最重要的是:随时做好准备，为了你可能成为更好的自己，放弃现在的自己。霖霖z
打卡人:周云日期:2018年11月09日【日精进打卡第180天】【知～学习】《六项精进》0遍共214遍《通篇》1遍共106遍《大学》2遍共347遍《坚强工作，温柔生活》ok《不抱怨的世界》104-108页《经典名句》你要记住，最重要的是:随时做好准备，为了你可能成为更好的自己，放弃现在的自己。【行～实践】一、修身：（对自己个人）1、坚持打卡二、齐家：（对家庭和家人）打扫卫生，接送孩子，洗衣做饭，陪
贫穷家庭的孩子考上985以后会怎样？ Mellisa蜜思言
我出生在一个贫穷的农村家庭，据我妈说，我出生的时候才4斤多，而她生完我以后月子里就瘦到70斤。家里一直很穷，父母都是在菜市场卖菜的，家里还有几亩地种庄稼的。我很小开始就要去帮忙，暑假的生活就是帮忙去卖菜和割稻谷，那时候自己对于割稻谷这种事情有着莫名的恐惧，生怕自己长大以后还是每年都要过着割稻谷这种日子。父母因为忙于生计无暇顾及我的学习，幸好我因为看到他们这样子的生活，内心里有深深的恐惧感，驱使着我
Spring进阶 - SpringMVC实现原理之DispatcherServlet处理请求的过程倾听铃的声后端 spring java mvc 开发语言分布式
前文我们有了IOC的源码基础以及SpringMVC的基础，我们便可以进一步深入理解SpringMVC主要实现原理，包含DispatcherServlet的初始化过程和DispatcherServlet处理请求的过程的源码解析。本文是第二篇：DispatcherServlet处理请求的过程的源码解析。@pdaiSpring进阶-SpringMVC实现原理之DispatcherServlet处理请求的
2019-06-05 第十七把巴鲁克
今天去实验田里实习，见到了福寿螺真的可怕且牛皮，六级也快来了，说实话还是害怕。我昨天考了环工原理，真的太难了，太烦了，理工科真的难，烦。实验报告还是没写，要抓紧速度抓紧时间，还是应该学会努力学习，远离一些不上进的事物。
MotionLCM 部署优化踩坑解决bug AI算法网奇 aigc与数字人深度学习宝典文生motion
目录依赖项windowstorchok：渲染黑白图问题解决：humanml3d：sentence-t5-large下载数据：报错：Nomodulenamed'sentence_transformers'继续报错：fromtransformers.integrationsimportCodeCarbonCallback解决方法：推理相关转mesh：module‘matplotlib.cm‘hasno
恩小希美食成长日记之118：“摘星女神”王亚平归来，她的婚姻，治愈了多少职场女性的痛恩小希
上周最为热闹的消息,无疑是神舟13号的三位航天英雄回来了.其中,最为瞩目的就是王亚平.她是我国首位进行太空行走的女航天员,也是为自己小女儿“摘星星的妈妈”。作为最受关注的职场妈妈，王亚平之所以能够成就这样一番事业，跟背后默默支持她的丈夫--赵鹏分不开。01王亚平1980年出生于山东烟台。父母都是地地道道的农民。王亚平这个姑娘从小体质好，一直练习长跑。高中时，空军来家乡招收女飞行员，作为体育班里唯一
2019-07-30 西域社群
天地之间，分外热闹。望热浪涛涛，引无数帅哥竞开撩，夕窈窕淑女皆露腰。一代天骄，群里热闹。不见美女露妖娆，唯见帅哥手机忙，唐诗宋词，广为流传，惜字如金，声情并茂。君悉吾析，今日之局有套路，昨日之生惹人恋。聚往矣，数风流人物还看今朝！！
为什么焦虑、抑郁、自残的青少年越来越多？精神健康
很多家长觉得没缺孩子吃的穿的，他们有安稳的生活，他们有什么可焦虑、抑郁的，但现在的孩子，学习压力越来越大，每天休息的时间越来越少，出现焦虑抑郁是很正常的。从发展的角度看，青少年时期，人的身体、情绪，智力、人格都急剧发展，正从未成熟走向成熟，情绪起伏不定，易冲动，再者，由于缺乏生活经验，以及来自于家长、学校、社会的各种要求和压力，从而不知所措，心中的焦虑、恐惧、彷徨得不到及时的排解，从而导致心理上的
读书打卡《别想太多啦》 chenchen_68ed
第一，世间之事，不去尝试永远不知道其中的奥秘，在尝试中有失败是必然的。如果担心失败，那什么都学不会。第二，经历的失败越多，越会对失败者抱有宽容的态度，“原来如此，我也经历过类似的失败啦，那只是暂时的”。经历越多失败的长者，越能包容别人，这也就是所谓的“越年长越宽容”。成熟的人，就是在众多失败经历中不断学习，并接纳别人的失败。对于他人的小小过失不吹毛求疵，自己的心态会更加平和。在不断失败中学习，让自
2023-01-26 胡喜平
我觉得《可见的学习》一书确实从底层逻辑说清楚了，教学的本质。可是太多术语和概念，一时间难以消化啊。而且知道和懂得有距离，运用就更不行了，需要高手和专家的指导。我需要多听听新课标的讲座了，来反复印证。读论文也有了一点点灵感，明天修改我的论文。
【老房翻新】92平轻奢简约风，将和谐之美融入空间！没人比我更懂装修
在客厅空间中，设计师于冷静的空间基调中选用了层次感丰富的黄蓝色作为主要跳色，搭配黑白纹理的地毯与单椅，为空间增加了时尚摩登的气息。艺术感的单品突出点亮了空间，绿植的点缀、留白的软饰则增强了空间的呼吸性。点击此处添加图片说明文字点击此处添加图片说明文字设计师力求使每一处的设立都在空间中达到相互间的呼应与制衡，将艺术的跃动之美赋于空间之上，也将空间的和谐之美融于生活之中。点击此处添加图片说明文字点击此
平静得接受自己的笨拙 20190118 晨间日记吴伯符
图片发自App最近做了一个关于微习惯的分享，这里有八个字：微量开始，超额完成。这里的言下之意其实是要你在一开始的时候，平静地接受自己的笨拙。接受自己的笨拙，理解自己的笨拙，放慢速度尝试，观察哪里可以改进，再反复练习，观察自己哪里可以再进一步改进，再反复…这是学习一切技能的必须的过程。这里的两个关键点是：1.尽快的开始这个过程，这就能够用到微习惯的微量开始。2.尽快的度过这个过程，这就需要用到超额完
二十四节气组诗谷雨离陌_6639
图片来源网络，若侵犯了你的权益，请联系我删除6.谷雨文/离陌背上行囊背上如行囊的我从此任行程马不停蹄今天家乡的田野春雨快马加鞭播下希望的种子观音不语目送着我和夏天一道在观音山出关图片来源网络，若侵犯了你的权益，请联系我删除你好啊，我是离陌，已然在懵懂中走过了16年的岁月，为了珍惜当下的每一秒，所以立志做一名终身学习者。文学对于我来说是一种信仰，诗歌是我的生命。人生之道，四通八达，即入文学，自当持之
你好，2020年瑄瑄妍妍的妈咪
早上好，今天是2020年的第一天，也就是元旦，新年新的一天开始了。新的开始，重新规划未来的一年。从今天开始，用了一个新的记账软件，之前的随手记软件，也没有删除，只是重新下载了一个别的软件，开始一个新的记账旅程，对于理财开支，有个新的规划。通过小红书视频软件，学习了不少育儿知识，和各种不同的美食，以后动手制作，给宝宝做健康美味的营养餐。学习方面，继续学英语吧！虽然是抽出时间学的，进度也比较慢，但是积
营销活动-大转盘無缺520
写在前面最近，首先营销活动工具这块我是再熟悉不过了。曾经做了不下20个活动工具，然后通过监控活动数据反推活动的好坏。文中主要讲解幸运大转盘营销工具一.大转盘定义大转盘是比较常见的营销活动工具，它是通过消费者用户控制【开始/停止】操作获得奖品物品。用户在不知道自己能获得什么奖品的条件下，然后通过抽奖，大概率的获得未知的奖品。类似最近流行的盲盒玩法。二.为什么做大转盘大转盘是最常用的抽奖类的活动工具之
STM32入门之TIM基本定时器嵌入式白话 STM32入门学习 stm32 嵌入式硬件单片机
一、定时器简介定时器是嵌入式系统中的关键外设之一，它可以用于生成精确的延时、周期性中断、PWM波形生成等功能。在STM32F1系列单片机中，定时器不仅能为系统提供精确的时钟，还支持外部事件的捕获以及信号输出。对于定时器的功能，我们可以通过一个生活中非常常见的例子来形象地描述：微波炉的定时器。想象你正在使用微波炉加热食物。在微波炉里，定时器的作用就是帮助你控制食物加热的时间。当你设置了加热时间后，定
常规笔记本和加固笔记本的区别 luchengtech 电脑三防笔记本加固计算机加固笔记本
在现代科技产品中，笔记本电脑因其便携性和功能性被广泛应用。根据使用场景和需求的不同，笔记本可分为常规笔记本和加固笔记本，二者在多个方面存在显著区别。适用场景是区分二者的重要标志。常规笔记本主要面向普通消费者和办公人群，适用于家庭娱乐、日常办公、学生学习等相对稳定的室内环境。比如，人们在家用它追剧、处理文档，学生在教室用它完成作业。而加固笔记本则专为特殊行业设计，像军事、野外勘探、工业制造、交通运输
《云襄传》：云襄做的局是浑水摸鱼吗？书生号贺
云襄入南都是要浑水摸鱼吗？他是云台的高材生吗？他为啥笃定师父一定会让他留在南都？他为啥觉得他能够做局成功？他是在经商吗？还是在经营人心与欲望？云襄是云台弟子，云台属千门的一支，另一支叫凌渊，云台教人经商之道，重智慧，凌渊以武力取胜，但倍受打压。云襄学习十五年，下高山奔越州，途经南洋，因恩人闻聪被害，囚于白驹镇，念于情分，被卷入这样一个局面里，结识了舒亚南与金十两，于是，复仇小组成立，目标是南都漕帮
收集落叶申文秀
走啊，一起走，我们一起去收集落叶落叶的模样早已映入我的眼帘耳边已响起叶子落在地上的“沙沙”声走啊，去收集落叶，落叶是我们的回忆落叶的样子如此俏皮心形是写给秋姑娘的情书圆形是秋姑娘送给大地的礼物三角形是秋姑娘礼服上的碎珠片哟！秋姑娘举行的盛装宴会开始了你看！秋之宴会开始了松叶缓缓飘落在空中跳起了华尔兹枫叶跳着芭蕾兜着圈子盘旋而下银杏叶是杂技演员，正“七上八下”地翻跟头每个落叶都在宴会上展示自己最美妙
婴童医话（五百六十）妙手柯楠
探天地清浊之源，察阴阳顺逆之机。“乳食过饱蓄胃中，乳片不化吐频频，身热面黄腹膨胀。”伤乳吐者，因乳食过饱，停蓄胃中，以致运化不及，吐多乳片，犹如物盛满而上溢也。其证身热面黄，肚腹膨胀。治宜化其宿乳，安胃和中，节其乳食，自然止也。“过食伤胃腹胀热，恶食口臭吐酸粘，眼胞虚浮身潮热。”伤食吐者，因小儿饮食无节，过食油腻、面食等物，以致壅塞中脘而成也，其证肚腹胀热，恶食口臭，频吐酸粘，眼胞虚浮，身体潮热。
心力践行营十二期一阶学习打卡 LX_王彤彤
姓名：王彤彤时间：2021年4月24日一：朗读师父的十大人生哲学二：师父的早安分享感悟很喜欢这句话：所有的行动都是基于目标的尝试，没有所谓的失败，只是不同尝试后得到的不同结果，让我们更好地调整下一次的行动。三：感恩日记1.我太幸福了，我很感恩姑姑，因为姑姑放假又投喂了我，还给我带了饺子回家，这让我感觉很幸福。谢谢，谢谢，谢谢。2.我太幸福了，我很感恩师父晚上的直播，因为听他的分享我知道怎么更好的去
为了在未来的人工智能世界中取得成功，学生们必须学习人类写作的优点睿邸管家
澳大利亚各地的学生在新学年开始使用铅笔、钢笔和键盘学习写字。在工作场所，机器也在学习写作，如此有效，几年之内，它们可能会写得比人类更好。有时它们已经做到了，就像Grammarly这样的应用程序所展示的那样。当然，人类现在的日常写作可能很快就会由具有人工智能(AI)的机器来完成。手机和电子邮件软件常用的预测文本是无数人每天都在使用的一种人工智能写作形式。据AI行业研究机构称，到2022年，人工智能及
【阳光️️☀️苑长幸福365】7月9日《就此刻确知》阳光苑长
音频文字原创|阳光苑长图片发自App一夜的梦境，情景相当的壮烈，那是前前后后多个情节的叠加，那是因为极其在意在正义的，完满的，在早已经确认——万古之先已经确认了一切美好的事物当中。当有假象，当有一些不好的势力，试图想去破坏夺取的时候，在梦境中一直得力的征战，为着身边最挚爱的朋友，为他，为所有美好的事业而守望。守望，英文叫做watcher，就是观望者。图片发自App在这个毫不奇怪，事实上一直发生的征
闭组进行时... 李亚青_强化班
今天是2019年12月1号距离开始三月学习的日子:2019年10月07,已经过去将近两个月，回顾这一阶段的学习，收获了什么?又学会了什么呢?图片发自App我想，收获最大的就是身边这一群人吧,有和蔼可亲的学姐，贴心的学长，嬉戏打闹，玩的不亦乐乎，但也同样认真踏实学习小伙伴图片发自App本以为在这样的时刻，有太多太多话，太多太多想法想要表达，可言到此处，又觉得似乎没有什么想要说的了还是那句话，幸运遇到
桌面上有多个球在同时运动，怎么实现球之间不交叉，即碰撞？换个号韩国红果果 html 小球碰撞
稍微想了一下，然后解决了很多bug，最后终于把它实现了。其实原理很简单。在每改变一个小球的x y坐标后，遍历整个在dom树中的其他小球，看一下它们与当前小球的距离是否小于球半径的两倍？若小于说明下一次绘制该小球（设为a）前要把他的方向变为原来相反方向（与a要碰撞的小球设为b），即假如当前小球的距离小于球半径的两倍的话，马上改变当前小球方向。那么下一次绘制也是先绘制b，再绘制a，由于a的方向已经改变
《高性能HTML5》读后整理的Web性能优化内容白糖_ html5
读后感先说说《高性能HTML5》这本书的读后感吧，个人觉得这本书前两章跟书的标题完全搭不上关系，或者说只能算是讲解了“高性能”这三个字，HTML5完全不见踪影。个人觉得作者应该首先把HTML5的大菜拿出来讲一讲，再去分析性能优化的内容，这样才会有吸引力。因为只是在线试读，没有机会看后面的内容，所以不胡乱评价了。
[JShop]Spring MVC的RequestContextHolder使用误区 dinguangx jeeshop 商城系统 jshop 电商系统
在spring mvc中，为了随时都能取到当前请求的request对象，可以通过RequestContextHolder的静态方法getRequestAttributes()获取Request相关的变量，如request, response等。在jshop中，对RequestContextHolder的
算法之时间复杂度周凡杨 java 算法时间复杂度效率
在计算机科学中，算法的时间复杂度是一个函数，它定量描述了该算法的运行时间。这是一个关于代表算法输入值的字符串的长度的函数。时间复杂度常用大O符号表述，不包括这个函数的低阶项和首项系数。使用这种方式时，时间复杂度可被称为是渐近的，它考察当输入值大小趋近无穷时的情况。这样用大写O()来体现算法时间复杂度的记法，
Java事务处理 g21121 java
一、什么是Java事务通常的观念认为，事务仅与数据库相关。事务必须服从ISO/IEC所制定的ACID原则。ACID是原子性（atomicity）、一致性（consistency）、隔离性（isolation）和持久性（durability）的缩写。事务的原子性表示事务执行过程中的任何失败都将导致事务所做的任何修改失效。一致性表示当事务执行失败时，所有被该事务影响的数据都应该恢复到事务执行前的状
Linux awk命令详解 510888780 linux
一. AWK 说明 awk是一种编程语言，用于在linux/unix下对文本和数据进行处理。数据可以来自标准输入、一个或多个文件，或其它命令的输出。它支持用户自定义函数和动态正则表达式等先进功能，是linux/unix下的一个强大编程工具。它在命令行中使用，但更多是作为脚本来使用。 awk的处理文本和数据的方式：它逐行扫描文件，从第一行到
android permission 布衣凌宇 Permission
<uses-permission android:name="android.permission.ACCESS_CHECKIN_PROPERTIES" ></uses-permission>允许读写访问"properties"表在checkin数据库中，改值可以修改上传 <uses-permission android:na
Oracle和谷歌Java Android官司将推迟 aijuans java oracle
北京时间 10 月 7 日，据国外媒体报道，Oracle 和谷歌之间一场等待已久的官司可能会推迟至 10 月 17 日以后进行，这场官司的内容是 Android 操作系统所谓的 Java 专利权之争。本案法官 William Alsup 称根据专利权专家 Florian Mueller 的预测，谷歌 Oracle 案很可能会被推迟。　　该案中的第二波辩护被安排在 10 月 17 日出庭，从目前看来
linux shell 常用命令 antlove linux shell command
grep [options] [regex] [files] /var/root # grep -n "o" * hello.c:1:/* This C source can be compiled with:
Java解析XML配置数据库连接(DOM技术连接 SAX技术连接) 百合不是茶 sax技术 Java解析xml文档 dom技术 XML配置数据库连接
XML配置数据库文件的连接其实是个很简单的问题,为什么到现在才写出来主要是昨天在网上看了别人写的,然后一直陷入其中,最后发现不能自拔所以今天决定自己完成 ,,,,现将代码与思路贴出来供大家一起学习 XML配置数据库的连接主要技术点的博客; JDBC编程 : JDBC连接数据库 DOM解析XML: DOM解析XML文件 SA
underscore.js 学习（二） bijian1013 JavaScript underscore
Array Functions 所有数组函数对参数对象一样适用。1.first _.first(array, [n]) 别名: head, take 返回array的第一个元素，设置了参数n，就
plSql介绍 bijian1013 oracle 数据库 plsql
/* * PL/SQL 程序设计学习笔记 * 学习plSql介绍.pdf * 时间：2010-10-05 */ --创建DEPT表 create table DEPT ( DEPTNO NUMBER(10), DNAME NVARCHAR2(255), LOC NVARCHAR2(255) ) delete dept; select
【Nginx一】Nginx安装与总体介绍 bit1129 nginx
启动、停止、重新加载Nginx nginx 启动Nginx服务器，不需要任何参数u nginx -s stop 快速(强制)关系Nginx服务器 nginx -s quit 优雅的关闭Nginx服务器 nginx -s reload 重新加载Nginx服务器的配置文件 nginx -s reopen 重新打开Nginx日志文件
spring mvc开发中浏览器兼容的奇怪问题 bitray jquery Ajax springMVC 浏览器上传文件
最近个人开发一个小的OA项目,属于复习阶段.使用的技术主要是spring mvc作为前端框架,mybatis作为数据库持久化技术.前台使用jquery和一些jquery的插件. 在开发到中间阶段时候发现自己好像忽略了一个小问题,整个项目一直在firefox下测试,没有在IE下测试,不确定是否会出现兼容问题.由于jquer
Lua的io库函数列表 ronin47 lua io
1、io表调用方式：使用io表，io.open将返回指定文件的描述，并且所有的操作将围绕这个文件描述　　io表同样提供三种预定义的文件描述io.stdin,io.stdout,io.stderr 　　2、文件句柄直接调用方式,即使用file:XXX()函数方式进行操作,其中file为io.open()返回的文件句柄　　多数I/O函数调用失败时返回nil加错误信息,有些函数成功时返回nil
java-26-左旋转字符串 bylijinnan java
public class LeftRotateString { /** * Q 26 左旋转字符串 * 题目：定义字符串的左旋转操作：把字符串前面的若干个字符移动到字符串的尾部。 * 如把字符串abcdef左旋转2位得到字符串cdefab。 * 请实现字符串左旋转的函数。要求时间对长度为n的字符串操作的复杂度为O(n)，辅助内存为O(1)。 */ pu
《vi中的替换艺术》-linux命令五分钟系列之十一 cfyme linux命令
vi方面的内容不知道分类到哪里好，就放到《Linux命令五分钟系列》里吧！今天编程，关于栈的一个小例子，其间我需要把”S.”替换为”S->”(替换不包括双引号)。其实这个不难，不过我觉得应该总结一下vi里的替换技术了，以备以后查阅。 1 所有替换方案都要在冒号“:”状态下书写。 2 如果想将abc替换为xyz，那么就这样 :s/abc/xyz/ 不过要特别
[轨道与计算]新的并行计算架构 comsci 并行计算
我在进行流程引擎循环反馈试验的过程中，发现一个有趣的事情。。。如果我们在流程图的每个节点中嵌入一个双向循环代码段，而整个流程中又充满着很多并行路由，每个并行路由中又包含着一些并行节点，那么当整个流程图开始循环反馈过程的时候，这个流程图的运行过程是否变成一个并行计算的架构呢？
重复执行某段代码 dai_lm android
用handler就可以了 private Handler handler = new Handler(); private Runnable runnable = new Runnable() { public void run() { update(); handler.postDelayed(this, 5000); } }; 开始计时 h
Java实现堆栈（list实现） datageek 数据结构——堆栈
public interface IStack<T> { //元素出栈，并返回出栈元素 public T pop(); //元素入栈 public void push(T element); //获取栈顶元素 public T peek(); //判断栈是否为空 public boolean isEmpty
四大备份MySql数据库方法及可能遇到的问题 dcj3sjt126com DB backup
一：通过备份王等软件进行备份前台进不去？用备份王等软件进行备份是大多老站长的选择，这种方法方便快捷，只要上传备份软件到空间一步步操作就可以，但是许多刚接触备份王软件的客用户来说还原后会出现一个问题：因为新老空间数据库用户名和密码不统一，网站文件打包过来后因没有修改连接文件，还原数据库是好了，可是前台会提示数据库连接错误，网站从而出现打不开的情况。解决方法：学会修改网站配置文件，大多是由co
github做webhooks：[1]钩子触发是否成功测试 dcj3sjt126com github git webhook
转自: http://jingyan.baidu.com/article/5d6edee228c88899ebdeec47.html github和svn一样有钩子的功能，而且更加强大。例如我做的是最常见的push操作触发的钩子操作，则每次更新之后的钩子操作记录都会在github的控制板可以看到！工具/原料 github 方法/步骤
">的作用" target="_blank">JSP中的作用蕃薯耀
JSP中<base href="<%=basePath%>">的作用 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>
linux下SAMBA服务安装与配置 hanqunfeng linux
局域网使用的文件共享服务。一.安装包： rpm -qa | grep samba samba-3.6.9-151.el6.x86_64 samba-common-3.6.9-151.el6.x86_64 samba-winbind-3.6.9-151.el6.x86_64 samba-client-3.6.9-151.el6.x86_64 samba-winbind-clients
guava cache IXHONG cache
缓存，在我们日常开发中是必不可少的一种解决性能问题的方法。简单的说，cache 就是为了提升系统性能而开辟的一块内存空间。　　缓存的主要作用是暂时在内存中保存业务系统的数据处理结果，并且等待下次访问使用。在日常开发的很多场合，由于受限于硬盘IO的性能或者我们自身业务系统的数据处理和获取可能非常费时，当我们发现我们的系统这个数据请求量很大的时候，频繁的IO和频繁的逻辑处理会导致硬盘和CPU资源的
Query的开始--全局变量,noconflict和兼容各种js的初始化方法 kvhur JavaScript jquery css
这个是整个jQuery代码的开始，里面包含了对不同环境的js进行的处理，例如普通环境，Nodejs，和requiredJs的处理方法。还有jQuery生成$, jQuery全局变量的代码和noConflict代码详解完整资源： http://www.gbtags.com/gb/share/5640.htm jQuery 源码： (
美国人的福利和中国人的储蓄 nannan408
今天看了篇文章，震动很大，说的是美国的福利。美国医院的无偿入院真的是个好措施。小小的改善，对于社会是大大的信心。小孩，税费等，政府不收反补，真的体现了人文主义。美国这么高的社会保障会不会使人变懒？答案是否定的。正因为政府解决了后顾之忧，人们才得以倾尽精力去做一些有创造力，更造福社会的事情，这竟成了美国社会思想、人
N阶行列式计算(JAVA) qiuwanchi N阶行列式计算
package gaodai; import java.util.List; /** * N阶行列式计算 * @author 邱万迟 * */ public class DeterminantCalculation { public DeterminantCalculation(List<List<Double>> determina
C语言算法之打渔晒网问题 qiufeihu c 算法
如果一个渔夫从2011年1月1日开始每三天打一次渔，两天晒一次网，编程实现当输入2011年1月1日以后任意一天，输出该渔夫是在打渔还是在晒网。代码如下： #include <stdio.h> int leap(int a) /*自定义函数leap()用来指定输入的年份是否为闰年*/ { if((a%4 == 0 && a%100 != 0
XML中DOCTYPE字段的解析 wyzuomumu xml
DTD声明始终以!DOCTYPE开头,空一格后跟着文档根元素的名称,如果是内部DTD,则再空一格出现[],在中括号中是文档类型定义的内容. 而对于外部DTD,则又分为私有DTD与公共DTD,私有DTD使用SYSTEM表示,接着是外部DTD的URL. 而公共DTD则使用PUBLIC,接着是DTD公共名称,接着是DTD的URL. 私有DTD <!DOCTYPErootSYST