【论文精读】Swin Transformer

摘要

ViT的缺点：

Transformer在语言处理中的基本元素是word token，其特点是语义信息比较密集。而ViT中token的尺度（scale）是固定的，且视觉token携带的语义信息比语言文字序列差，故认为不适合视觉应用
图像分辨率高，像素点多，如果采用ViT模型，自注意力的计算量会与像素的平方成正比，计算复杂度过高是导致ViT速度慢的主要原因

故本文做出改进：

基于滑动窗口机制，具有层级设计（下采样层）的Swin Transformer。滑窗操作包括对token不重叠的local window，和对token重叠的cross-windos
将注意力计算限制在一个小窗口中，一方面能引入CNN卷积操作的局部性，另一方面能大幅度节省计算量，它只和窗口数量成线性关系
通过下采样的层级设计，能够逐渐增大感受野，从而使得注意力机制也能够注意到全局的特征

框架

给定图像 $x$ ，首先通过Patch拆分（Patch Partition）模块将输入的 $H\times W \times3$ 的RGB图像拆分为非重叠等尺寸的 $N\times(P^2\times3)$ 的patch。每个 $P^2\times3$ 的patch都被视为一个patch token，共拆分出 $N$ 个（即Transformer的有效输入序列长度）。

具体地，令 $P^2=4 \times 4$ 且通道数 $C = 3$ ，则各patch展平后的特征维度为 $\times P \times C = 4 \times 4 \times 3 = 48$ ，共有 $\frac H 4 \times \frac W 4 = \frac {HW} {16}$ 个patch tokens。换言之，每张 $H\times W \times3$ 的图片被处理为了 $\frac H 4 \times \frac W 4$ 个图片patches，每个patch被展平为48维的token向量（类似ViT的Flattened Patches），整体上是一个展平（flatten）的 $\times (P^2 \times 3) = (\frac H 4 \times \frac W 4) \times 48$ 的patch序列。

线性嵌入层（Linear Embedding）（即全连接层）会将此时维度为 $(\frac H 4 \times \frac W 4) \times 48$ 的张量投影到任意维度 $C$ ，得到维度为 $(\frac H 4 \times \frac W 4) \times C$ 的Linear Embedding。

随后，这些经过Linear Embedding的patch tokens被馈入若干具有改进自注意力的Swin Transformer blocks。首个Swin Transformer block保持输入输出tokens数恒为 $\frac H 4 \times \frac W 4 \times C$ 不变，且与线性嵌入层共同被指定为Stage 1（如图3的第一个虚线框所示）。

整个模型采取层次化的设计，一共包含4个Stage，每个stage都会缩小输入特征图的分辨率，逐层扩大感受野。随着网络的加深，tokens数逐渐通过Patch合并层（Patch Meraging）被减少。首个Patch合并层拼接了每组 $\times 2$ 相邻patch，则patch token数变为原来的 $\frac 1 4$ ，即 $\frac H 8 \times \frac W 8$ ，而patch token的维度扩大4倍，即 $4 C$ 。然后对 $4 C$ 维的patch拼接特征使用了一个线性层，将输出维度降为 $2 C$ ，得到维度为 $(\frac H 8 \times \frac W 8) \times 2C$ 的特征。然后使用Swin Transformer blocks进行特征转换，其分辨率保持 $\frac H 8 \times \frac W 8 \times 2C$ 不变。首个Patch合并层和该特征转换Swin Transformer block 被指定为 Stage 2（如图3的第二个虚线框所示）。重复2次与Stage 2相同过程，则分别指定为Stage 3和 Stage 4（如图3的第三、四个虚线框所示），输出 $\frac {分辨率} {patch token}$ 数分别为 $\frac H {16} \times \frac W {16} \times 4C$ 和 $\frac H {32} \times \frac W {32} \times 8C$ 。每个 Stage 都会改变张量的维度，从而形成一种层次化的表征。（如下图）

通过从小尺寸patch（灰色轮廓）开始，逐渐在更深的 Transformer 层中合并相邻patch，从而构造出一个层次化表示（hierarchical representation）。

线性计算复杂度通过在图像分区的非重叠窗口内，局部地计算自注意力来实现（红色轮廓），而非在整张图像的所有patch上进行。每个窗口中的patch数量是固定的，因此复杂度与图像大小成线性关系。

基于移位窗口的自注意力

$\Omicron(MHA)$ 的计算：
$MultiHead(Q,K,V)=Concat(head_1,\dots,head_h)W^o$

$where \ \ head_i=A(QW_i^Q,KW_i^K,VW_i^V)$
对于 multi-head attention,假设有h个 head，这里h是一个常数，对于每个 head，首先需要把三个矩阵分别映射到 $d_q$ , $d_k$ , $d_v$ 维度。考虑一种简化情况 $d_q=d_k=d_v= \frac d h$ ：

输入线性映射的复杂度: $\times d$ 与 $\times \frac d h$ 运算，忽略常系数，复杂度为 $\Omicron(nd^2)$
Attention操作复杂度：主要在相似度计算及加权和的开销上， $\times \frac d h$ 与 $\frac d h \times n$ 运算，复杂度为 $\Omicron(n^2d)$
输出线性映射的复杂度：concat操作拼起来形成 $\times d$ 的矩阵，然后经过输出线性映射，保证输入输出相同，所以是 $\times d$ 与 $\times d$ 计算，复杂度为 $\Omicron(nd^2)$

故MHA复杂度为 $\Omicron(n^2d+nd^2)$ ，当 $n >> d$ 时， $\Omicron(MHA)=\Omicron(n^2d)$ ，即 $\Omicron(MSA)=\Omicron(N^2D)$ 。标准的 Transformer 架构及其对图像分类的适应版本都执行全局自注意力，全局自注意力计算具有相对于 token 数的二次计算复杂度 $O(N^2D)$ ，使之不适用于许多需大量 tokens 的密集预测，高分辨率图像表示等高计算量视觉问题。

基于上述原因，提出非重叠的局部窗口中计算自注意力，取代全局自注意力。以不重叠的方式均匀地划分图像得到各个窗口（上图中的Layer1）。已知 $D = 2 C$ ，则设每个非重叠局部窗口都包含 $\times M$ 个patch tokens，则对比基于具有 $\times w$ 个 patch tokens 的图像窗口的MSA模块和基于非重叠局部窗口的 W-MSA 模块的计算复杂度分别是（参考 $\Omicron(MSA)$ ）：
$\varOmega(MSA)=4hwC^2+2(hw)^2C$

$\varOmega(W\text{--}MSA)=4hwC^2+2M^2hwC$
MSA 关于 patch token 数 $\times w$ 具有二次复杂度（共 $h w$ 个patch tokens，每个patch token在全局计算 $h w$ 次）。W-MSA 当M固定时（默认设为7）具有线性复杂度（共 $h w$ 个 patch tokens，每个 patch token 在各自的局部窗口内计算 $M^2$ 次）。证明基于窗口的自注意力W_MSA比MSA具有更好的扩展性。

其次，引入连续块中的移位窗口划分方法（上图中的Layerl+1），该方法在连续 Swin Transformer blocks 中的两种划分/分区配置间交替。首个模块使用一个规则的窗口划分策略，从左上角像素开始，将8×8特征图均匀划分为2×2个大小为4×4的窗口（此时局部窗口尺寸为 M=4，如红色框所示）。下个模块采用自前一层移位的窗口配置，即令规则划分窗口向左上循环移位（ $\lfloor \frac M 2 \rfloor$ , $\lfloor \frac M 2 \rfloor$ ）个像素，如上图的红色框位置变化所示。移位窗口划分方法引入了先前层非重叠相邻窗口间的联系。

上述操作即两个Swin Transformer block，如上图，计算可表示为：
$\^{z}^l=W\text{--}MSA(LN(z^{l-1}))+z^{l-1}$

$z^l=MLP(LN(\^{z}^{l}))+\^{z}^{l}$

$\^{z}^{l+1}=SW\text{--}MSA(LN(z^{l}))+z^{l}$

$z^{l+1}=MLP(LN(\^{z}^{l+1}))+\^{z}^{l+1}$
每个Swin Transformer block由一个基于移位窗口的MSA模块构成，且后接一个夹有 GeLU 非线性在中间的2层 MLP。LayerNorm（LN）层被应用于每个MSA模块和每个MLP前，且一个残差连接被应用于每个模块后，即非重叠的局部窗口中计算自注意力，其以不重叠的方式均匀地划分图像得到各个窗口。

移位运算

从 $\lceil \frac h M \rceil$ × $\lceil \frac w M \rceil$ 到 $(\lceil \frac h M \rceil +1)$ × $(\lceil \frac w M \rceil +1)$ 会产生更多窗口，有些窗口尺寸将小于 M×M,故提出循环向左上方移位。移位后，批窗口由特征图中不相邻的子窗口组成，因此使用屏蔽机制将自注意计算限制在每个子窗口内。通过循环移位，批处理窗口的数仍与规则分区的窗口数相同（如规则划分时是4个窗口，向左上角循环移位后仍是4个窗口，如下图的 A，B，C，D 所示）。

经过了循环移位的方法，一个窗口包含来自不同窗口的内容。故采用 masked MSA 机制将自注意力计算限制在各子窗口内，最后通过逆循环移位方法将每个窗口的自注意力结果返回。

相对位置编码

$Attention(Q,K,V)=SoftMax(QK^T/\sqrt d +B)V$
计算Attention的Query和Key时，加入相对位置编码 $B$ 可改善性能。其中， $\in \R^{M^2,d}$ 分别为Query，Key和Value矩阵， $d$ 为Query/Key维度， $M^2$ 为局部窗口内的patches数。因为沿各轴的相对位置均处于 $\lbrack -M+1,M-1 \rbrack$ 范围内，参数化一个更小尺寸的偏置矩阵 $\^B \in \R^{(2M-1) \times(2M-1)}$ ，且 $B$ 中的值均取自 $\^B$ 。

预训练中学习到的相对位置偏差也可以用来初始化一个模型，通过双三次插值进行不同窗口大小的微调。

体系结构变体

首先构建Swin-B作为基础模型，其具有与ViT-B/DeiT-B类似的模型大小和计算复杂度。其变体有Swin-T、Swin-S和Swin-L三个版本，相应大小和计算复杂度分别为Swin-B的0.25倍、0.5倍和2倍，其中Swin-T和Swin-S的复杂性类似于ResNet-50和ResNet-101。窗口大小默认设置为 $M = 7$ ，每个头的query维度 $d = 32$ ，每个MLP的层扩展尺度为 $α = 4$ 。详细超参数如下：

$Swin \\_T:C=96, \ layer \ numbers=\{2,2,6,2\}$
$Swin \\_S:C=96, \ layer \ numbers=\{2,2,18,2\}$
$Swin \\_B:C=128, \ layer \ numbers=\{2,2,18,2\}$
$Swin \\_L:C=192, \ layer \ numbers=\{2,2,18,2\}$

其中 $C$ 为第一阶段隐藏层的通道数。

详细的体系结构配置如上表。其中假设所有体系结构的输入图像大小为 $224 \times 224$ 。 $\ n × n$ 表示在一个patch中拼接 $n \times n$ 相邻特征，此操作对特征图进行 $n$ 倍的下采样。 $96 - d$ 表示输出维度为96的线性层。 $w in . sz .7 \times 7$ 表示一个多头自注意力模块，窗口大小为7 × 7。

对比实验

ImageNet-1K图像分类

对于图像分类，在ImageNet-1K上对所提出的Swin Transformer进行了基准测试，采用两种训练设置:

常规ImageNet-1K监督训练。ImageNet-1K包含来自1000个类别的128万张训练图像和50K验证图像。采用AdamW优化器，使用余弦衰减学习率调度器和20epoch的linear warm-up。batch size为1024，初始学习率为0.001，权重衰减为0.05
ImageNet-22K预训练，并在ImageNet-1K上进行微调。ImageNet-22K包含1420万张图像和22K个类别。采用AdamW优化器，该优化器使用线性衰减学习率调度器和5个epoch的linear warm-up。batch size为4096，初始学习率为0.001，权重衰减为0.01。在ImageNet-1K微调中，训练30个epoch的模型，batch size为1024，学习率为恒定10−5，权重衰减为10−8

结果如上图。常规ImageNet-1K监督训练结果如图a，与最先进的transformer架构DeiT相比，使用 $224^2$ 尺寸的输入时，Swin-T（81.3％）比DeiT-S（79.8％）高出1.5％，使用 $224^ 2 /384 ^2$ 尺寸输入时，Swin-B（83.3％/84.5％）比DeiT-B（81.8％/83.1％）分别高出1.5％/1.4％。与最先进的卷积网络RegNet和EfficientNet 相比，Swin Transformer实现了稍好的速度-精度平衡。

ImageNet-22K预训练的结果如图b。对于Swin-B，ImageNet-22K预训练比ImageNet-1K从头训练带来了1.8％∼ 1.9％的收益。与ImageNet-22K预训练之前的最佳结果相比，所提出模型实现了更好的速度-精度平衡，Swin-B获得了86.4％的top-1精度，比ViT提高了2.4％，同时具有类似的推理吞吐量（84.7 vs. 85.9张图像/秒）和略低的FLOPs（47.0G vs. 55.4G）。Swin-L取得了87.3％的top-1准确率，比Swin-B模型提高了0.9％。

COCO目标检测

本实验在COCO2017上进行目标检测和实例分割实验，COCO2017包含118K训练图像、5K验证图像和20K测试图像。使用验证集进行消融研究，在测试集上进行系统级比较。

对于框架消融研究，采用MMDetection中四个典型的目标检测框架：Cascade Mask R-CNN、ATSS、RepPoints v2和Sparse RCNN。对于这四个框架使用相同的设置，多尺度训练（调整输入，使较短的边长在480和800之间，而较长的边长最长为1333），AdamW 优化器（初始学习率0.0001，权重衰减0.05，batch size为16），36个epoch。
对于系统级比较，采用HTC++框架，其中策略包括instaboost、更强的多尺度训练、72个epoch、soft-NMS并使用ImageNet-22K预训练模型初始化骨干网路。

在此基础上，将Swin Transformer与标准卷积网络（ResNe(X)t）和之前的Transformer网络（DeiT）进行了比较（在其他设置不变的情况下，只改变骨干网络即可进行比较）。

结果如上图。表a为Swin-T和ResNet-50在四个目标检测框架上的结果，Swin-T 比ResNet-50带来了+3.4∼4.2 box AP增益，但模型大小、FLOPs和延迟稍大。表b使用Cascade Mask R-CNN比较了不同模型参数量下的Swin Transformer和ResNe(X)t，Swin-B实现了51.9boxAP和45.0maskAP的精度，比具有相似的模型大小、FLOPs和延迟的ResNeXt101- 64提升3.6boxAP和3.3maskAP。表c中，在使用HTC++框架的X101-64的52.3boxAP和46.0maskAP的基线上，HTC++框架的Swin-B提高4.1boxAP和3.1maskAP。

推理速度角度看，相比于表b中使用Cascade Mask R-CNN框架的DeiT-S，Swin-T比DeiT-S在相似的模型大小（86M vs. 80M）下提升+2.5box AP和2.3 Mask AP，并且具有更高的推理速度（15.3 FPS vs. 10.4 FPS）。

表c将Swin Transfromer的最佳结果与以前最先进的模型进行了比较。Swin-L 在COCO test-dev上实现了58.7 box AP和51.1 mask AP，超过了之前的最佳模型Copy-paste2.7box AP和2.6 mask AP。

ADE20K语义分割

ADE20K是一个语义分割数据集，涵盖了150个语义类别，总共有25K张图像，其中20K用于训练，2K用于验证，另外3K用于测试。本实验使用MMSeg中的UperNet作为基础框架。

结果如上图。其中列出了不同Method/backbone的mIoU、模型大小（#param）、FLOPs和FPS。观察到，在计算开销相当的情况下，UperNet/Swin-S比UperNet/DeiT-S高出5.3mIoU。比UperNet/ResNet-101高4.4 mIoU，比DLab.v3+/ResNeSt-101高2.4 mIoU。

使用ImageNet- 22K预训练的Swin-L模型在val集上达到了53.5 mIoU，超过了之前的最佳模型SETR/T-Large 3.2 mIoU的50.3 mIoU。

消融实验

本实验使用ImageNet-1K图像分类、用于COCO目标检测的Cascade Mask R-CNN、以及用于ADE20K语义分割的UperNet消融Swin Transformer中的重要设计元素。

移动窗口

这三个任务上移位窗口的消融情况如上图表4。具有移位窗口划分的Swin-T在每个阶段都比基于单个窗口划分构建的对应方法性能更好，在ImageNet-1K上提高了1.1％的top-1精度，在COCO上提高了2.8 box AP和2.2 mask AP，在ADE20K上提高了2.8 mIoU。实验结果表明，利用移位窗口建立前几层窗口之间的连接是有效的。

相对位置偏差

上图表4也显示了不同位置嵌入方法的结果。相对于没有位置嵌入和绝对位置嵌入的情况，带有相对位置嵌入的Swin-T在ImageNet-1K上的top-1精度为+1.2％/+0.8％，在COCO上为+1.3/+1.5 box AP和+1.1/+1.3 mask AP，在ADE20K上为+2.3/+2.9 mIoU，表明了相对位置偏差的有效性。

不同的自注意力方法

上表为使用不同自注意力方法的速度比较。观察到循环移位窗口比naive滑动窗口在Swin-T、Swin-S和Swin-B上提升了13％、18％和18％的速度。基于循环移位窗口的自注意力在四个网络阶段上分别比naive/kernel滑动窗口实现的自注意力快40.8 ×/2.5 ×，20.2 ×/2.5 ×，9.3 ×/2.1 ×和7.6 ×/1.8 ×，基于循环移位窗口的Swin Transformer分别比naive/kernel滑动窗口的Swin-T、Swin-S和Swin-B变体快4.1/1.5、4.0/1.5、3.6/1.5倍。

与最快的Transformer架构之一Performer相比，基于循环移位窗口的Swin Transformer稍快。

上表比较了几种注意力方法在三个任务上的准确性。观察到ImageNet-1K上基于循环位移窗口的 Swin-T比Performer提高2.3％的最高精度，和基于滑动窗口的方法精度类似。

reference

Liu, Z. , Lin, Y. , Cao, Y. , Hu, H. , Wei, Y. , & Zhang, Z. , et al. (2021). Swin transformer: hierarchical vision transformer using shifted windows.

【Python】一文详细介绍 py格式文件高斯小哥 Python基础【高质量合集】python 新手入门学习
【Python】一文详细介绍py格式文件个人主页：高斯小哥高质量专栏：Matplotlib之旅：零基础精通数据可视化、Python基础【高质量合集】、PyTorch零基础入门教程希望得到您的订阅和支持~创作高质量博文(平均质量分92+)，分享更多关于深度学习、PyTorch、Python领域的优质内容！（希望得到您的关注~）文章目录一、py格式文件简介二、如何创建和编辑py格式文件三、如何运行py
数据结构奇妙旅程之深入解析快速排序山间漫步人生路数据结构排序算法算法
快速排序（QuickSort）是一种高效的排序算法，它使用了分治法的策略来将一个数组排序。其基本思想是选择一个基准元素，通过一趟排序将待排序的数据分割成独立的两部分，其中一部分的所有数据都比基准元素小，另一部分的所有数据都比基准元素大，然后再按此方法对这两部分数据分别进行快速排序，整个排序过程可以递归进行，以此达到整个数据变成有序序列。工作原理选择基准：从待排序的序列中选一个元素作为基准（pivo
php 把一个数组分成有n个元素的二维数组的算法风清扬-独孤九剑 php php 算法
一、第一种解法0){$columns_map[$position]++;//这个地方格外注意,$position与$columns比较$position=($position<$columns-1)?++$position:0;$array_length--;}foreach($columns_mapas$val){$newarray[]=array_splice($array,0,$val);}
【算法分析与设计】去除重复字母五敷有你算法分析与设计 java javascript 开发语言算法数据结构
个人主页：五敷有你系列专栏：算法分析与设计⛺️稳中求进，晒太阳题目给你一个字符串s，请你去除字符串中重复的字母，使得每个字母只出现一次。需保证返回结果的字典序最小（要求不能打乱其他字符的相对位置）。示例示例1：输入：s="bcabc"输出："abc"示例2：输入：s="cbacdcbc"输出："acdb"思路贪心+单调栈实现【字符串删除一个字符使其字典序最小的贪心策略】：对于两个长度相同的字符串，
yarn的安装和使用全网最详细教程 zxj19880502 yarn npm
一、yarn的简介：Yarn是facebook发布的一款取代npm的包管理工具。二、yarn的特点：速度超快。Yarn缓存了每个下载过的包，所以再次使用时无需重复下载。同时利用并行下载以最大化资源利用率，因此安装速度更快。超级安全。在执行代码之前，Yarn会通过算法校验每个安装包的完整性。超级可靠。使用详细、简洁的锁文件格式和明确的安装算法，Yarn能够保证在不同系统上无差异的工作。三、yarn的
图论记录之最短路迪杰斯特拉 Just right 算法图论 java 开发语言
简述思想这个思想能用一句话来概括，精简到的极致:每次找到一个最短距离的点并更新起点到各个点的最短距离如果要可视化的话，B站搜索Dijksra算法，有视频讲解伪代码写到这里，其实是想整一个动画的，这样效果更好点，但由于种种原因所以就拖一下intdijkstr(){dist[1]=0;其余的点的距离全部初始化为真无穷，不要写成int的最大值迭代n次将不在s中的，且距离最近的点给tsj即先到t，再加上t
大创项目推荐深度学习 opencv python 公式识别(图像识别机器视觉) laafeer python
文章目录0前言1课题说明2效果展示3具体实现4关键代码实现5算法综合效果6最后0前言优质竞赛项目系列，今天要分享的是基于深度学习的数学公式识别算法实现该项目较为新颖，适合作为竞赛课题方向，学长非常推荐！学长这里给一个题目综合评分(每项满分5分)难度系数：3分工作量：4分创新点：4分更多资料,项目分享：https://gitee.com/dancheng-senior/postgraduate1课题
ES-LTR粗排模块 poins jenkins 运维
ES-LTR粗排模块官方资源：https://github.com/HeiBoWang/elasticsearch-learning-to-rankElasticsearch学习排名插件使用机器学习提高搜索相关性排名。它为维基媒体基金会和Snagajob等地方的搜索提供了动力！这个插件有什么功能此插件：允许您在Elasticsearch中存储特征（Elasticsearch查询模板）记录特征得分（
Ai插件脚本合集安装包，免费教程视频网盘分享全网优惠分享君
随着人工智能技术的不断发展，越来越多的插件脚本涌现出来，为我们的生活和工作带来了便利。然而，如何快速、方便地获取和使用这些插件脚本呢？今天，我将为大家分享一个非常实用的资源——AI插件脚本合集安装包，以及免费教程视频网盘分享。首先，让我们来了解一下这个AI插件脚本合集安装包。它是一个集合了众多AI插件脚本的资源包，涵盖了各种领域，如数据分析、自动化办公、智能客服等等。通过这个安装包，用户可以轻松地
过去一年，这16本好书不容错过 m0_54050778 perl
编者按：2023年在动荡与希望中收尾，2023年注定会被载入史册。疫情寒冬结束，ChatGPT横空出世，带动了人工智能技术的飞速发展；淄博烧烤、天津大爷、尔滨之旅等充满感动与幸福。但与此同时，2023年又是动荡与不安的一年，俄乌冲突的延宕，新一轮的巴以冲突，极端天气频发。在这个大环境下，有一些经典的书籍著作诞生。本文将分享2023年最值得一读的16本书籍，文章来自翻译，希望对你有所启示。关于202
排序算法太多？常用排序都在这了，一篇文章总结和实现所有面试会考的排序算法（基于Python实现）宇宙之一粟不归路之Python #IT面试题收集与总结数据结构与算法算法数据结构排序算法 python java
文章目录排序算法1.常见的排序算法1.1选择排序1.1.1思想1.1.2实现**1.1.3选择排序分析**1.2冒泡排序**1.2.1思想****1.2.2实现****1.2.3冒泡排序分析**1.3插入排序**1.3.1思想****1.3.2实现****1.3.3插入排序分析**1.4归并排序☆☆★**1.4.1思想****1.4.2实现****1.4.3归并排序分析**1.5快速排序☆★★**
【数据结构】实验一实现顺序表各种基本运算的算法张鱼·小丸子数据结构实验 c++数据结构
题目：实现顺序表各种基本运算的算法要求：1、建立一个顺序表，输入n个元素并输出；2、查找线性表中的最大元素并输出；3、在线性表的第i个元素前插入一个正整数x；4、删除线性表中的第j个元素；5、将线性表中的元素按升序排列；6、将线性表中的元素就地逆序（只允许用一个暂存单元）；#include#defineSIZE1000usingnamespacestd;typedefstruct{int*a;//
python清华大学出版社答案_Python机器学习及实践 weixin_39805119 python清华大学出版社答案
第1章机器学习的基础知识1.1何谓机器学习1.1.1传感器和海量数据1.1.2机器学习的重要性1.1.3机器学习的表现1.1.4机器学习的主要任务1.1.5选择合适的算法1.1.6机器学习程序的步骤1.2综合分类1.3推荐系统和深度学习1.3.1推荐系统1.3.2深度学习1.4何为Python1.4.1使用Python软件的由来1.4.2为什么使用Python1.4.3Python设计定位1.4.
UNDERSTANDING HTML WITH LARGE LANGUAGE MODELS liferecords LLM 语言模型人工智能自然语言处理
UNDERSTANDINGHTMLWITHLARGELANGUAGEMODELS相关链接：arXiv关键字：大型语言模型、HTML理解、Web自动化、自然语言处理、机器学习摘要大型语言模型（LLMs）在各种自然语言任务上表现出色。然而，它们在HTML理解方面的能力——即解析网页的原始HTML，对于自动化基于Web的任务、爬取和浏览器辅助检索等应用——尚未被充分探索。我们为HTML理解模型（经过微调
Java回溯知识点（含面试大厂题和源码）一成码农 java 面试开发语言
回溯算法是一种通过遍历所有可能的候选解来寻找所有解的算法，如果候选解被确认不是一个解（或至少不是最后一个解），回溯算法会通过在上一步进行一些变化来丢弃这个解，即“回溯”并尝试另一个候选解。回溯法通常用递归方法来实现，在解决排列、组合、选择问题时非常有效。回溯算法的核心要点：路径：也就是已经做出的选择。选择列表：也就是你当前可以做的选择。结束条件：也就是到达决策树底层，无法再做出选择的条件。回溯算法
深度学习项目-基于深度学习的股票价格预测研究雅致教育计算机毕业设计深度学习人工智能
概要随着经济的发展，中国股票市场的规模持续扩大，早已成为金融投资的重要部分，掌握股票市场的变化规律无论是对监管者还是投资者都具有极其重要的意义。正因如此，人们不断探索着股票市场的变化规律，其中使用深度学习预测股价是当前国内国际研究与应用的热点。本文首先从有效市场假说和分形市场假说两个角度讨论了中国股票市场的有效性，说明股票市场具有复杂的非线性特征。其次，结合股票市场特征对比了当前的预测方法
第七章索引及执行计划，存储引擎执笔为剑 #MySQL运维篇编辑器 mysql
第七章索引及执行计划，存储引擎1，索引及执行计划1，作用：提供类似书目录的作用，目的是优化查询2，所用的种类（根据算法）B树索引Hash索引R树FulltextGIS3，B树基于不同的查找算法分类介绍B-tree：在范围查询方面提供了更好的性能（>showengines;#存储引擎作用在表上，不同的表可能有不同的存储引擎mysql>select@@default_storage_engine;#查
Java面试题：解释JVM的内存结构，并描述堆、栈、方法区在内存结构中的角色和作用，Java中的多线程是如何实现的，Java垃圾回收机制的基本原理，并讨论常见的垃圾回收算法杰哥在此 Java系列 java jvm 算法面试
Java内存模型与多线程的深入探讨在Java的世界里，内存模型和多线程是开发者必须掌握的核心知识点。它们不仅关系到程序的性能和稳定性，还直接影响到系统的可扩展性和可靠性。下面，我将通过三个面试题，带领大家深入理解Java内存模型、多线程以及并发编程的相关原理和实践。面试题一：请解释JVM的内存结构，并描述堆、栈、方法区在内存结构中的角色和作用。关注点：JVM内存结构的基本组成堆、栈、方法区的功能和
ChatGPT技巧大揭秘：AI写代码新境界 2401_83550420 chatgpt4.0 chatgpt chatgpt 人工智能 AI写作
ChatGPT无限次数:点击直达ChatGPT技巧大揭秘：AI写代码新境界随着人工智能技术的不断进步，开发人员现在有了更多有趣的工具来提高他们的工作效率。其中，ChatGPT作为一种基于深度学习的自然语言处理模型，已经成为许多开发者的新宠。在本文中，我们将揭秘使用ChatGPT来帮助编写代码的技巧，探索AI在编程领域的新境界。ChatGPT简介ChatGPT是一种基于大型神经网络的对话生成模型，它
ChatGPT：AI合作伙伴助你成为论文写作高手 2401_83550420 chatgpt chatgpt 人工智能 AI写作
ChatGPT无限次数:点击直达摘要：本文将介绍ChatGPT3.5Turbo（以下简称ChatGPT），一款强大的AI合作伙伴，能够助你成为一名论文写作高手。我们将深入探讨ChatGPT的特点、优势，并提供多个示例，展示ChatGPT在论文写作中的应用。无论是开展研究、撰写论文、还是与ChatGPT进行互动交流，都能够帮助你提升写作效率和质量。引言：随着人工智能的发展，聊天型语言模型在各个领域都
优化选址问题 | 基于和声搜索算法求解基站选址问题含Matlab源码天天酷科研优化选址问题（LP）matlab 和声搜索算法基站选址问题
目录问题代码问题和声搜索算法（HarmonySearch,HS）是一种模拟音乐创作过程中乐师们凭借自己的记忆，通过反复调整各乐器的音调，直至达到最美和声状态为启发，通过反复调整解向量的各分量来寻求全局最优解的智能优化算法。下面是一个基于和声搜索算法求解基站选址问题的Matlab伪代码框架。请注意，这个框架是一个基本的实现，你可能需要根据你的具体问题和约束条件进行调整和优化。代码%和声搜索算法求解基
AI大模型学习：开启智能时代的新篇章游向大厂的咸鱼人工智能学习
随着人工智能技术的不断发展，AI大模型已经成为当今领先的技术之一，引领着智能时代的发展。这些大型神经网络模型，如OpenAI的GPT系列、Google的BERT等，在自然语言处理、图像识别、智能推荐等领域展现出了令人瞩目的能力。然而，这些模型的背后是一系列复杂的学习过程，深度学习技术的不断演进推动了AI大模型学习的发展。首先，AI大模型学习的基础是深度学习技术。深度学习是一种模仿人类大脑结构的机器
【Python】成功解决ModuleNotFoundError: No module named ‘torchinfo‘ 高斯小哥 BUG解决方案合集 python pytorch 新手入门学习 debug
【Python】成功解决ModuleNotFoundError:Nomodulenamed‘torchinfo’个人主页：高斯小哥高质量专栏：Matplotlib之旅：零基础精通数据可视化、Python基础【高质量合集】、PyTorch零基础入门教程希望得到您的订阅和支持~创作高质量博文(平均质量分92+)，分享更多关于深度学习、PyTorch、Python领域的优质内容！（希望得到您的关注~）文
OpenCV（一个C++人工智能领域重要开源基础库）简介愚梦者 OpenCV 人工智能人工智能 opencv c++图像处理计算机视觉开源
返回：OpenCV系列文章目录（持续更新中......）上一篇：OpenCV4.9.0配置选项参考下一篇：OpenCV4.9.0开源计算机视觉库安装概述引言：OpenCV（全称OpenSourceComputerVisionLibrary）是一个基于开放源代码发行的跨平台计算机视觉库，可以用来进行图像处理、计算机视觉和机器学习等领域的开发。该库由英特尔公司于1999年开始开发，最初是为了加速处理器
【循环神经网络rnn】一篇文章讲透 CX330的烟花 rnn 人工智能深度学习算法 python 机器学习数据结构
目录引言二、RNN的基本原理代码事例三、RNN的优化方法1长短期记忆网络（LSTM）2门控循环单元（GRU）四、更多优化方法1选择合适的RNN结构2使用并行化技术3优化超参数4使用梯度裁剪5使用混合精度训练6利用分布式训练7使用预训练模型五、RNN的应用场景1自然语言处理2语音识别3时间序列预测六、RNN的未来发展七、结论引言众所周知，CNN与循环神经网络（RNN）或生成对抗网络（GAN）等算法结
零基础机器学习(5)之线性回归模型的性能评估一只特立独行猪机器学习机器学习线性回归人工智能
文章目录线性回归模型的性能评估1.举例1-单一特征2.举例2-多特征线性回归模型的性能评估评估线性回归模型时，首先要建立评估的测试数据集（测试集不能与训练集相同），然后选择合适的评估方法，实现对线性回归模型的评估。回归任务中最常用的评估方法有均方误差、均方根误差和预测准确率（确定系数）。1.举例1-单一特征分别对两个模型进行评估，输入的测试集如表所示。面积/（m2）售价/（万元）面积/（m2）售价
ChatGPT：智能论文写作指南，让您成为写作高手 AI臻蚌 chatgpt4.0 chatgpt chatgpt 人工智能 AI写作
ChatGPT无限次数:点击直达写作是学术研究中不可或缺的一环，然而，对于许多人来说，写作往往是一项艰巨而费时的任务。但是，现在有了ChatGPT，您将能够以前所未有的速度和准确性编写高质量的论文。本文将向您介绍如何利用ChatGPT的强大功能成为写作高手，并为您提供一些示例，展示其在不同领域的应用。1.简介ChatGPT是一种基于人工智能的语言模型，它可以理解并生成人类语言。通过训练大量的语料库
ChatGPT神技：AI成为你的编程良友 2401_83481083 chatgpt4.0 chatgpt chatgpt 人工智能 AI写作
ChatGPT无限次数:点击直达ChatGPT神技：AI成为你的编程良友近年来，人工智能技术的发展迅猛，ChatGPT作为其中一项创新技术，正逐渐走进我们的生活。在编程领域，AI不仅可以助力我们提高效率，还能成为我们的良友，帮助解决各种编程难题。一、ChatGPT简介ChatGPT是一种基于自然语言处理技术的人工智能模型，它能够生成类人对话。ChatGPT通过深度学习模型，能够理解输入的文本并生成
15届蓝桥杯备赛(3) sad_liu #sad_liu的刷题记录蓝桥杯职场和发展
文章目录15届蓝桥杯备赛(3)回溯算法组合组合总和III电话号码的字母组合组合总和组合总和II分割回文串子集子集II非递减子序列全排列全排列II贪心算法分发饼干最大子数组和买股票的最佳时机II跳跃游戏15届蓝桥杯备赛(3)提高C++程序的输入输出效率，尤其是在需要大量输入输出操作时。ios_base::sync_with_stdio(false);cin.tie(nullptr);cout.tie
数字逻辑不可能涌现出智能 dog250 人工智能
先看一系列竖式乘法的步骤：相乘的两个数数位越大，步骤越多。如果不纠结数制，二进制运算也是这回事，把单个步骤用一个晶体管表达(其实一个步骤不止一个晶体管)，数位越大，所需的晶体管越多。先说结论，所有基于n进制的逻辑运算都不可扩展。硅基时序电路可如此巧妙完成精确计算，开启了数字化时代，人们试图将AI构建在这二进制世界。但若二进制运算不可扩展，基于数字逻辑的人工智能就不可能。前面提到过，二进制运算本质上
设计模式介绍 tntxia 设计模式
设计模式来源于土木工程师克里斯托弗亚历山大（http://en.wikipedia.org/wiki/Christopher_Alexander）的早期作品。他经常发表一些作品，内容是总结他在解决设计问题方面的经验，以及这些知识与城市和建筑模式之间有何关联。有一天，亚历山大突然发现，重复使用这些模式可以让某些设计构造取得我们期望的最佳效果。亚历山大与萨拉-石川佳纯和穆雷西乐弗斯坦合作
android高级组件使用(一) 百合不是茶 android RatingBar Spinner
1、自动完成文本框（AutoCompleteTextView） AutoCompleteTextView从EditText派生出来，实际上也是一个文本编辑框，但它比普通编辑框多一个功能：当用户输入一个字符后，自动完成文本框会显示一个下拉菜单，供用户从中选择，当用户选择某个菜单项之后，AutoCompleteTextView按用户选择自动填写该文本框。使用AutoCompleteTex
[网络与通讯]路由器市场大有潜力可挖掘 comsci 网络
如果国内的电子厂商和计算机设备厂商觉得手机市场已经有点饱和了,那么可以考虑一下交换机和路由器市场的进入问题..... 这方面的技术和知识,目前处在一个开放型的状态,有利于各类小型电子企业进入 &nbs
自写简单Redis内存统计shell 商人shang Linux shell 统计Redis内存
#!/bin/bash address="192.168.150.128:6666,192.168.150.128:6666" hosts=(${address//,/ }) sfile="staticts.log" for hostitem in ${hosts[@]} do ipport=(${hostitem
单例模式(饿汉 vs懒汉) oloz 单例模式
package 单例模式; /* * 应用场景:保证在整个应用之中某个对象的实例只有一个 * 单例模式种的《懒汉模式》 * */ public class Singleton { //01 将构造方法私有化，外界就无法用new Singleton()的方式获得实例 private Singleton(){}; //02 申明类得唯一实例 priva
springMvc json支持杨白白 json springmvc
1.Spring mvc处理json需要使用jackson的类库，因此需要先引入jackson包 2在spring mvc中解析输入为json格式的数据:使用@RequestBody来设置输入 @RequestMapping("helloJson") public @ResponseBody JsonTest helloJson() {
android播放，掃描添加本地音頻文件小桔子
最近幾乎沒有什麽事情，繼續鼓搗我的小東西。想在項目中加入一個簡易的音樂播放器功能，就像華為p6桌面上那麼大小的音樂播放器。用過天天動聽或者QQ音樂播放器的人都知道，可已通過本地掃描添加歌曲。不知道他們是怎麼實現的，我覺得應該掃描設備上的所有文件，過濾出音頻文件，每個文件實例化為一個實體，記錄文件名、路徑、歌手、類型、大小等信息。具體算法思想，
oracle常用命令 aichenglong oracle dba 常用命令
1 创建临时表空间 create temporary tablespace user_temp tempfile 'D:\oracle\oradata\Oracle9i\user_temp.dbf' size 50m autoextend on next 50m maxsize 20480m extent management local
25个Eclipse插件 AILIKES eclipse插件
提高代码质量的插件1. FindBugsFindBugs可以帮你找到Java代码中的bug，它使用Lesser GNU Public License的自由软件许可。2. CheckstyleCheckstyle插件可以集成到Eclipse IDE中去，能确保Java代码遵循标准代码样式。3. ECLemmaECLemma是一款拥有Eclipse Public License许可的免费工具，它提供了
Spring MVC拦截器+注解方式实现防止表单重复提交 baalwolf spring mvc
原理：在新建页面中Session保存token随机码，当保存时验证，通过后删除，当再次点击保存时由于服务器端的Session中已经不存在了，所有无法验证通过。 1.新建注解： ? 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18
《Javascript高级程序设计(第3版)》闭包理解 bijian1013 JavaScript
“闭包是指有权访问另一个函数作用域中的变量的函数。”--《Javascript高级程序设计(第3版)》看以下代码： <script type="text/javascript"> function outer() { var i = 10; return f
AngularJS Module类的方法 bijian1013 JavaScript AngularJS Module
AngularJS中的Module类负责定义应用如何启动，它还可以通过声明的方式定义应用中的各个片段。我们来看看它是如何实现这些功能的。一.Main方法在哪里如果你是从Java或者Python编程语言转过来的，那么你可能很想知道AngularJS里面的main方法在哪里？这个把所
[Maven学习笔记七]Maven插件和目标 bit1129 maven插件
插件(plugin)和目标(goal) Maven，就其本质而言，是一个插件执行框架，Maven的每个目标的执行逻辑都是由插件来完成的，一个插件可以有1个或者几个目标，比如maven-compiler-plugin插件包含compile和testCompile，即maven-compiler-plugin提供了源代码编译和测试源代码编译的两个目标使用插件和目标使得我们可以干预
【Hadoop八】Yarn的资源调度策略 bit1129 hadoop
1. Hadoop的三种调度策略 Hadoop提供了3中作业调用的策略， FIFO Scheduler Fair Scheduler Capacity Scheduler 以上三种调度算法，在Hadoop MR1中就引入了，在Yarn中对它们进行了改进和完善.Fair和Capacity Scheduler用于多用户共享的资源调度 2. 多用户资源共享的调度
Nginx使用Linux内存加速静态文件访问 ronin47
Nginx是一个非常出色的静态资源web服务器。如果你嫌它还不够快，可以把放在磁盘中的文件，映射到内存中，减少高并发下的磁盘IO。先做几个假设。nginx.conf中所配置站点的路径是/home/wwwroot/res，站点所对应文件原始存储路径：/opt/web/res shell脚本非常简单，思路就是拷贝资源文件到内存中，然后在把网站的静态文件链接指向到内存中即可。具体如下：
关于Unity3D中的Shader的知识 brotherlamp unity unity资料 unity教程 unity视频 unity自学
首先先解释下Unity3D的Shader，Unity里面的Shaders是使用一种叫ShaderLab的语言编写的，它同微软的FX文件或者NVIDIA的CgFX有些类似。传统意义上的vertex shader和pixel shader还是使用标准的Cg/HLSL 编程语言编写的。因此Unity文档里面的Shader，都是指用ShaderLab编写的代码，然后我们来看下Unity3D自带的60多个S
CopyOnWriteArrayList vs ArrayList bylijinnan java
package com.ljn.base; import java.util.ArrayList; import java.util.Iterator; import java.util.List; import java.util.concurrent.CopyOnWriteArrayList; /** * 总述： * 1.ArrayListi不是线程安全的，CopyO
内存中栈和堆的区别 chicony 内存
1、内存分配方面：堆：一般由程序员分配释放，若程序员不释放，程序结束时可能由OS回收。注意它与数据结构中的堆是两回事，分配方式是类似于链表。可能用到的关键字如下：new、malloc、delete、free等等。栈：由编译器(Compiler)自动分配释放，存放函数的参数值，局部变量的值等。其操作方式类似于数据结构中
回答一位网友对Scala的提问 chenchao051 scala map
本来准备在私信里直接回复了，但是发现不太方便，就简要回答在这里。问题写道对于scala的简洁十分佩服，但又觉得比较晦涩，例如一例，Map("a" -> List(11,111)).flatMap(_._2)，可否说下最后那个函数做了什么，真正在开发的时候也会如此简洁？谢谢先回答一点，在实际使用中，Scala毫无疑问就是这么简单。
mysql 取每组前几条记录 daizj mysql 分组最大值最小值每组三条记录
一、对分组的记录取前N条记录：例如：取每组的前3条最大的记录 1.用子查询： SELECT * FROM tableName a WHERE 3> (SELECT COUNT(*) FROM tableName b WHERE b.id=a.id AND b.cnt>a. cnt) ORDER BY a.id,a.account DE
HTTP深入浅出 http请求 dcj3sjt126com http
HTTP(HyperText Transfer Protocol)是一套计算机通过网络进行通信的规则。计算机专家设计出HTTP，使HTTP客户（如Web浏览器）能够从HTTP服务器(Web服务器)请求信息和服务，HTTP目前协议的版本是1.1.HTTP是一种无状态的协议，无状态是指Web浏览器和Web服务器之间不需要建立持久的连接，这意味着当一个客户端向服务器端发出请求，然后We
判断MySQL记录是否存在方法比较 dcj3sjt126com mysql
把数据写入到数据库的时，常常会碰到先要检测要插入的记录是否存在，然后决定是否要写入。　　我这里总结了判断记录是否存在的常用方法：　　sql语句： select count ( * ) from tablename; 　　然后读取count(*)的值判断记录是否存在。对于这种方法性能上有些浪费，我们只是想判断记录记录是否存在，没有必要全部都查出来。
对HTML XML的一点认识 e200702084 html xml
感谢http://www.w3school.com.cn提供的资料 HTML 文档中的每个成分都是一个节点。节点根据 DOM，HTML 文档中的每个成分都是一个节点。 DOM 是这样规定的：整个文档是一个文档节点每个 HTML 标签是一个元素节点包含在 HTML 元素中的文本是文本节点每一个 HTML 属性是一个属性节点注释属于注释节点 Node 层次
jquery分页插件 genaiwei jquery Web 前端分页插件
//jquery页码控件// 创建一个闭包 (function($) { // 插件的定义 $.fn.pageTool = function(options) { var totalPa
Mybatis与Ibatis对照入门于学习 Josh_Persistence mybatis ibatis 区别联系
一、为什么使用IBatis/Mybatis 对于从事 Java EE 的开发人员来说，iBatis 是一个再熟悉不过的持久层框架了，在 Hibernate、JPA 这样的一站式对象 / 关系映射（O/R Mapping）解决方案盛行之前，iBaits 基本是持久层框架的不二选择。即使在持久层框架层出不穷的今天，iBatis 凭借着易学易用、
C中怎样合理决定使用那种整数类型？秋风扫落叶 c 数据类型
如果需要大数值(大于32767或小于32767), 使用long 型。否则, 如果空间很重要 (如有大数组或很多结构), 使用 short 型。除此之外, 就使用 int 型。如果严格定义的溢出特征很重要而负值无关紧要, 或者你希望在操作二进制位和字节时避免符号扩展的问题, 请使用对应的无符号类型。但是, 要注意在表达式中混用有符号和无符号值的情况。 &nbs
maven问题 zhb8015 maven问题
问题1： Eclipse 中新建maven项目无法添加src/main/java 问题 eclipse创建maevn web项目，在选择maven_archetype_web原型后，默认只有src/main/resources这个Source Floder。按照maven目录结构，添加src/main/ja
(二)androidpn-server tomcat版源码解析之--push消息处理 spjich java androdipn 推送
在 (一)androidpn-server tomcat版源码解析之--项目启动这篇中，已经描述了整个推送服务器的启动过程，并且把握到了消息的入口即XmppIoHandler这个类，今天我将继续往下分析下面的核心代码，主要分为3大块，链接创建，消息的发送，链接关闭。先贴一段XmppIoHandler的部分代码 /** * Invoked from an I/O proc
用js中的formData类型解决ajax提交表单时文件不能被serialize方法序列化的问题中华好儿孙 JavaScript Ajax Web 上传文件 FormData
var formData = new FormData($("#inputFileForm")[0]); $.ajax({ type:'post', url:webRoot+"/electronicContractUrl/webapp/uploadfile", data:formData, async: false, ca
mybatis常用jdbcType数据类型 ysj5125094 mybatis mapper jdbcType
MyBatis 通过包含的jdbcType 类型 BIT FLOAT CHAR