nice-wyh

YOLOv5 7.0 网络结构解读

前言

YOLOV5是一系列在COCO数据集上预训练的目标检测架构和模型，结合了在数千个小时的研究和开发中获得的经验教训和最佳实践。本文主要以yolov5s为例介绍YOLOV5-v7.0版本的网络架构及初始化超参数。

一.YOLOV5s网络结构图

网络结构主要包含以下部分：

1.输入端：自适应锚框计算、自适应图片缩放、Mosaic数据增强

2.Backbone：CBS模块、C3模块、SPPF模块

3.Neck：FPN+PAN结构

4.Head：CIOU Loss

二.输入端

（1）自适应锚框计算

在YOLOV5中，每次训练前，都会根据数据集来自适应计算anchor锚框大小

若觉得计算的锚框效果不好，可以在train.py的参数设置部分将--noautoanchor的default设置为False

1.1计算过程

读取训练集的所有图片的w、h以及检测框的w、h
将读取的坐标修正为绝对坐标
使用Kmeans算法将训练集的所有检测框进行聚类，得到k个anchor
通过遗传算法对得到的anchor进行变异，如果变异后的效果好，则将其保留，否则跳过
将最终得到的最优anchor按照面积返回

1.2默认锚框

在models下的配置文件yaml下预设了一些针对COCO数据集在640*640图像下的锚定框的尺寸：

anchor的参数一共有三行，每行6个数值；每一行代表不同的特征图；

第一行是在最大特征图上的锚框，80*80代表浅层的特征图（P3），包含较多的低层次信息，适合于小目标检测，所以这一行特征图所用的anchor尺度较小
第二行是在中间的特征图上的锚框，40*40特征图上就用介于这两个尺寸之间的anchor用来检测中等大小的目标
第三行是在最小特征图上的锚框，20*20代表浅层的特征图，包含更多的高层次信息，如轮廓、结构等信息，适合于大目标检测，所以这一行的anchor尺度较大

1.3自定义锚框

锚框核查函数/utils/autoanchor.py文件中：

def check_anchors(dataset, model, thr=4.0, imgsz=640):
    # Check anchor fit to data, recompute if necessary
    m = model.module.model[-1] if hasattr(model, 'module') else model.model[-1]  # Detect()
    shapes = imgsz * dataset.shapes / dataset.shapes.max(1, keepdims=True)
    scale = np.random.uniform(0.9, 1.1, size=(shapes.shape[0], 1))  # augment scale
    wh = torch.tensor(np.concatenate([l[:, 3:5] * s for s, l in zip(shapes * scale, dataset.labels)])).float()  # wh

    def metric(k):  # compute metric
        r = wh[:, None] / k[None]
        x = torch.min(r, 1 / r).min(2)[0]  # ratio metric
        best = x.max(1)[0]  # best_x
        aat = (x > 1 / thr).float().sum(1).mean()  # anchors above threshold
        bpr = (best > 1 / thr).float().mean()  # best possible recall
        return bpr, aat

    stride = m.stride.to(m.anchors.device).view(-1, 1, 1)  # model strides
    anchors = m.anchors.clone() * stride  # current anchors
    bpr, aat = metric(anchors.cpu().view(-1, 2))
    s = f'\n{PREFIX}{aat:.2f} anchors/target, {bpr:.3f} Best Possible Recall (BPR). '
    if bpr > 0.98:  # threshold to recompute
        LOGGER.info(f'{s}Current anchors are a good fit to dataset ✅')
    else:
        LOGGER.info(f'{s}Anchors are a poor fit to dataset ⚠️, attempting to improve...')
        na = m.anchors.numel() // 2  # number of anchors
        anchors = kmean_anchors(dataset, n=na, img_size=imgsz, thr=thr, gen=1000, verbose=False)
        new_bpr = metric(anchors)[0]
        if new_bpr > bpr:  # replace anchors
            anchors = torch.tensor(anchors, device=m.anchors.device).type_as(m.anchors)
            m.anchors[:] = anchors.clone().view_as(m.anchors)
            check_anchor_order(m)  # must be in pixel-space (not grid-space)
            m.anchors /= stride
            s = f'{PREFIX}Done ✅ (optional: update model *.yaml to use these anchors in the future)'
        else:
            s = f'{PREFIX}Done ⚠️ (original anchors better than new anchors, proceeding with original anchors)'
        LOGGER.info(s)

YOLOV5在开始训练前会计算数据集标注信息针对默认锚定框的最佳召回率，如果最佳召回率大于或等于0.98，则不需要重新计算锚定框，使用默认锚定框；否则会重新计算符合此数据集的锚定框。

    def metric(k, wh):  # compute metrics
        r = wh[:, None] / k[None]
        x = torch.min(r, 1 / r).min(2)[0]  # ratio metric
        # x = wh_iou(wh, torch.tensor(k))  # iou metric
        return x, x.max(1)[0]  # x, best_x

其中，bpr参数就是判断是否需要重新计算锚定框的依据（是否小于0.98）

重新计算符合此数据集标注的锚定框，是利用k均值聚类算法和遗传算法实现的

（2）Mosaic数据增强

最早出现在YOLOV4，V5也沿用了此技术。

Mosaic数据增强的主要思想是将多张图片按一定比例组合成一张图片，实则是参考了CutMix的数据增强方式，CUtMix是将两张图片进行拼接，Mosaic则是对四张图片进行拼接，拼接后得到一张新的图片，同时也获得了对应的检测框。然后把他传入网络中学习，相当于一下子传入四张图片学习。

Mosaic数据增强的主要步骤:

随机选择四张不同的图像作为输入
分别对四张图片进行翻转(对原始图片进行左右的翻转)、缩放(对原始图片进行大小的缩放)、色域变化 (对原始图片的明亮度、饱和度、色调进行改变)等操作。
操作完成之后然后再将原始图片按照第一张图片摆放在左上，第二张图片摆放在左下，第三张图片摆放在右下，第四张图片摆放在右上四个方向位置摆好。
根据每张图片的尺寸变换方式，将映射关系对应到图片标签上。
依据指定的横纵坐标，对大图进行拼接。处理超过边界的检测框坐标。

Mosaic数据增强的优点:

增加数据多样性，随机选取四张图像进行组合,组合得到图像个数比原图个数要多。
增强模型鲁棒性，混合四张具有不同语义信息的图片，可以让模型检测超出常规语境的目标。
加强批归一化层(Batch Normalization)的效果。当模型设置BN操作后,训练时会尽可能增大批样本总量(BatchSize) ，因为

BN原理为计算每一个特征层的均值和方差，如果批样本总量越大，那么BN计算的均值和方差就越接近于整个数据集的均值和方
差,效果越好。

Mosaic 数据增强算法有利于提升目标检测性能。Mosaic 数据增强图像由四张原始图像拼接而成，这样每张图像会有更大概率包含小目标。

三.Backbone

Backbone主干网络的主要作用是提取特征，并不断缩小特征图。他的主要结构有Conv模块、C3模块、SPPF模块

（1）CBS模块

有一个COnv2d、一个BatchNorm2d和SiLU激活函数构成

conv2d的padding是自动计算的，通过修改stride来决定特征图缩小的倍数，在commom.py下

def autopad(k, p=None, d=1):  # kernel, padding, dilation
    # Pad to 'same' shape outputs
    if d > 1:
        k = d * (k - 1) + 1 if isinstance(k, int) else [d * (x - 1) + 1 for x in k]  # actual kernel-size
    if p is None:
        p = k // 2 if isinstance(k, int) else [x // 2 for x in k]  # auto-pad
    return p

在Backbone中CBS模块的stride均为2, kernel均为3。因此CBS模块每次会将特征图的宽高减半，下采样特征图,同时提取到目标特征。
BatchNorm2d为批归一化层,对每批的数据做归一化,其详细作用不在这里赘述。
SiLU激活函数，SiLU是Sigmoid和ReLU的改进版。 SiLU具备无上界有下界、平滑、非单调的特性。SiLU在深层模型上的效果优于ReLU。具有平滑性和非线性特性,有助于网络在训练过程中更快地收敛。

（2）C3模块

C3模块有三个CBS模块和一个BottleNeck模块组成，因此得名。在Backbone中，C3是更为重要的特征提取模块。其结构如图：

进入C3后,将会分为两路，左路经过CBS和一个Bottleneck, 右路只经过一个CBS,最后将两路Concat,再经过一个CBS。 C3中的3个CBS模块均为1 * 1卷积，起到降维或升维的作用，对于提取特征意义不大。
●Bottleneck在Backbone中使用的是残差连接，Bottleneck中有两个CBS, 第一个CBS为1 * 1卷积，将通道缩减为原来的一半,第二个为3 * 3卷积，将通道数翻倍。先隆维有利王卷积核更好的理解特征信息L升维将有利于提取到更多更详细的特征。

在残差结构中，主分支和残差分支的特征图尺寸和维度是相同的。add 操作是将主分支和残差分支的特征图进行直接相加，不会改变特征图的尺寸和维度，只是将对应位置的特征值进行相加。下述C3中带有False参数则表示不使用残差结构。通过残差结构，可以实现在深层网络中传递梯度和信息的快速传递，并有助于解决深层网络训练中的梯度消失问题。

（3）SPPF

SPP是空间金字塔池化，采用1 x 1, 5x 5, 9x 9, 13 x 13的最大池化的方式，进行多尺度融合。YOLOv5 6.0版本开始使用了在SPP基础上改进的SPPF。

SPP是将三个并行的MaxPool2d和输入Concat到-起，第一个MaxPool2d的kernel为5*5, 第二个为9*9,第三个为13* 13。用三个不同大小的kernel,代表三个尺度。5 * 5的kernel可以理解为比较大的尺度,而13 * 13就是比较小的尺度。这样就在图片的不同尺度下取到了最大的代表特征值,并Concat融合。
SPPF是将三个kernelI为5 * 5的MaxPool2d做串行计算。第-个MaxPool2d表示较大的尺度,第二个MaxPoo在第一个MaxPool2d的基础上进一步做池化，那么产生的尺度将会进一步缩小，第三个同理。

注意:图像的尺度并非指图像的大小,而是指图像的模糊程度(σ) ,例如，人近距离看一个物体和远距离看一个物体模糊程度是不一样的，从近距离到远距离图像越来越模糊的过程，也是图像的尺度越来越大的过程。

（4）Foucs结果（6.0版本开始启用）

Focus模块是对图片进行切片操作，具体操作是在-张图片中每隔一个像拿到一个值，这样获得了四个独立的特征层,然后将四个独立的特征层进行堆叠，此时宽高信息就集中到了通道信息，输入通道扩充了四倍。拼接起来的特征层相对于原先的三通道变成了十二个通道，后将得到的新图片再经过卷积操作，最终得到了没有信息丢失情况下的二倍下采样特征图。

YOLOv5 6 0开始将Focus模块替换成了一个6 * 6的卷积层。两者的计算量是等价的，但使用6 * 6的卷积会更加高效。

四、Neck

Neck的作用就是从Backbone中获取相对于较浅的特征，再与深层的语义特征Concat到-起。

特征金字塔FPN+ PAN

FPN结构通过自顶向下进行上采样，使得底层特征图包含更强的图像强语义信息

传入FPN结构中，通过Upsample上采样的方式，向特征图中插值,使特征图的尺寸大，以便于融合来自Backbone的特征图，做特征的向.上融合,特征图不断变大;
PAN结构自底向上进行下采样，使顶层特征包含图像位置信息，两个特征最后进行融合,使不同尺寸的特征图都包含图像语义信息和图像特征信息，保证了对不同尺寸的图片的准确预测。

总结: FPN层自顶向下可以捕获强语义特征，而PAN则通过自底向上传达强定位特征。

五、Head

Head层为Detect模块，Detect模块的网络结构很简单,仅由三个1 * 1卷积构成,对应三个检测特征层。

上述经过FPN特征金字塔,我们可以获得20* 20*512、40* 40 * 256、80* 80 * 128三个加强特征,然后我们利用这三个shape的特征层传入Yolo Head获得预测结果。
对于每一个特征层,我们可以获得利用一个1 * 1卷积调整通道数，最终的通道数和需要区分的种类个数相关，每-个特征层上每一个特征点存在3个先验框。
如果使用的是COCO训练集，类则为80种，最后的维度应该为255= 3 * 85，三个特征层的shape为20* 20 * 255、40* 40 *255、80* 80 * 255

最后的255可以拆分成3个85,对应3个先验框的85个参数, 85可以拆分成4 + 1 + 80。
这里的3是指每个位置先验框(锚框)的数量;
前4个参数用于判断每一个特征点的回归参数, 回归参数调整后可以获得预测框;
第5个参数用于判断每一个特征点是否包含物体;
最后80个参数用于判断每一个特征点所包含的物体种类。

六超参数详解

（1）hyp超参数

文件位于data/hyps文件夹下

# YOLOv5  by Ultralytics, GPL-3.0 license
# Hyperparameters for low-augmentation COCO training from scratch
# python train.py --batch 64 --cfg yolov5n6.yaml --weights '' --data coco.yaml --img 640 --epochs 300 --linear
# See tutorials for hyperparameter evolution https://github.com/ultralytics/yolov5#tutorials

lr0: 0.01  # initial learning rate (SGD=1E-2, Adam=1E-3)
lrf: 0.01  # final OneCycleLR learning rate (lr0 * lrf)
momentum: 0.937  # SGD momentum/Adam beta1
weight_decay: 0.0005  # optimizer weight decay 5e-4
warmup_epochs: 3.0  # warmup epochs (fractions ok)
warmup_momentum: 0.8  # warmup initial momentum
warmup_bias_lr: 0.1  # warmup initial bias lr
box: 0.05  # box loss gain
cls: 0.5  # cls loss gain
cls_pw: 1.0  # cls BCELoss positive_weight
obj: 1.0  # obj loss gain (scale with pixels)
obj_pw: 1.0  # obj BCELoss positive_weight
iou_t: 0.20  # IoU training threshold
anchor_t: 4.0  # anchor-multiple threshold
# anchors: 3  # anchors per output layer (0 to ignore)
fl_gamma: 0.0  # focal loss gamma (efficientDet default gamma=1.5)
hsv_h: 0.015  # image HSV-Hue augmentation (fraction)
hsv_s: 0.7  # image HSV-Saturation augmentation (fraction)
hsv_v: 0.4  # image HSV-Value augmentation (fraction)
degrees: 0.0  # image rotation (+/- deg)
translate: 0.1  # image translation (+/- fraction)
scale: 0.5  # image scale (+/- gain)
shear: 0.0  # image shear (+/- deg)
perspective: 0.0  # image perspective (+/- fraction), range 0-0.001
flipud: 0.0  # image flip up-down (probability)
fliplr: 0.5  # image flip left-right (probability)
mosaic: 1.0  # image mosaic (probability)
mixup: 0.0  # image mixup (probability)
copy_paste: 0.0  # segment copy-paste (probability)

（2）anchor

YOL Ov5在yaml文件中预设好了输入图像为640 * 640分辨率对应的anchor尺寸，YOL Ov5的anchor也是在大特征图上检测组标.在小特征图上检测大目标。三个特征图，每个特征图上的格子有三种尺寸的anchor.

anchors:
  - [10,13, 16,30, 33,23]  # P3/8
  - [30,61, 62,45, 59,119]  # P4/16
  - [116,90, 156,198, 373,326]  # P5/32

（3）Backbone

YOLOV5 Backbone ，在models/yolov5s.yaml下

# YOLOv5 v6.0 backbone
backbone:
  # [from, number, module, args]
  # from   第一列 输入来自哪一层  -1代表上一层， 4代表第4层     
  # number 第二列 卷积核的数量    最终数量需要乘上width  
  # module 第三列 模块名称 包括：Conv Focus BottleneckCSP  SPP  
  # args   第四列 模块的参数   
  [[-1, 1, Conv, [64, 6, 2, 2]],  # 0-P1/2   卷积层的输入通道数为64，卷积核大小为6x6，步长为2，填充为2
   [-1, 1, Conv, [128, 3, 2]],  # 1-P2/4     卷积层的输入通道数为128，卷积核大小为3x3，步长为2，填充为2
   [-1, 3, C3, [128]],           #代表一个残差块residual block，C3表示该残差块使用的是C3卷积层，残差块的输入通道数为128
   [-1, 1, Conv, [256, 3, 2]],  # 3-P3/8
   [-1, 6, C3, [256]],
   [-1, 1, Conv, [512, 3, 2]],  # 5-P4/16
   [-1, 9, C3, [512]],
   [-1, 1, Conv, [1024, 3, 2]],  # 7-P5/32
   [-1, 3, C3, [1024]],
   [-1, 1, SPPF, [1024, 5]],  # 9
  ]

（4）网络结构参数

根据训练过程验证网络结构，结合训练输出的网络结构信息

**backbone的前3个C3数量对应yolov5s.yaml的配置3，6，9分别除了3，变为1/3后的1，2，3,和模型深度参数有关depth_multiple: 0.33**

                 from  n    params  module                                  arguments
层数                  数量   参数量  模块名称                                网络结构参数：输入维度，输出维度，卷积核大小，卷积步长
  0                -1  1      3520  models.common.Conv                      [3, 32, 6, 2, 2]
  1                -1  1     18560  models.common.Conv                      [32, 64, 3, 2]
  2                -1  1     18816  models.common.C3                        [64, 64, 1]
  3                -1  1     73984  models.common.Conv                      [64, 128, 3, 2]
  4                -1  2    115712  models.common.C3                        [128, 128, 2]
  5                -1  1    295424  models.common.Conv                      [128, 256, 3, 2]
  6                -1  3    625152  models.common.C3                        [256, 256, 3]
  7                -1  1   1180672  models.common.Conv                      [256, 512, 3, 2]
  8                -1  1   1182720  models.common.C3                        [512, 512, 1]
  9                -1  1    656896  models.common.SPPF                      [512, 512, 5]
 10                -1  1    131584  models.common.Conv                      [512, 256, 1, 1]
 11                -1  1         0  torch.nn.modules.upsampling.Upsample    [None, 2, 'nearest']
 12           [-1, 6]  1         0  models.common.Concat                    [1]
 13                -1  1    361984  models.common.C3                        [512, 256, 1, False]
 14                -1  1     33024  models.common.Conv                      [256, 128, 1, 1]
 15                -1  1         0  torch.nn.modules.upsampling.Upsample    [None, 2, 'nearest']
 16           [-1, 4]  1         0  models.common.Concat                    [1]
 17                -1  1     90880  models.common.C3                        [256, 128, 1, False]
 18                -1  1    147712  models.common.Conv                      [128, 128, 3, 2]
 19          [-1, 14]  1         0  models.common.Concat                    [1]
 20                -1  1    296448  models.common.C3                        [256, 256, 1, False]
 21                -1  1    590336  models.common.Conv                      [256, 256, 3, 2]
 22          [-1, 10]  1         0  models.common.Concat                    [1]
 23                -1  1   1182720  models.common.C3                        [512, 512, 1, False]
 24      [17, 20, 23]  1    229245  models.yolo.Detect                      [80, [[10, 13, 16, 30, 33, 23], [30, 61, 62, 45, 59, 119], [116, 90, 156, 198, 373, 326]], [128, 256, 512]]
Model summary: 214 layers, 7235389 parameters, 7235389 gradients, 16.6 GFLOPs

【Python】一文详细介绍 py格式文件高斯小哥 Python基础【高质量合集】python 新手入门学习
【Python】一文详细介绍py格式文件个人主页：高斯小哥高质量专栏：Matplotlib之旅：零基础精通数据可视化、Python基础【高质量合集】、PyTorch零基础入门教程希望得到您的订阅和支持~创作高质量博文(平均质量分92+)，分享更多关于深度学习、PyTorch、Python领域的优质内容！（希望得到您的关注~）文章目录一、py格式文件简介二、如何创建和编辑py格式文件三、如何运行py
[数据集][图像分类]河道污染分类数据集1923张4类别 FL1623863129 数据集分类数据挖掘人工智能
数据集类型：图像分类用，不可用于目标检测无标注文件数据集格式：仅仅包含jpg图片，每个类别文件夹下面存放着对应图片图片数量(jpg文件个数)：1922分类类别数：4类别名称:["lianghao","qingwei","yanzhong","zhongdu"]每个类别图片数：lianghao图片数：435qingwei图片数：423yanzhong图片数：577zhongdu图片数：487重要说明
【Python】成功解决ModuleNotFoundError: No module named ‘torchinfo‘ 高斯小哥 BUG解决方案合集 python pytorch 新手入门学习 debug
【Python】成功解决ModuleNotFoundError:Nomodulenamed‘torchinfo’个人主页：高斯小哥高质量专栏：Matplotlib之旅：零基础精通数据可视化、Python基础【高质量合集】、PyTorch零基础入门教程希望得到您的订阅和支持~创作高质量博文(平均质量分92+)，分享更多关于深度学习、PyTorch、Python领域的优质内容！（希望得到您的关注~）文
SWIFT环境配置及大模型微调实践 weixin_43870390 swift 开发语言 ios
SWIFT环境配置及大模型微调实践SWIFT环境配置基础配置增量配置SWIFTQwen_audio_chat大模型微调实践问题1:问题2:问题定位解决方法手动安装pytorchSWIFT介绍参考：这里SWIFT环境配置基础配置condacreate-nswiftpython=3.8pipinstallms-swift[all]-U#下载项目gitclonehttps://github.com/mo
Win环境下安装 torch==1.1.0 JOYCE_Leo16 Bug记录深度学习 python 人工智能 pytorch
问题描述复现很多模型的时候，会遇到torch版本不一致问题，尤其是torch1.1.0一直都在安装错误，试了很多方法都没用。解决方案在默认环境中安装torch：pipinstallhttps://download.pytorch.org/whl/cu90/torch-1.1.0-cp36-cp36m-win_amd64.whlpipinstallhttps://download.pytorch.o
YOLOv5 | 源码解析 | 计算损失loss原理——独家原创注释 kay_545 YOLOv8改进有效涨点 Yolov5改进 YOLO python 开发语言
⭐欢迎大家订阅我的专栏一起学习⭐订阅专栏，更新及时查看不迷路YOLOv5涨点专栏：http://t.csdnimg.cn/D9kR0YOLOv8涨点专栏：http://t.csdnimg.cn/5hNr8YOLOv7专栏：http://t.csdnimg.cn/hJsf1魔改网络、复现论文、优化创新各位订阅YOLOv8专栏读者，非常抱歉，这篇文章加错专栏了，但是因为是订阅的，所以不能删除或者移动这
目标检测——摩托车头盔检测数据集钓了猫的鱼儿目标检测数据集目标检测摩托车头盔检测数据集
一、简介首先，摩托车作为一种交通工具，具有高速、开放和稳定性差的特点，其事故发生率高，伤亡率排在机动车辆损伤的首位。因此，摩托车乘员头盔对于保护驾乘人员头部安全至关重要。在驾乘突发状况、人体受冲击时，头盔能够吸收碰撞能量，减轻伤害。研究摩托车头盔检测，能够确保头盔的质量和安全性能，从而更有效地保护驾乘人员的生命安全。其次，随着科技的发展，人们对于交通安全和生命安全的重视程度日益提高。摩托车头盔作为
最新ChatGPT支持下的PyTorch机器学习与深度学习 zkzhzy ChatGPT 机器学习 python 机器学习深度学习 pytorch chatgpt 数据分析人工智能
近年来，随着AlphaGo、无人驾驶汽车、医学影像智慧辅助诊疗、ImageNet竞赛等热点事件的发生，人工智能迎来了新一轮的发展浪潮。尤其是深度学习技术，在许多行业都取得了颠覆性的成果。另外，近年来，Pytorch深度学习框架受到越来越多科研人员的关注和喜爱。郁磊（副教授）主要从事AI人工智能、大语言模型及软件开发、生理系统建模与仿真、生物医学信号处理，具有丰富的科研经验，主编《MATLAB智能算
torch报错：[winerror 126] 找不到指定的模块torch_python.dll“ or one of its dependencies. LightningJie 深度学习 python pytorch
[winerror126]找不到指定的模块。errorloading"d:\miniconda\envs\action_env\lib\site-packages\torch\lib\torch_python.dll"oroneofitsdependencies.在使用这个yolov5模块的时候发现了这个错误，错误原因是因为python版本和torch版本冲突。本人安装torch的python版本
高质量 Git 仓库汇总（持续更新，方便查看） Nice_cool. 学习
Leetcodehttps://github.com/kamyu104/LeetCode-SolutionsCmakehttps://github.com/viva64/pvs-studio-cmake-examples3D目标检测Awesome-3D-Object-DetectionAwesome-3D-Object-Detection-for-Autonomous-DrivingCudaCod
【PyTorch】成功解决ModuleNotFoundError: No module named ‘torch’ 高斯小哥 PyTorch零基础入门教程 pytorch 人工智能 python conda debug 深度学习机器学习
【PyTorch】成功解决ModuleNotFoundError:Nomodulenamed‘torch’个人主页：高斯小哥高质量专栏：Matplotlib之旅：零基础精通数据可视化、Python基础【高质量合集】、PyTorch零基础入门教程希望得到您的订阅和支持~创作高质量博文(平均质量分92+)，分享更多关于深度学习、PyTorch、Python领域的优质内容！（希望得到您的关注~）文章目录
今日无更新我的昵称违规了
学校的一个会忙得昏天黑地。明天有自己的一个发表，还要准备PPT，根据原来的改改就好……这周真的是有点繁杂了，搞定之后连着四五月份要写两篇论文，再加上五月底的课程论文还有紧接着的文献综述，看样子要疯……现在梳理一下自己手里的锤子：转到Pytorch，使用AllenNLP了解Transformer、了解LSTM了解jieba等分词工具了解Gensim等NLP处理工具接下来要做的：基于AllenNLP搞
PyTorch学习笔记之基础函数篇（四）熊猫Devin 深度学习之PyTorch pytorch 学习笔记
文章目录2.8torch.logspace函数讲解2.9torch.ones函数2.10torch.rand函数2.11torch.randn函数2.12torch.zeros函数2.8torch.logspace函数讲解torch.logspace函数在PyTorch中用于生成一个在对数尺度上均匀分布的张量（tensor）。这意味着张量中的元素是按照对数间隔排列的，而不是线性间隔。这对于创建在数
加速 PyTorch 模型预测常见方法梳理 samoyan pytorch pytorch 人工智能 python
目录1.使用GPU加速2.批量推理3.使用半精度浮点数(FP16)4.禁用梯度计算5.模型简化与量化6.使用TorchScript7.模型并行和数据并行结论在使用PyTorch进行模型预测时，可以通过多种方法来加快推理速度。以下是一些加速模型预测的常用方法，但注意有些模型直接使用下面方法会出错，大家谨慎使用：1.使用GPU加速如果您有可用的GPU资源，确保您的模型在GPU上运行，因为GPU提供了比
机器学习常用框架碧落&凡尘机器学习人工智能
机器学习是人工智能的一个重要分支，它通过让计算机系统利用数据自我学习来改进任务执行的能力。在机器学习领域，有许多成熟的框架被广泛使用，这些框架提供了构建和训练机器学习模型的工具。以下是一些常用的机器学习框架：TensorFlow：由Google开发，是一个开源的软件库，用于数据流编程，广泛应用于各类机器学习任务。它支持分布式计算，能够在大规模数据集上训练复杂的模型。PyTorch：由Faceboo
pytorch中张量变换函数 weixin_42924890 pytorch 人工智能 python
在PyTorch中view(),transpose()和permute()函数都是用于改变张量（Tensor）维度结构的，但它们的作用和使用场景有所不同。torch.view()功能：该函数用于将一个张量重塑为新的形状，但它必须保持原有元素数量不变。它主要用于改变张量的维度布局，而不仅仅是交换维度。用法：通常用于简化或展开张量的维度，例如将三维张量展平成一维或二维。importtorchbatch
深度学习pytorch——索引与切片 Echo-J AI 深度学习 pytorch 人工智能
indexingimporttorcha=torch.rand(4,3,28,28)#表示4张28*28的rgb图print(a[0].shape)#a[0]获得第一张图片print(a[0,0].shape)#a[0,0]获得第一张图片的r图print(a[0,0,2,4])#获得第一张图片第一个通道的一个像素点，因此得到的是一个标量selectfirst/lastN#selectfirst/l
Pytorch nn.Module 霖大侠 pytorch 人工智能 python 深度学习 cnn 神经网络卷积神经网络
一、torch.nn简介torch.nn是PyTorch中用于构建神经网络的模块。它提供了一系列的类和函数，用于定义神经网络的各种层、损失函数、优化器等。torch.nn提供的类：Module:所有神经网络模型的基类，用于定义自定义神经网络模型。Linear:线性层，进行线性变换。Conv2d:二维卷积层。RNN,LSTM,GRU:循环神经网络层，分别对应简单RNN、长短时记忆网络（LSTM）、门
YOLOv9改进添加可变形注意力机制DAttention 学yolo的小白 UPgrade YOLOv9 YOLO python 目标检测 pytorch
一、DeformableAttentionTransformer论文论文地址：arxiv.org/pdf/2201.00520.pdf二、DeformableAttentionTransformer注意力结构DeformableAttentionTransformer包含可变形注意力机制，允许模型根据输入的内容动态调整注意力权重。在传统的Transformer中，注意力是通过对查询和键向量之间的点
【深度学习笔记】1 数据操作 RIKI_1 深度学习深度学习笔记人工智能
注：本文为《动手学深度学习》开源内容，仅为个人学习记录，无抄袭搬运意图数据操作在深度学习中，我们通常会频繁地对数据进行操作。作为动手学深度学习的基础，本节将介绍如何对内存中的数据进行操作。在PyTorch中，torch.Tensor是存储和变换数据的主要工具。如果你之前用过NumPy，你会发现Tensor和NumPy的多维数组非常类似。然而，Tensor提供GPU计算和自动求梯度等更多功能，这些使
[数据集][目标检测]垃圾检测数据集VOC+YOLO格式6004张18类别垃圾 FL1623863129 数据集目标检测 YOLO 人工智能
数据集格式：PascalVOC格式+YOLO格式(不包含分割路径的txt文件，仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件)图片数量(jpg文件个数)：6004标注数量(xml文件个数)：6004标注数量(txt文件个数)：6004标注类别数：18标注类别名称:["bottle_cap","bottle","cup","unlabeled_litter","straw"
【python】成功解决ModuleNotFoundError: No module named ‘tensorboardX‘ 高斯小哥 BUG解决方案合集 python 学习 debug
【python】成功解决ModuleNotFoundError:Nomodulenamed‘tensorboardX’个人主页：高斯小哥高质量专栏：Matplotlib之旅：零基础精通数据可视化、Python基础【高质量合集】、PyTorch零基础入门教程希望得到您的订阅和支持~创作高质量博文(平均质量分92+)，分享更多关于深度学习、PyTorch、Python领域的优质内容！（希望得到您的关注
图像算法实习生--面经1 小豆包的小朋友0217 算法
系列文章目录文章目录系列文章目录前言一、为什么torch里面要用optimizer.zero_grad()进行梯度置0二、Unet神经网络为什么会在医学图像分割表现好？三、transformer相关问题四、介绍一下胶囊网络的动态路由五、yolo系列出到v9了，介绍一下你最熟悉的yolo算法六、一阶段目标检测算法和二阶段目标检测算法有什么区别？七、讲一下剪枝八、讲一下PTQandQAT量化的区别九、
KGCN---pytorch代码（1）---data_loader sweet_Mary 推荐算法 python 推荐算法 pytorch 人工智能机器学习深度学习
代码：importpandasaspdimportnumpyasnpfromsklearn.preprocessingimportLabelEncoderfromsklearn.model_selectionimporttrain_test_splitimportrandomclassDataLoader:'''DataLoaderclasswhichmakesdatasetfortraining
计算机设计大赛深度学习驾驶行为状态检测系统(疲劳抽烟喝水玩手机) - opencv python iuerfee python
文章目录1前言1课题背景2相关技术2.1Dlib人脸识别库2.2疲劳检测算法2.3YOLOV5算法3效果展示3.1眨眼3.2打哈欠3.3使用手机检测3.4抽烟检测3.5喝水检测4最后1前言优质竞赛项目系列，今天要分享的是基于深度学习的驾驶行为状态检测系统该项目较为新颖，适合作为竞赛课题方向，学长非常推荐！学长这里给一个题目综合评分(每项满分5分)难度系数：3分工作量：3分创新点：5分更多资料,项目
【Python】成功解决AttributeError: ‘MyClass‘ object has no attribute ‘my_attribute‘ 高斯小哥 BUG解决方案合集 python 新手入门学习 debug
【Python】成功解决AttributeError:‘MyClass’objecthasnoattribute‘my_attribute’个人主页：高斯小哥高质量专栏：Matplotlib之旅：零基础精通数据可视化、Python基础【高质量合集】、PyTorch零基础入门教程希望得到您的订阅和支持~创作高质量博文(平均质量分92+)，分享更多关于深度学习、PyTorch、Python领域的优质内
PyTorch 实现图像卷积和反卷积操作及代码算法channel pytorch 人工智能 python 深度学习机器学习
你好，我是郭震在深度学习中，尤其是在处理图像相关任务时，卷积和反卷积（转置卷积）都是非常核心的概念。它们在神经网络中扮演着重要的角色，但用途和工作原理有所不同。以下是对传统卷积和反卷积的介绍，以及它们在PyTorch中的应用示例。传统卷积(nn.Conv2d)用途传统卷积通常用于特征提取。在处理图像时，通过应用卷积核（也称为滤波器）来扫描输入图像或特征映射，可以有效地识别图像中的局部特征（如边缘、
beam search原理与常见实现，与直接sample的区别 samoyan LLM 面试 transformer 面试
目录BeamSearch原理1.基本概念2.工作流程3.特点BeamSearch与直接Sample的区别1.确定性与随机性2.结果多样性3.性能与效率4.应用场景常见的BeamSearch实现1.TensorFlow库2.PyTorch库3.HuggingFace的Transformers库算法库和工具BeamSearch原理1.基本概念BeamSearch是一种启发式图搜索算法，常用于自然语言处
PyTorch：深度学习的革命性框架奔强的程序学习
在深度学习领域，PyTorch已经成为了一个革命性的框架。自2016年开源以来，它以其高效、灵活和易于使用的特性，迅速获得了研究者和开发者的青睐。PyTorch不仅简化了深度学习的复杂流程，还提供了丰富的功能和强大的扩展性，使得深度学习的应用更加广泛和深入。下面将从PyTorch的核心特性、应用场景、生态系统、与其他框架的比较以及未来发展等方面，对PyTorch进行详细介绍。一、核心特性动态计算图
不同框架表示图像时维度顺序的区别：pytorch、keras&tf、opencv、numpy、PIL 蓝海渔夫 python pytorch pytorch keras opencv pillow python 人工智能 numpy
在PyTorch、Keras、OpenCV、NumPy和PIL这几个框架中，它们在表示图像时的维度存储顺序有所不同。下面我将逐一解释每个框架中图像维度的存储顺序：1，PyTorch:PyTorch中图像的维度顺序通常遵循[N,C,H,W]的格式，也就是channelfirst格式，其中：C代表通道数（channels），例如RGB图像有3个通道。N代表批量大小（batchsize），即一次处理的图
iOS http封装 374016526 ios 服务器交互 http 网络请求
程序开发避免不了与服务器的交互，这里打包了一个自己写的http交互库。希望可以帮到大家。内置一个basehttp，当我们创建自己的service可以继承实现。 KuroAppBaseHttp *baseHttp = [[KuroAppBaseHttp alloc] init]; [baseHttp setDelegate:self]; [baseHttp
lolcat ：一个在 Linux 终端中输出彩虹特效的命令行工具 brotherlamp linux linux教程 linux视频 linux自学 linux资料
那些相信 Linux 命令行是单调无聊且没有任何乐趣的人们，你们错了，这里有一些有关 Linux 的文章，它们展示着 Linux 是如何的有趣和“淘气” 。在本文中，我将讨论一个名为“lolcat”的小工具 – 它可以在终端中生成彩虹般的颜色。何为 lolcat ? Lolcat 是一个针对 Linux，BSD 和 OSX 平台的工具，它类似于 cat 命令，并为 cat
MongoDB索引管理（1）——[九] eksliang mongodb MongoDB管理索引
转载请出自出处：http://eksliang.iteye.com/blog/2178427 一、概述数据库的索引与书籍的索引类似，有了索引就不需要翻转整本书。数据库的索引跟这个原理一样，首先在索引中找，在索引中找到条目以后，就可以直接跳转到目标文档的位置，从而使查询速度提高几个数据量级。不使用索引的查询称
Informatica参数及变量 18289753290 Informatica 参数变量
下面是本人通俗的理解，如有不对之处，希望指正 info参数的设置：在info中用到的参数都在server的专门的配置文件中（最好以parma）结尾下面的GLOBAl就是全局的，$开头的是系统级变量，$$开头的变量是自定义变量。如果是在session中或者mapping中用到的变量就是局部变量，那就把global换成对应的session或者mapping名字。 [GLOBAL] $Par
python 解析unicode字符串为utf8编码字符串酷的飞上天空 unicode
php返回的json字符串如果包含中文，则会被转换成\uxx格式的unicode编码字符串返回。在浏览器中能正常识别这种编码，但是后台程序却不能识别，直接输出显示的是\uxx的字符，并未进行转码。转换方式如下 >>> import json >>> q = '{"text":"\u4
Hibernate的总结永夜-极光 Hibernate
1.hibernate的作用,简化对数据库的编码,使开发人员不必再与复杂的sql语句打交道做项目大部分都需要用JAVA来链接数据库，比如你要做一个会员注册的页面，那么获取到用户填写的基本信后，你要把这些基本信息存入数据库对应的表中，不用hibernate还有mybatis之类的框架，都不用的话就得用JDBC，也就是JAVA自己的，用这个东西你要写很多的代码，比如保存注册信
SyntaxError: Non-UTF-8 code starting with '\xc4' 随便小屋 python
刚开始看一下Python语言，传说听强大的，但我感觉还是没Java强吧！写Hello World的时候就遇到一个问题，在Eclipse中写的，代码如下 ''' Created on 2014年10月27日 @author: Logic ''' print("Hello World!"); 运行结果 SyntaxError: Non-UTF-8
学会敬酒礼仪不做酒席菜鸟 aijuans 菜鸟
俗话说，酒是越喝越厚，但在酒桌上也有很多学问讲究，以下总结了一些酒桌上的你不得不注意的小细节。细节一：领导相互喝完才轮到自己敬酒。敬酒一定要站起来，双手举杯。细节二：可以多人敬一人，决不可一人敬多人，除非你是领导。细节三：自己敬别人，如果不碰杯，自己喝多少可视乎情况而定，比如对方酒量，对方喝酒态度，切不可比对方喝得少，要知道是自己敬人。细节四：自己敬别人，如果碰杯，一
《创新者的基因》读书笔记 aoyouzi 读书笔记《创新者的基因》
创新者的基因创新者的“基因”，即最具创意的企业家具备的五种“发现技能”：联想，观察，实验，发问，建立人脉。第一部分破坏性创新，从你开始第一章破坏性创新者的基因如何获得启示：发现以下的因素起到了催化剂的作用：(1) -个挑战现状的问题；(2)对某项技术、某个公司或顾客的观察；(3) -次尝试新鲜事物的经验或实验；(4)与某人进行了一次交谈，为他点醒
表单验证技术百合不是茶 JavaScript DOM对象 String对象事件
js最主要的功能就是验证表单,下面是我对表单验证的一些理解,贴出来与大家交流交流 ,数显我们要知道表单验证需要的技术点, String对象,事件,函数一:String对象;通常是对字符串的操作; 1,String的属性; 字符串.length;表示该字符串的长度; var str= "java"
web.xml配置详解之context-param bijian1013 java servlet web.xml context-param
一.格式定义： <context-param> <param-name>contextConfigLocation</param-name> <param-value>contextConfigLocationValue></param-value> </context-param> 作用：该元
Web系统常见编码漏洞（开发工程师知晓） Bill_chen sql PHP Web fckeditor 脚本
1.头号大敌：SQL Injection 原因：程序中对用户输入检查不严格，用户可以提交一段数据库查询代码，根据程序返回的结果，获得某些他想得知的数据，这就是所谓的SQL Injection，即SQL注入。本质: 对于输入检查不充分，导致SQL语句将用户提交的非法数据当作语句的一部分来执行。示例： String query = "SELECT id FROM users
【MongoDB学习笔记六】MongoDB修改器 bit1129 mongodb
本文首先介绍下MongoDB的基本的增删改查操作，然后，详细介绍MongoDB提供的修改器，以完成各种各样的文档更新操作 MongoDB的主要操作 show dbs 显示当前用户能看到哪些数据库 use foobar 将数据库切换到foobar show collections 显示当前数据库有哪些集合 db.people.update，update不带参数，可
提高职业素养，做好人生规划白糖_ 人生
培训讲师是成都著名的企业培训讲师，他在讲课中提出的一些观点很新颖，在此我收录了一些分享一下。注：讲师的观点不代表本人的观点，这些东西大家自己揣摩。 1、什么是职业规划：职业规划并不完全代表你到什么阶段要当什么官要拿多少钱，这些都只是梦想。职业规划是清楚的认识自己现在缺什么，这个阶段该学习什么，下个阶段缺什么，又应该怎么去规划学习，这样才算是规划。
国外的网站你都到哪边看？ bozch 技术网站国外
学习软件开发技术，如果没有什么英文基础，最好还是看国内的一些技术网站，例如：开源OSchina，csdn，iteye,51cto等等。个人感觉如果英语基础能力不错的话，可以浏览国外的网站来进行软件技术基础的学习，例如java开发中常用的到的网站有apache.org 里面有apache的很多Projects,springframework.org是spring相关的项目网站,还有几个感觉不错的
编程之美-光影切割问题 bylijinnan 编程之美
package a; public class DisorderCount { /**《编程之美》“光影切割问题” * 主要是两个问题： * 1.数学公式（设定没有三条以上的直线交于同一点）： * 两条直线最多一个交点，将平面分成了4个区域； * 三条直线最多三个交点，将平面分成了7个区域； * 可以推出：N条直线 M个交点，区域数为N+M+1。
关于Web跨站执行脚本概念 chenbowen00 Web 安全跨站执行脚本
跨站脚本攻击(XSS)是web应用程序中最危险和最常见的安全漏洞之一。安全研究人员发现这个漏洞在最受欢迎的网站,包括谷歌、Facebook、亚马逊、PayPal,和许多其他网站。如果你看看bug赏金计划,大多数报告的问题属于 XSS。为了防止跨站脚本攻击,浏览器也有自己的过滤器,但安全研究人员总是想方设法绕过这些过滤器。这个漏洞是通常用于执行cookie窃取、恶意软件传播,会话劫持,恶意重定向。在
[开源项目与投资]投资开源项目之前需要统计该项目已有的用户数 comsci 开源项目
现在国内和国外,特别是美国那边,突然出现很多开源项目,但是这些项目的用户有多少,有多少忠诚的粉丝,对于投资者来讲,完全是一个未知数,那么要投资开源项目,我们投资者必须准确无误的知道该项目的全部情况,包括项目发起人的情况,项目的维持时间..项目的技术水平,项目的参与者的势力,项目投入产出的效益.....
oracle alert log file（告警日志文件） daizj oracle 告警日志文件 alert log file
The alert log is a chronological log of messages and errors, and includes the following items: All internal errors (ORA-00600), block corruption errors (ORA-01578), and deadlock errors (ORA-00060)
关于 CAS SSO 文章声明 denger SSO
由于几年前写了几篇 CAS 系列的文章，之后陆续有人参照文章去实现，可都遇到了各种问题，同时经常或多或少的收到不少人的求助。现在这时特此说明几点： 1. 那些文章发表于好几年前了，CAS 已经更新几个很多版本了，由于近年已经没有做该领域方面的事情，所有文章也没有持续更新。 2. 文章只是提供思路，尽管 CAS 版本已经发生变化，但原理和流程仍然一致。最重要的是明白原理，然后
初二上学期难记单词 dcj3sjt126com english word
lesson 课 traffic 交通 matter 要紧；事物 happy 快乐的，幸福的 second 第二的 idea 主意；想法；意见 mean 意味着 important 重要的，重大的 never 从来，决不 afraid 害怕的 fifth 第五的 hometown 故乡，家乡 discuss 讨论；议论 east 东方的 agree 同意；赞成 bo
uicollectionview 纯代码布局, 添加头部视图 dcj3sjt126com Collection
#import <UIKit/UIKit.h> @interface myHeadView : UICollectionReusableView { UILabel *TitleLable; } -(void)setTextTitle; @end #import "myHeadView.h" @implementation m
N 位随机数字串的 JAVA 生成实现 FX夜归人 java Math 随机数 Random
/** * 功能描述随机数工具类<br /> * @author FengXueYeGuiRen * 创建时间 2014-7-25<br /> */ public class RandomUtil { // 随机数生成器 private static java.util.Random random = new java.util.R
Ehcache（09）——缓存Web页面 234390216 ehcache 页面缓存
页面缓存目录 1 SimplePageCachingFilter 1.1 calculateKey 1.2 可配置的初始化参数 1.2.1 cach
spring中少用的注解@primary解析 jackyrong primary
这次看下spring中少见的注解@primary注解，例子 @Component public class MetalSinger implements Singer{ @Override public String sing(String lyrics) { return "I am singing with DIO voice
Java几款性能分析工具的对比 lbwahoo java
Java几款性能分析工具的对比摘自：http://my.oschina.net/liux/blog/51800 在给客户的应用程序维护的过程中，我注意到在高负载下的一些性能问题。理论上，增加对应用程序的负载会使性能等比率的下降。然而，我认为性能下降的比率远远高于负载的增加。我也发现，性能可以通过改变应用程序的逻辑来提升，甚至达到极限。为了更详细的了解这一点，我们需要做一些性能
JVM参数配置大全 nickys jvm 应用服务器
JVM参数配置大全 /usr/local/jdk/bin/java -Dresin.home=/usr/local/resin -server -Xms1800M -Xmx1800M -Xmn300M -Xss512K -XX:PermSize=300M -XX:MaxPermSize=300M -XX:SurvivorRatio=8 -XX:MaxTenuringThreshold=5 -
搭建 CentOS 6 服务器(14) - squid、Varnish rensanning varnish
（一）squid 安装 # yum install httpd-tools -y # htpasswd -c -b /etc/squid/passwords squiduser 123456 # yum install squid -y 设置 # cp /etc/squid/squid.conf /etc/squid/squid.conf.bak # vi /etc/
Spring缓存注解@Cache使用 tom_seed spring
参考资料 http://www.ibm.com/developerworks/cn/opensource/os-cn-spring-cache/ http://swiftlet.net/archives/774 缓存注解有以下三个： @Cacheable @CacheEvict @CachePut
dom4j解析XML时出现"java.lang.noclassdeffounderror: org/jaxen/jaxenexception"错误 xp9802
java.lang.NoClassDefFoundError: org/jaxen/JaxenExc 关键字: java.lang.noclassdeffounderror: org/jaxen/jaxenexception 使用dom4j解析XML时，要快速获取某个节点的数据，使用XPath是个不错的方法，dom4j的快速手册里也建议使用这种方式执行时却抛出以下异常： Exceptio