undo_try

经典目标检测YOLO系列(三)YOLOv3的复现(2)正样本的匹配、损失函数的实现

我们在之前实现YOLOv2的基础上，加入了多级检测及FPN，快速的实现了YOLOv3的网络架构，并且实现了前向推理过程。

经典目标检测YOLO系列(三)YOLOV3的复现(1)总体网络架构及前向处理过程

我们继续进行YOLOv3的复现。

1 正样本匹配策略

1.1 基于先验框的正样本匹配策略

官方YOLOv2的正样本匹配思路是根据预测框和目标框的IoU来确定中心点所在的网格，哪一个预测框是正样本。
大体上，官方YOLOv3也沿用这一思路，但是细节上有差距。官方YOLOv3也会出现之前所说的三种情况：
- 前2种情况，IoU都小于iou_thresh或者仅有一个IoU值大于iou_thresh，那么此时会有一个正样本；
- 第3种情况，即有多个IoU值大于iou_thresh时候，仅仅将IoU最大的哪一个作为正样本。对于剩下样本，由于IoU值已经大于iou_thresh，因此不会被标记为正样本，将其忽略。
我们继续沿用之前复现YOLOv2的做法。对于第3种情况，我们不忽略，还是标记为正样本。
- 假设一个含有目标框中心的网格上的5个先验框分别为A、B、C、D、E，那么需要计算这5个先验框与目标框O的IoU值，分别为：IoU_A、IoU_B、IoU_C、IoU_D、IoU_E，然后设定一个阈值iou_thresh：
  - 第1种情况：如果IoU_A、IoU_B、IoU_C、IoU_D、IoU_E都小于iou_thresh，为了不丢失这个训练样本，我们选择选择IoU值最大的先验框P_A。将P_A对应的预测框B_A，标记为正样本，即先验框决定哪些预测框会参与到何种损失的计算中去。
  - 第2种情况：仅有一个IoU值大于iou_thresh，那么这个先验框所对应的预测框会被标记为正样本，会参与到置信度、类别及位置损失的计算。
  - 第3种情况：有多个IoU值大于iou_thresh，那么这些先验框所对应的预测框都会被标记为正样本，即一个目标会被匹配上多个正样本。
由于YOLOv3中添加了多级检测，因此部分代码细节有所差异。

1.2 代码实现

1.2.1 正样本匹配

pytorch读取VOC数据集：

一批图像数据的维度是 [B, 3, H, W] ，分别是batch size，色彩通道数，图像的高和图像的宽。
标签数据是一个包含 B 个图像的标注数据的python的list变量（如下所示），其中，每个图像的标注数据的list变量又包含了 M 个目标的信息（类别和边界框）。
获得了这一批数据后，图片是可以直接喂到网络里去训练的，但是标签不可以，需要再进行处理一下。

[
        {
            'boxes': torch.tensor([[120.,   0., 408.,  23.],
                                   [160.,  59., 416., 256.],
                                   [172.,  24., 218., 128.],
                                   [408.,  35., 416.,  75.],
                                   [  0.,  64.,   8., 186.]]),  # bbox的坐标(xmin, ymin, xmax, ymax
            'labels': torch.tensor([ 6,  6, 14,  6, 19]),       # 标签
            'orig_size': [416, 416]                             # 图片的原始大小
         },
        {
            'boxes': torch.tensor([[367., 255., 416., 416.],
                                   [330., 302., 416., 416.]]),
            'labels': torch.tensor([14, 13]),
            'orig_size': [416, 416]
        }
]

标签处理主要包括3个部分，

一是将真实框中心所在网格对应正样本位置(anchor_idx)的置信度置为1，其他默认为0
二是将真实框中心所在网格对应正样本位置(anchor_idx)的标签类别为1(one-hot格式)，其他类别设置为0
三是将真实框中心所在网格对应正样本位置(anchor_idx)的bbox信息设置为真实框的bbox信息。

# 处理好的shape如下：
# gt_objectness  
torch.Size([2, 10647, 1])  # 10647=52×52×3 + 26×26×3 + 13×13×3
# gt_classes
torch.Size([2, 10647, 20])
# gt_bboxes
torch.Size([2, 10647, 4])

1.2.2 具体代码实现

对于一个目标框，我们先计算它和9个先验框的IoU，然后先用阈值进行筛选
然后，我们会遇到之前说的3种情况，处理方法和YOLOv2一致。
在确定哪个先验框为正样本后，我们还要通过公式iou_ind // self.num_anchors确定这个先验框来自哪个尺度。
- 一个很小的目标框，它和较小的先验框的IoU理应大一些，因此会被分配到网格密集的C3尺度上；
- 相反，一个很大的目标框，它和较大的先验框的IoU理应大一些，因此会被分配到网格稀疏的C5尺度上；
- 中等大小的目标框，被分配到C4尺度上。

# RT-ODLab/models/detectors/yolov3/matcher.py
import numpy as np
import torch


class Yolov3Matcher(object):
    def __init__(self, num_classes, num_anchors, anchor_size, iou_thresh):
        self.num_classes = num_classes
        self.num_anchors = num_anchors
        self.iou_thresh = iou_thresh
        self.anchor_boxes = np.array(
            [[0., 0., anchor[0], anchor[1]]
            for anchor in anchor_size]
            )  # [KA, 4]


    def compute_iou(self, anchor_boxes, gt_box):
        """
        函数功能: 计算目标框和9个先验框的IoU值
            anchor_boxes : ndarray -> [KA, 4] (cx, cy, bw, bh).
            gt_box : ndarray -> [1, 4] (cx, cy, bw, bh).
            
            返回值: iou变量，类型为ndarray类型，shape为[9,], iou[i]就表示该目标框和第i个先验框的IoU值
        """
        # 1、计算9个anchor_box的面积
        # anchors: [KA, 4]
        anchors = np.zeros_like(anchor_boxes)
        anchors[..., :2] = anchor_boxes[..., :2] - anchor_boxes[..., 2:] * 0.5  # x1y1
        anchors[..., 2:] = anchor_boxes[..., :2] + anchor_boxes[..., 2:] * 0.5  # x2y2
        anchors_area = anchor_boxes[..., 2] * anchor_boxes[..., 3]
        # 2、gt_box复制9份，计算9个相同gt_box的面积
        # gt_box: [1, 4] -> [KA, 4]
        gt_box = np.array(gt_box).reshape(-1, 4)
        gt_box = np.repeat(gt_box, anchors.shape[0], axis=0)
        gt_box_ = np.zeros_like(gt_box)
        gt_box_[..., :2] = gt_box[..., :2] - gt_box[..., 2:] * 0.5  # x1y1
        gt_box_[..., 2:] = gt_box[..., :2] + gt_box[..., 2:] * 0.5  # x2y2
        gt_box_area = np.prod(gt_box[..., 2:] - gt_box[..., :2], axis=1)
        # 3、计算计算目标框和9个先验框的IoU值
        # intersection
        inter_w = np.minimum(anchors[:, 2], gt_box_[:, 2]) - \
                  np.maximum(anchors[:, 0], gt_box_[:, 0])
        inter_h = np.minimum(anchors[:, 3], gt_box_[:, 3]) - \
                  np.maximum(anchors[:, 1], gt_box_[:, 1])
        inter_area = inter_w * inter_h
        
        # union
        union_area = anchors_area + gt_box_area - inter_area

        # iou
        iou = inter_area / union_area
        iou = np.clip(iou, a_min=1e-10, a_max=1.0)
        
        return iou


    @torch.no_grad()
    def __call__(self, fmp_sizes, fpn_strides, targets):
        """
            fmp_size: (List) [fmp_h, fmp_w]
            fpn_strides: (List) -> [8, 16, 32, ...] stride of network output.
            targets: (Dict) dict{'boxes': [...], 
                                 'labels': [...], 
                                 'orig_size': ...}
        """
        assert len(fmp_sizes) == len(fpn_strides)
        # prepare
        bs = len(targets)
        gt_objectness = [
            torch.zeros([bs, fmp_h, fmp_w, self.num_anchors, 1]) 
            for (fmp_h, fmp_w) in fmp_sizes
            ]
        gt_classes = [
            torch.zeros([bs, fmp_h, fmp_w, self.num_anchors, self.num_classes]) 
            for (fmp_h, fmp_w) in fmp_sizes
            ]
        gt_bboxes = [
            torch.zeros([bs, fmp_h, fmp_w, self.num_anchors, 4]) 
            for (fmp_h, fmp_w) in fmp_sizes
            ]
        # 第一层for循环遍历每一张图像
        for batch_index in range(bs):
            targets_per_image = targets[batch_index]
            # [N,]   N表示一个图像中有N个目标对象
            tgt_cls = targets_per_image["labels"].numpy()
            # [N, 4]
            tgt_box = targets_per_image['boxes'].numpy()
            # 第二层for循环遍历这张图像标签的每一个目标数据
            for gt_box, gt_label in zip(tgt_box, tgt_cls):
                # get a bbox coords
                x1, y1, x2, y2 = gt_box.tolist()
                # xyxy -> cxcywh
                xc, yc = (x2 + x1) * 0.5, (y2 + y1) * 0.5
                bw, bh = x2 - x1, y2 - y1
                gt_box = [0, 0, bw, bh]

                # check target
                if bw < 1. or bh < 1.:
                    # invalid target
                    continue
                # 1、计算该目标框和9个先验框的IoU值
                # compute IoU
                iou = self.compute_iou(self.anchor_boxes, gt_box)
                iou_mask = (iou > self.iou_thresh)
                # 2、基于先验框的标签分配策略
                label_assignment_results = []
                # 第一种情况：所有的IoU值均低于阈值，选择IoU最大的先验框
                if iou_mask.sum() == 0:
                    # We assign the anchor box with highest IoU score.
                    iou_ind = np.argmax(iou)
                    # 确定选择的先验框在pyramid上的level及anchor index
                    level = iou_ind // self.num_anchors              # pyramid level
                    anchor_idx = iou_ind - level * self.num_anchors  # anchor index

                    # get the corresponding stride
                    stride = fpn_strides[level]

                    # compute the grid cell
                    # 计算该目标框在level尺度的网格坐标
                    xc_s = xc / stride
                    yc_s = yc / stride
                    grid_x = int(xc_s)
                    grid_y = int(yc_s)
                    # 存下网格坐标、尺度level以及anchor_idx
                    label_assignment_results.append([grid_x, grid_y, level, anchor_idx])
                else:
                    # 第二种和第三种情况：至少有一个IoU值大于阈值
                    for iou_ind, iou_m in enumerate(iou_mask):
                        if iou_m:
                            level = iou_ind // self.num_anchors              # pyramid level
                            anchor_idx = iou_ind - level * self.num_anchors  # anchor index

                            # get the corresponding stride
                            stride = fpn_strides[level]

                            # compute the gride cell
                            xc_s = xc / stride
                            yc_s = yc / stride
                            grid_x = int(xc_s)
                            grid_y = int(yc_s)

                            label_assignment_results.append([grid_x, grid_y, level, anchor_idx])

                # label assignment
                # 获取到被标记为正样本的先验框，我们就可以为这次先验框对应的预测框制作学习标签
                for result in label_assignment_results:
                    grid_x, grid_y, level, anchor_idx = result
                    fmp_h, fmp_w = fmp_sizes[level]

                    if grid_x < fmp_w and grid_y < fmp_h:
                        # objectness标签，采用0，1离散值(gt_objectness为list,存3个尺度的正样本)
                        gt_objectness[level][batch_index, grid_y, grid_x, anchor_idx] = 1.0
                        # classification标签，采用one-hot格式
                        cls_ont_hot = torch.zeros(self.num_classes)
                        cls_ont_hot[int(gt_label)] = 1.0
                        gt_classes[level][batch_index, grid_y, grid_x, anchor_idx] = cls_ont_hot
                        # box标签，采用目标框的坐标值
                        gt_bboxes[level][batch_index, grid_y, grid_x, anchor_idx] = torch.as_tensor([x1, y1, x2, y2])

        # [B, M, C]
        gt_objectness = torch.cat([gt.view(bs, -1, 1) for gt in gt_objectness], dim=1).float()
        gt_classes = torch.cat([gt.view(bs, -1, self.num_classes) for gt in gt_classes], dim=1).float()
        gt_bboxes = torch.cat([gt.view(bs, -1, 4) for gt in gt_bboxes], dim=1).float()

        return gt_objectness, gt_classes, gt_bboxes


if __name__ == '__main__':
    anchor_size = [[10, 13], [16, 30], [33, 23],
                   [30, 61], [62, 45], [59, 119],
                   [116, 90], [156, 198], [373, 326]]
    matcher = Yolov3Matcher(iou_thresh=0.5, num_classes=20, anchor_size=anchor_size, num_anchors=3)

    fmp_sizes =   [torch.Size([52, 52]), torch.Size([26, 26]), torch.Size([13, 13])]
    fpn_strides = [8, 16, 32]
    targets = [
        {
            'boxes': torch.tensor([[120.,   0., 408.,  23.],
                                   [160.,  59., 416., 256.],
                                   [172.,  24., 218., 128.],
                                   [408.,  35., 416.,  75.],
                                   [  0.,  64.,   8., 186.]]),  # bbox的坐标(xmin, ymin, xmax, ymax
            'labels': torch.tensor([ 6,  6, 14,  6, 19]),       # 标签
            'orig_size': [416, 416]                             # 图片的原始大小
         },
        {
            'boxes': torch.tensor([[367., 255., 416., 416.],
                                   [330., 302., 416., 416.]]),
            'labels': torch.tensor([14, 13]),
            'orig_size': [416, 416]
        }
    ]

    gt_objectness, gt_classes, gt_bboxes = matcher(fmp_sizes=fmp_sizes, fpn_strides=fpn_strides, targets=targets)
    print(gt_objectness.shape)
    print(gt_classes.shape)
    print(gt_bboxes.shape)

2 损失函数的计算

YOLOv3损失函数计算(RT-ODLab/models/detectors/yolov3/loss.py)和之前实现的YOLOv2基本一致，不再赘述
对于数据预处理、数据增强等，我们不再采用之前SSD风格的处理手段，而是选择YOLOv5的数据处理方法来训练我们的YOLOv3，我们下次再聊。

结语

我们现在已经知道，在多级检测框架时候，先验框自身尺度在标签分配环节起到了重要的作用。
自Faster R-CNN工作问世以来，anchor box几乎成为了大多数先进的目标检测器的标准配置之一。但是anchor box的缺陷也是十分明显的，比如以下几点：
- 首先，anchor box的长宽比、面积和数量依赖于人工设计。纵然YOLOv2给出了基于kmeans聚类算法的设计anchor box的尺寸，但是anchor box的数量仍旧是个问题；
- 无论多么精心设计anchor box，一旦固定下来后，就不会再被改变。模型在一个训练集上被训练之后，已设定好的anchor box尽管可能在这个数据分布上表现够好，可一旦遇到不位于该数据分布的场景时，anchor box就可能存在不能泛化到新目标的问题；
- 另外，大量的anchor box使得预测框的数量变多，从而使得后处理阶段要处理大量的预测框，不仅加剧了算力消耗，也会拖慢模型的检测速度；
但是，如果没有先验框，能否做多级检测呢？
- 没有先验框进行多级检测，即anchor-free架构，首先要解决哪个目标框应该被来自哪个尺度的预测框学习，即多尺度标签匹配问题。
- 在2019年，FCOS检测器被提出，其最大的特点就是彻底抛去了一直以来的anchor box，那么FCOS如何解决多尺度匹配问题呢?
  - FCOS一共使用五个特征图 P3、P4、P5、P6和P7 ，其输出步长stride分别为 8、16、32、64和128。FCOS为这每一个尺度都设定了一个尺度范围，即对于特征图 P_i ，其尺度范围是 (m_i−1,m_i) ，这五个尺度范围分别为 (0,64) 、(64,128)、(128,256)、(256,512)，以及(512,∞)。
    
    首先，我们去遍历特征图Pi上的每一个anchor，假设每一个anchor的坐标为 (xs_a+0.5，ys_a+0.5) ，其中(xs_a，ys_a)为anchor的左上角点坐标，也就是我们以前熟悉的网格左上角坐标的概念，但我们又为之加上了0.5亚像素坐标，即网格的中心点。我们求出特征图P_i上的anchor在输入图像上的坐标 (x_a，y_a) ，计算公式如下所示：
    $x_a=xs_a∗s+s/2 \\ y_a=ys_a∗s+s/2$
    然后，我们求出处在边界框内的每一个anchor到边界框的四条边的距离：
    $l^∗=x_a−x_1 \\ t^∗=y_a−y_1 \\ r^∗=x_2−x_a \\ b^∗=y_2−y_a$
    我们取其中的最大值 m=max(l∗,t∗,r∗,b∗) ，如果 m 满足 m_i−1
    若是目标框的尺寸偏小，那它内部的anchor就会更多地落在较小的范围内，比如: (0，64)，反之，则会更多地落在较大的范围内，如: (256，512) 。
    
    换言之，FCOS设置的五个范围本质上是一种和目标自身大小相关的尺度范围，是基于一种 小的目标框更应该让输出步长小的也就是更大的特征图去学习，大的目标框则应该让输出步长更大的特征图去学习的直观理解。
  - 但这个尺度还需要人工设计，没有摆脱人工先验的超参。
- 旷视科技在YOLOX种提出了SimOTA，摆脱了人工先验的超参，实现了真正意义的anchor-free，具体细节以后再讲。

【Python】一文详细介绍 py格式文件高斯小哥 Python基础【高质量合集】python 新手入门学习
【Python】一文详细介绍py格式文件个人主页：高斯小哥高质量专栏：Matplotlib之旅：零基础精通数据可视化、Python基础【高质量合集】、PyTorch零基础入门教程希望得到您的订阅和支持~创作高质量博文(平均质量分92+)，分享更多关于深度学习、PyTorch、Python领域的优质内容！（希望得到您的关注~）文章目录一、py格式文件简介二、如何创建和编辑py格式文件三、如何运行py
大创项目推荐深度学习 opencv python 公式识别(图像识别机器视觉) laafeer python
文章目录0前言1课题说明2效果展示3具体实现4关键代码实现5算法综合效果6最后0前言优质竞赛项目系列，今天要分享的是基于深度学习的数学公式识别算法实现该项目较为新颖，适合作为竞赛课题方向，学长非常推荐！学长这里给一个题目综合评分(每项满分5分)难度系数：3分工作量：4分创新点：4分更多资料,项目分享：https://gitee.com/dancheng-senior/postgraduate1课题
[数据集][图像分类]河道污染分类数据集1923张4类别 FL1623863129 数据集分类数据挖掘人工智能
数据集类型：图像分类用，不可用于目标检测无标注文件数据集格式：仅仅包含jpg图片，每个类别文件夹下面存放着对应图片图片数量(jpg文件个数)：1922分类类别数：4类别名称:["lianghao","qingwei","yanzhong","zhongdu"]每个类别图片数：lianghao图片数：435qingwei图片数：423yanzhong图片数：577zhongdu图片数：487重要说明
python清华大学出版社答案_Python机器学习及实践 weixin_39805119 python清华大学出版社答案
第1章机器学习的基础知识1.1何谓机器学习1.1.1传感器和海量数据1.1.2机器学习的重要性1.1.3机器学习的表现1.1.4机器学习的主要任务1.1.5选择合适的算法1.1.6机器学习程序的步骤1.2综合分类1.3推荐系统和深度学习1.3.1推荐系统1.3.2深度学习1.4何为Python1.4.1使用Python软件的由来1.4.2为什么使用Python1.4.3Python设计定位1.4.
深度学习项目-基于深度学习的股票价格预测研究雅致教育计算机毕业设计深度学习人工智能
概要随着经济的发展，中国股票市场的规模持续扩大，早已成为金融投资的重要部分，掌握股票市场的变化规律无论是对监管者还是投资者都具有极其重要的意义。正因如此，人们不断探索着股票市场的变化规律，其中使用深度学习预测股价是当前国内国际研究与应用的热点。本文首先从有效市场假说和分形市场假说两个角度讨论了中国股票市场的有效性，说明股票市场具有复杂的非线性特征。其次，结合股票市场特征对比了当前的预测方法
ChatGPT技巧大揭秘：AI写代码新境界 2401_83550420 chatgpt4.0 chatgpt chatgpt 人工智能 AI写作
ChatGPT无限次数:点击直达ChatGPT技巧大揭秘：AI写代码新境界随着人工智能技术的不断进步，开发人员现在有了更多有趣的工具来提高他们的工作效率。其中，ChatGPT作为一种基于深度学习的自然语言处理模型，已经成为许多开发者的新宠。在本文中，我们将揭秘使用ChatGPT来帮助编写代码的技巧，探索AI在编程领域的新境界。ChatGPT简介ChatGPT是一种基于大型神经网络的对话生成模型，它
AI大模型学习：开启智能时代的新篇章游向大厂的咸鱼人工智能学习
随着人工智能技术的不断发展，AI大模型已经成为当今领先的技术之一，引领着智能时代的发展。这些大型神经网络模型，如OpenAI的GPT系列、Google的BERT等，在自然语言处理、图像识别、智能推荐等领域展现出了令人瞩目的能力。然而，这些模型的背后是一系列复杂的学习过程，深度学习技术的不断演进推动了AI大模型学习的发展。首先，AI大模型学习的基础是深度学习技术。深度学习是一种模仿人类大脑结构的机器
【Python】成功解决ModuleNotFoundError: No module named ‘torchinfo‘ 高斯小哥 BUG解决方案合集 python pytorch 新手入门学习 debug
【Python】成功解决ModuleNotFoundError:Nomodulenamed‘torchinfo’个人主页：高斯小哥高质量专栏：Matplotlib之旅：零基础精通数据可视化、Python基础【高质量合集】、PyTorch零基础入门教程希望得到您的订阅和支持~创作高质量博文(平均质量分92+)，分享更多关于深度学习、PyTorch、Python领域的优质内容！（希望得到您的关注~）文
ChatGPT神技：AI成为你的编程良友 2401_83481083 chatgpt4.0 chatgpt chatgpt 人工智能 AI写作
ChatGPT无限次数:点击直达ChatGPT神技：AI成为你的编程良友近年来，人工智能技术的发展迅猛，ChatGPT作为其中一项创新技术，正逐渐走进我们的生活。在编程领域，AI不仅可以助力我们提高效率，还能成为我们的良友，帮助解决各种编程难题。一、ChatGPT简介ChatGPT是一种基于自然语言处理技术的人工智能模型，它能够生成类人对话。ChatGPT通过深度学习模型，能够理解输入的文本并生成
深度学习如何入门？科学的N次方深度学习
入门深度学习需要系统性的学习和实践经验积累，以下是一份详细的入门指南，包含了关键的学习步骤和资源：预备知识：•编程基础：熟悉Python编程语言，它是深度学习领域最常用的编程语言。确保掌握变量、条件语句、循环、函数等基本概念，并学习如何使用Python处理数据和文件操作。•数学基础：理解线性代数（矩阵运算、向量空间等）、微积分（导数、梯度求解等）、概率论与统计学（期望、方差、概率分布、最大似然估计
深度学习与（复杂系统）事物的属性科学禅道深度学习模型专栏深度学习人工智能
深度学习与复杂系统中事物属性的关系体现在：特征学习与表示:深度学习通过多层神经网络结构，能够自动从原始输入数据中学习和提取出丰富的特征表示。每一层神经网络都可能对应着事物属性的不同抽象层次，底层可能对应简单直观的属性，而随着网络深度的增加，顶层可以学习到更抽象、复杂的属性及其相互关系。非线性关系建模:深度学习特别擅长处理非线性关系，而在复杂系统中，事物属性间的相互作用往往表现为非线性，例如，某些属
智合同如何助力建筑行业合同智能化管理智合同（小智）合同智能应用 AI技术降本增效提质人工智能自然语言处理知识图谱深度学习大数据
#建筑行业#人工智能#AI#合同智能应用#深度学习#自然语言处理技术#知识图谱智合同-采用深度学习、自然语言处理技术、知识图谱等人工智能技术，为企业提供专业的合同相关的智能服务。其主要服务包含：合同智能审查、合同要素智能提取、合同版本对比、合同智能起草、ICR智能识别、合同履约追踪、文本一致性对比、广告审查、合同范本库等服务。智合同在助力建筑行业合同智能化管理方面具有显著的优势。首先，智合同利用A
神经网络（深度学习，计算机视觉，得分函数，损失函数，前向传播，反向传播，激活函数） MarkHD 深度学习神经网络计算机视觉
神经网络，特别是深度学习，在计算机视觉等领域有着广泛的应用。以下是关于你提到的几个关键概念的详细解释：神经网络：神经网络是一种模拟人脑神经元结构的计算模型，用于处理复杂的数据和模式识别任务。它由多个神经元（或称为节点）组成，这些神经元通过权重和偏置进行连接，并可以学习调整这些参数以优化性能。深度学习：深度学习是神经网络的一个子领域，主要关注于构建和训练深度神经网络（即具有多个隐藏层的神经网络）。通
YOLOv5 | 源码解析 | 计算损失loss原理——独家原创注释 kay_545 YOLOv8改进有效涨点 Yolov5改进 YOLO python 开发语言
⭐欢迎大家订阅我的专栏一起学习⭐订阅专栏，更新及时查看不迷路YOLOv5涨点专栏：http://t.csdnimg.cn/D9kR0YOLOv8涨点专栏：http://t.csdnimg.cn/5hNr8YOLOv7专栏：http://t.csdnimg.cn/hJsf1魔改网络、复现论文、优化创新各位订阅YOLOv8专栏读者，非常抱歉，这篇文章加错专栏了，但是因为是订阅的，所以不能删除或者移动这
目标检测——摩托车头盔检测数据集钓了猫的鱼儿目标检测数据集目标检测摩托车头盔检测数据集
一、简介首先，摩托车作为一种交通工具，具有高速、开放和稳定性差的特点，其事故发生率高，伤亡率排在机动车辆损伤的首位。因此，摩托车乘员头盔对于保护驾乘人员头部安全至关重要。在驾乘突发状况、人体受冲击时，头盔能够吸收碰撞能量，减轻伤害。研究摩托车头盔检测，能够确保头盔的质量和安全性能，从而更有效地保护驾乘人员的生命安全。其次，随着科技的发展，人们对于交通安全和生命安全的重视程度日益提高。摩托车头盔作为
MATLAB 2023a：强化学习算法的实战演练与性能评估 zmjia111 机器学习 matlab matlab 算法开发语言深度学习机器学习 yolo
在深度学习领域，MATLAB2023版深度学习工具箱以其完整的工具链和高效的运行环境，为研究人员和开发者提供了前所未有的便利。这一工具箱不仅集成了建模、训练和部署的全部功能，更以其简洁易用的语法和强大的算法库，为深度学习任务的快速实现铺平了道路。相较于Python等编程语言，MATLAB的语法更为直观，上手更为迅速。无需繁琐的环境配置和库安装，用户只需打开MATLAB界面，即可轻松开始深度学习之旅
动手学习深度学习——2.5 自动微分 X_Imagine 动手学习深度学习深度学习人工智能自动微分
2.5自动微分正如【2.4微积分】所说，微分是深度学习中几乎所有最优化算法的关键步骤。虽然求这些导数的计算过程很简单，只需要一些基本的微积分知识。但对于复杂的模型，手工计算参数的更新可能很痛苦(而且经常容易出错)。深度学习框架通过自动计算导数加快了这一工作，即自动微分（AutomaticDifferentiation）。在实践中，基于我们设计的模型，系统构建了一个计算图，跟踪哪些数据结合哪些操
飞桨科学计算套件PaddleScience skywalk8163 人工智能 paddlepaddle 人工智能飞桨
PaddleScience是一个基于深度学习框架PaddlePaddle开发的科学计算套件，利用深度神经网络的学习能力和PaddlePaddle框架的自动(高阶)微分机制，解决物理、化学、气象等领域的问题。支持物理机理驱动、数据驱动、数理融合三种求解方式，并提供了基础API和详尽文档供用户使用与二次开发。安装当然要先安装好飞桨PaddlePaddle，再安装PaddleSciencepipinst
最新ChatGPT支持下的PyTorch机器学习与深度学习 zkzhzy ChatGPT 机器学习 python 机器学习深度学习 pytorch chatgpt 数据分析人工智能
近年来，随着AlphaGo、无人驾驶汽车、医学影像智慧辅助诊疗、ImageNet竞赛等热点事件的发生，人工智能迎来了新一轮的发展浪潮。尤其是深度学习技术，在许多行业都取得了颠覆性的成果。另外，近年来，Pytorch深度学习框架受到越来越多科研人员的关注和喜爱。郁磊（副教授）主要从事AI人工智能、大语言模型及软件开发、生理系统建模与仿真、生物医学信号处理，具有丰富的科研经验，主编《MATLAB智能算
torch报错：[winerror 126] 找不到指定的模块torch_python.dll“ or one of its dependencies. LightningJie 深度学习 python pytorch
[winerror126]找不到指定的模块。errorloading"d:\miniconda\envs\action_env\lib\site-packages\torch\lib\torch_python.dll"oroneofitsdependencies.在使用这个yolov5模块的时候发现了这个错误，错误原因是因为python版本和torch版本冲突。本人安装torch的python版本
神经网络量化小厂程序猿人工智能
神经网络量化（NeuralNetworkQuantization）是一种技术，旨在减少神经网络模型的计算和存储资源需求，同时保持其性能。在深度学习中，神经网络模型通常使用高精度的参数（例如32位浮点数）来表示权重和激活值。然而，这种表示方式可能会占用大量的内存和计算资源，特别是在部署到资源受限的设备（如移动设备或嵌入式系统）时会受到限制。神经网络量化通过将模型参数和激活值从高精度表示（例如32位浮
神奇的微积分科学的N次方人工智能人工智能 ai
微积分在人工智能（AI）领域扮演着至关重要的角色，以下是其主要作用：优化算法：•梯度下降法：微积分中的导数被用来计算损失函数相对于模型参数的梯度，这是许多机器学习和深度学习优化算法的核心。梯度指出了函数值增加最快的方向，通过沿着负梯度方向更新权重，可以最小化损失函数并优化模型。•反向传播：在神经网络训练中，微积分的链式法则用于计算整个网络中每个参数对于最终损失函数的影响（偏导数），这一过程就是反向
线性代数在卷积神经网络（CNN）中的体现科学的N次方人工智能线性代数 cnn 人工智能
案例：深度学习中的卷积神经网络（CNN）在图像识别领域，卷积神经网络（ConvolutionalNeuralNetworks,CNN）是一个广泛应用深度学习模型，它在人脸识别、物体识别、医学图像分析等方面取得了显著成效。CNN中的核心操作——卷积，就是一个直接体现线性代数应用的例子。假设我们正在训练一个用于识别猫和狗的图像分类器，原始输入是一幅RGB彩色图片，可以将其视为一个高度、宽度和通道数（R
高质量 Git 仓库汇总（持续更新，方便查看） Nice_cool. 学习
Leetcodehttps://github.com/kamyu104/LeetCode-SolutionsCmakehttps://github.com/viva64/pvs-studio-cmake-examples3D目标检测Awesome-3D-Object-DetectionAwesome-3D-Object-Detection-for-Autonomous-DrivingCudaCod
【PyTorch】成功解决ModuleNotFoundError: No module named ‘torch’ 高斯小哥 PyTorch零基础入门教程 pytorch 人工智能 python conda debug 深度学习机器学习
【PyTorch】成功解决ModuleNotFoundError:Nomodulenamed‘torch’个人主页：高斯小哥高质量专栏：Matplotlib之旅：零基础精通数据可视化、Python基础【高质量合集】、PyTorch零基础入门教程希望得到您的订阅和支持~创作高质量博文(平均质量分92+)，分享更多关于深度学习、PyTorch、Python领域的优质内容！（希望得到您的关注~）文章目录
深度学习pytorch——索引与切片 Echo-J AI 深度学习 pytorch 人工智能
indexingimporttorcha=torch.rand(4,3,28,28)#表示4张28*28的rgb图print(a[0].shape)#a[0]获得第一张图片print(a[0,0].shape)#a[0,0]获得第一张图片的r图print(a[0,0,2,4])#获得第一张图片第一个通道的一个像素点，因此得到的是一个标量selectfirst/lastN#selectfirst/l
计算机设计大赛题目：基于卷积神经网络的手写字符识别 - 深度学习 iuerfee python
文章目录0前言1简介2LeNet-5模型的介绍2.1结构解析2.2C1层2.3S2层S2层和C3层连接2.4F6与C5层3写数字识别算法模型的构建3.1输入层设计3.2激活函数的选取3.3卷积层设计3.4降采样层3.5输出层设计4网络模型的总体结构5部分实现代码6在线手写识别7最后0前言优质竞赛项目系列，今天要分享的是基于卷积神经网络的手写字符识别该项目较为新颖，适合作为竞赛课题方向，学长非常推荐
YOLOv9改进添加可变形注意力机制DAttention 学yolo的小白 UPgrade YOLOv9 YOLO python 目标检测 pytorch
一、DeformableAttentionTransformer论文论文地址：arxiv.org/pdf/2201.00520.pdf二、DeformableAttentionTransformer注意力结构DeformableAttentionTransformer包含可变形注意力机制，允许模型根据输入的内容动态调整注意力权重。在传统的Transformer中，注意力是通过对查询和键向量之间的点
【深度学习笔记】1 数据操作 RIKI_1 深度学习深度学习笔记人工智能
注：本文为《动手学深度学习》开源内容，仅为个人学习记录，无抄袭搬运意图数据操作在深度学习中，我们通常会频繁地对数据进行操作。作为动手学深度学习的基础，本节将介绍如何对内存中的数据进行操作。在PyTorch中，torch.Tensor是存储和变换数据的主要工具。如果你之前用过NumPy，你会发现Tensor和NumPy的多维数组非常类似。然而，Tensor提供GPU计算和自动求梯度等更多功能，这些使
科技革新的引擎-2024年AI辅助研发趋势 lzyever 科技人工智能
随着科技的飞速发展，人工智能（AI）已经在许多领域展现出了其强大的潜力和价值。特别是在研发领域，AI的辅助作用日益凸显，成为推动科技革新的重要引擎。在2024年，这种趋势将更加明显，我们可以从以下几个方面来探讨这一趋势。首先，AI辅助研发将极大地提升研发效率并降低成本。在研发过程中，AI可以通过自动化流程、数据挖掘和深度学习等技术，加速实验和设计的过程，从而缩短研发周期。同时，AI还可以优化资源配
ztree设置禁用节点 3213213333332132 JavaScript ztree json setDisabledNode Ajax
ztree设置禁用节点的时候注意，当使用ajax后台请求数据,必须要设置为同步获取数据，否者会获取不到节点对象，导致设置禁用没有效果。 $(function(){ showTree(); setDisabledNode(); });
JVM patch by Taobao bookjovi java HotSpot
在网上无意中看到淘宝提交的hotspot patch，共四个，有意思，记录一下。 7050685：jsdbproc64.sh has a typo in the package name 7058036：FieldsAllocationStyle=2 does not work in 32-bit VM 7060619：C1 should respect inline and
将session存储到数据库中 dcj3sjt126com sql PHP session
CREATE TABLE sessions ( id CHAR(32) NOT NULL, data TEXT, last_accessed TIMESTAMP NOT NULL, PRIMARY KEY (id) ); <?php /** * Created by PhpStorm. * User: michaeldu * Date
Vector 171815164 vector
public Vector<CartProduct> delCart(Vector<CartProduct> cart, String id) { for (int i = 0; i < cart.size(); i++) { if (cart.get(i).getId().equals(id)) { cart.remove(i);
各连接池配置参数比较 g21121 连接池
排版真心费劲，大家凑合看下吧，见谅~ Druid DBCP C3P0 Proxool 数据库用户名称 Username Username User 数据库密码 Password Password Password 驱动名
[简单]mybatis insert语句添加动态字段 53873039oycg mybatis
mysql数据库,id自增,配置如下： <insert id="saveTestTb" useGeneratedKeys="true" keyProperty="id" parameterType=&
struts2拦截器配置云端月影 struts2拦截器
struts2拦截器interceptor的三种配置方法方法1. 普通配置法 <struts> <package name="struts2" extends="struts-default"> &
IE中页面不居中，火狐谷歌等正常 aijuans IE中页面不居中
问题是首页在火狐、谷歌、所有IE中正常显示，列表页的页面在火狐谷歌中正常，在IE6、7、8中都不中，觉得可能那个地方设置的让IE系列都不认识，仔细查看后发现，列表页中没写HTML模板部分没有添加DTD定义，就是<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3
String,int,Integer,char 几个类型常见转换 antonyup_2006 html sql .net
如何将字串 String 转换成整数 int? int i = Integer.valueOf(my_str).intValue(); int i=Integer.parseInt(str); 如何将字串 String 转换成Integer ? Integer integer=Integer.valueOf(str); 如何将整数 int 转换成字串 String ? 1.
PL/SQL的游标类型百合不是茶显示游标(静态游标)隐式游标游标的更新和删除 %rowtype ref游标(动态游标)
游标是oracle中的一个结果集,用于存放查询的结果; PL/SQL中游标的声明; 1,声明游标 2,打开游标(默认是关闭的); 3,提取数据 4,关闭游标注意的要点:游标必须声明在declare中,使用open打开游标,fetch取游标中的数据,close关闭游标隐式游标:主要是对DML数据的操作隐
JUnit4中@AfterClass @BeforeClass @after @before的区别对比 bijian1013 JUnit4 单元测试
一.基础知识 JUnit4使用Java5中的注解（annotation），以下是JUnit4常用的几个annotation： @Before：初始化方法对于每一个测试方法都要执行一次（注意与BeforeClass区别，后者是对于所有方法执行一次）@After：释放资源对于每一个测试方法都要执行一次（注意与AfterClass区别，后者是对于所有方法执行一次
精通Oracle10编程SQL(12)开发包 bijian1013 oracle 数据库 plsql
/* *开发包 *包用于逻辑组合相关的PL/SQL类型（例如TABLE类型和RECORD类型）、PL/SQL项（例如游标和游标变量）和PL/SQL子程序（例如过程和函数） */ --包用于逻辑组合相关的PL/SQL类型、项和子程序，它由包规范和包体两部分组成 --建立包规范：包规范实际是包与应用程序之间的接口，它用于定义包的公用组件，包括常量、变量、游标、过程和函数等 --在包规
【EhCache二】ehcache.xml配置详解 bit1129 ehcache.xml
在ehcache官网上找了多次，终于找到ehcache.xml配置元素和属性的含义说明文档了，这个文档包含在ehcache.xml的注释中！ ehcache.xml ： http://ehcache.org/ehcache.xml ehcache.xsd ： http://ehcache.org/ehcache.xsd ehcache配置文件的根元素是ehcahe ehcac
java.lang.ClassNotFoundException: org.springframework.web.context.ContextLoaderL 白糖_ java eclipse spring tomcat Web
今天学习spring+cxf的时候遇到一个问题：在web.xml中配置了spring的上下文监听器： <listener> <listener-class>org.springframework.web.context.ContextLoaderListener</listener-class> </listener> 随后启动
angular.element boyitech AngularJS AngularJS API angular.element
angular.element 描述: 包裹着一部分DOM element或者是HTML字符串，把它作为一个jQuery元素来处理。（类似于jQuery的选择器啦）如果jQuery被引入了，则angular.element就可以看作是jQuery选择器，选择的对象可以使用jQuery的函数；如果jQuery不可用，angular.e
java-给定两个已排序序列，找出共同的元素。 bylijinnan java
import java.util.ArrayList; import java.util.Arrays; import java.util.List; public class CommonItemInTwoSortedArray { /** * 题目：给定两个已排序序列，找出共同的元素。 * 1.定义两个指针分别指向序列的开始。 * 如果指向的两个元素
sftp 异常，有遇到的吗？求解 Chen.H java jcraft auth jsch jschexception
com.jcraft.jsch.JSchException: Auth cancel at com.jcraft.jsch.Session.connect(Session.java:460) at com.jcraft.jsch.Session.connect(Session.java:154) at cn.vivame.util.ftp.SftpServerAccess.connec
[生物智能与人工智能]神经元中的电化学结构代表什么? comsci 人工智能
我这里做一个大胆的猜想,生物神经网络中的神经元中包含着一些化学和类似电路的结构,这些结构通常用来扮演类似我们在拓扑分析系统中的节点嵌入方程一样,使得我们的神经网络产生智能判断的能力,而这些嵌入到节点中的方程同时也扮演着"经验"的角色.... 我们可以尝试一下...在某些神经
通过LAC和CID获取经纬度信息 dai_lm lac cid
方法1：用浏览器打开http://www.minigps.net/cellsearch.html，然后输入lac和cid信息(mcc和mnc可以填0)，如果数据正确就可以获得相应的经纬度方法2：发送HTTP请求到http://www.open-electronics.org/celltrack/cell.php?hex=0&lac=<lac>&cid=&
JAVA的困难分析 datamachine java
前段时间转了一篇SQL的文章（http://datamachine.iteye.com/blog/1971896），文章不复杂，但思想深刻，就顺便思考了一下java的不足，当砖头丢出来，希望引点和田玉。 -----------------------------------------------------------------------------------------
小学5年级英语单词背诵第二课 dcj3sjt126com english word
money 钱 paper 纸 speak 讲，说 tell 告诉 remember 记得，想起 knock 敲，击，打 question 问题 number 数字，号码 learn 学会，学习 street 街道 carry 搬运，携带 send 发送，邮寄，发射 must 必须 light 灯，光线，轻的 front
linux下面没有tree命令 dcj3sjt126com linux
centos p安装 yum -y install tree mac os安装 brew install tree 首先来看tree的用法 tree 中文解释：tree 功能说明：以树状图列出目录的内容。语　　法：tree [-aACdDfFgilnNpqstux][-I <范本样式>][-P <范本样式
Map迭代方式，Map迭代，Map循环蕃薯耀 Map循环 Map迭代 Map迭代方式
Map迭代方式，Map迭代，Map循环 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年
Spring Cache注解+Redis hanqunfeng spring
Spring3.1 Cache注解依赖jar包：  <dependency> <groupId>org.springframework.data</groupId> <artifactId>spring-data-redis</artifactId>
Guava中针对集合的 filter和过滤功能 jackyrong filter
在guava库中，自带了过滤器(filter)的功能，可以用来对collection 进行过滤，先看例子： @Test public void whenFilterWithIterables_thenFiltered() { List<String> names = Lists.newArrayList("John"
学习编程那点事 lampcy 编程 android PHP html5
一年前的夏天，我还在纠结要不要改行，要不要去学php？能学到真本事吗？改行能成功吗？太多的问题，我终于不顾一切，下定决心，辞去了工作，来到传说中的帝都。老师给的乘车方式还算有效，很顺利的就到了学校，赶巧了，正好学校搬到了新校区。先安顿了下来，过了个轻松的周末，第一次到帝都，逛逛吧！接下来的周一，是我噩梦的开始，学习内容对我这个零基础的人来说，除了勉强完成老师布置的作业外，我已经没有时间和精力去
架构师之流处理---------bytebuffer的mark,limit和flip nannan408 ByteBuffer
1.前言。如题，limit其实就是可以读取的字节长度的意思，flip是清空的意思，mark是标记的意思。 2.例子. 例子代码: String str = "helloWorld"; ByteBuffer buff = ByteBuffer.wrap(str.getBytes()); Sy
org.apache.el.parser.ParseException: Encountered " ":" ": "" at line 1, column 1 Everyday都不同 $转义 el表达式
最近在做Highcharts的过程中，在写js时，出现了以下异常：严重: Servlet.service() for servlet jsp threw exception org.apache.el.parser.ParseException: Encountered " ":" ": "" at line 1,
用Java实现发送邮件到163 tntxia java实现
/* 在java版经常看到有人问如何用javamail发送邮件？如何接收邮件？如何访问多个文件夹等。问题零散，而历史的回复早已经淹没在问题的海洋之中。本人之前所做过一个java项目，其中包含有WebMail功能，当初为用java实现而对javamail摸索了一段时间，总算有点收获。看到论坛中的经常有此方面的问题，因此把我的一些经验帖出来，希望对大家有些帮助。此篇仅介绍用
探索实体类存在的真正意义 java小叶檀 POJO
一. 实体类简述实体类其实就是俗称的POJO,这种类一般不实现特殊框架下的接口，在程序中仅作为数据容器用来持久化存储数据用的 POJO（Plain Old Java Objects）简单的Java对象它的一般格式就是 public class A{ private String id; public Str

经典目标检测YOLO系列(三)YOLOv3的复现(2)正样本的匹配、损失函数的实现

经典目标检测YOLO系列(三)YOLOv3的复现(2)正样本的匹配、损失函数的实现

1 正样本匹配策略

1.1 基于先验框的正样本匹配策略

1.2 代码实现

1.2.1 正样本匹配

1.2.2 具体代码实现

2 损失函数的计算

结语

你可能感兴趣的:(#,深度学习,目标检测,YOLO)