语义分割miou指标计算详解

文章目录

- 1. 语义分割的评价指标
- 2. 混淆矩阵计算
- - 2.1 np.bincount的使用
  - 2.2 混淆矩阵计算
- 3. 语义分割指标计算
- - 3.1 IOU计算
  - - 方式1(推荐)
    - 方式2
  - 3.2 Precision 计算
  - 3.3 总体的Accuracy计算
  - 3.4 Recall 计算
  - 3.5 MIOU计算
- 参考

MIoU全称为Mean Intersection over Union，平均交并比。可作为语义分割系统性能的评价指标。

P：Prediction预测值
G：Ground Truth真实值

其中IOU: 交并比就是该类的真实标签和预测值的交和并的比值

单类的交并比可以理解为下图：

1. 语义分割的评价指标

True Positive (TP): 把正样本成功预测为正。
True Negative (TN)：把负样本成功预测为负。
False Positive (FP)：把负样本错误地预测为正。
False Negative (FN)：把正样本错误的预测为负。

(1) Accuracy准确率，指的是“预测正确的样本数÷样本数总数”。计算公式为：
$\frac{TP+TN}{TP+TN+FP+FN}$
(2) Precision精确率或者精度，指的是预测为Positive的样本，占所有预测样本的比率
$\frac{TP}{TP+FP}$
(3)Recall召回率，指的是预测为Positive的样本，占所有Positive样本的比率
$\frac{TP}{P}$
(4) F1 score: 综合考虑了precision和recall两方面的因素，做到了对于两者的调和，即：既要“求精”也要“求全”，做到不偏科。

$\frac{2*precision*recall}{precision+recall}$

(5) MIOU 作为为语义分割最重要标准度量。其计算两个集合的交集和并集之比，在语义分割的问题中，这两个集合为真实值和预测值。在每个类上计算IoU，之后平均。计算公式如下
$=\frac{1}{k+1}\sum_{i=0}^{k}\frac{TP}{FN+FP+TP}$
等价于:
$MIOU=\frac{1}{k+1}\sum_{i=0}^{k}\frac{p_{ii}}{\sum_{j=0}^k p_{ij} + \sum_{j=0}^k p_{ji} -p_{ii}}$

其中： $p_{ii}$ 真实为类别i,预测也为i的像素个数，也就是正确预测的像素个数TP; $p_{ij}$ 表示真实为类别i,但预测为类别j的像素个数，也就是FN； $p_{ji}$ 表示真实为类别j，但预测为类别i的像素个数，也就是FP

注意: 对于多分类，TN为0 ，即没有所谓的负样本

2. 混淆矩阵计算

计算MIoU，我们需要借助混淆矩阵来进行计算。
混淆矩阵就是统计分类模型的分类结果，即：统计归对类，归错类的样本的个数，然后把结果放在一个表里展示出来，这个表就是混淆矩阵
其每一列代表预测值（pred)，每一行代表的是实际的类别(gt)
对角都对TP，横看真实，竖看预测: 每一行之和，为该行对应类(如Cat)的总数；每一列之和为该列对应类别的预测的总数。

2.1 np.bincount的使用

在计算混淆矩阵时，可以利用np.bincount函数方便我们计算。

numpy.bincount(x, weights=None, minlength=None)

该方法返回每个索引值在x中出现的次数
给一个向量x，x中最大的元素记为j，返回一个向量1行j+1列的向量y，y[i]代表i在x中出现的次数

#x中最大的数为7，那么它的索引值为0->7
x = np.array([0, 1, 1, 3, 2, 1, 7])
#索引0出现了1次，索引1出现了3次......索引5出现了0次......
np.bincount(x)
#因此，输出结果为：array([1, 3, 1, 1, 0, 0, 0, 1])

minlength也是一个常用的参数，表示输出的数组长度至少为minlength，如果x中最大的元素加1大于数组长度，那么数组的长度以x中最大元素加1为准（例如，如果数组中最大元素为3，minlength=5，那么数组的长度为5；如果数组中最大元素为7，minlength=5，那么数组的最大长度为7+1=8，这里之所以加1是因为元素0也占了一个索引）。举个例子说明：

# a中最大的数为3，因此数组长度为4，那么它的索引值为0->3
a = np.array([2, 2, 1, 3 ])
# 本来数组的长度为4，但指定了minlength为7，因此现在数组长度为7（多的补0），所以现在它的索引值为0->6
np.bincount(x, minlength=7)
# 输出结果为：array([0, 1, 2, 1, 0, 0, 0])
		
# a中最大的数为4，因此bin的数量为5，那么它的索引值为0->4
x = np.array([4, 2, 3, 1, 2])
# 数组的长度原本为5，但指定了minlength为1，因为5 > 1，所以这个参数不起作用，索引值还是0->4
np.bincount(x, minlength=1)
# 输出结果为：array([0, 1, 2, 1，1])

2.2 混淆矩阵计算

# 设标签宽W，长H
def fast_hist(a, b, n):
    #--------------------------------------------------------------------------------#
    #   a是转化成一维数组的标签，形状(H×W,)；b是转化成一维数组的预测结果，形状(H×W,)
    #--------------------------------------------------------------------------------#
    k = (a >= 0) & (a < n)
    #--------------------------------------------------------------------------------#
    #   np.bincount计算了从0到n**2-1这n**2个数中每个数出现的次数，返回值形状(n, n)
    #   返回中，写对角线上的为分类正确的像素点
    #--------------------------------------------------------------------------------#
    return np.bincount(n * a[k].astype(int) + b[k], minlength=n ** 2).reshape(n, n)

产生n×n的混淆矩阵统计表
- 参数a：即：真实的标签gt，需要reshape为一行输入
- 参数b：即预测的标签pred，它是经过argmax输出的预测8位标签图, 每个像素表示为类别索引（reshape为一行输入)，
- 参数n:类别数cls_num

首先过滤gt中，类别超过n的索引，确保gt的分类都包含在n个类别中

 k = (a >= 0) & (a < n)

如果要去掉背景，不将背景计算在混淆矩阵，则可以写为:

 k = (a > 0) & (a < n) #去掉了背景,假设0是背景

然后利用np.bincount生成元素个数为n*n的数组，并且reshape为 $\times n$ 的混淆矩阵，这样确保混淆矩阵行和列都为类别class的个数n
n*n数组中，每个元素的值，表示为0~n*n的索引值在x中出现的次数，这样就获得了最终混淆矩阵。这里的x表示为n * a[k] + b[k] , 为啥这么定义呢？，

举例如下：将图片的gt标签a和pred输出图片b，都转换为一行; a和b中每个元素代表类别索引

前面8, 9, 4, 7, 6都预测正确，对于预测正确的像素来说，n * a + b就是对角线的值; 假设n=10，有10类。n * a + b就是88, 99, 44, 77, 66
紧接着6预测成了5，因此n * a + b就是65
88, 99, 44, 77, 66就是对角线上的值（如下图红框，65就是预测错误，并且能真实反映把6预测成了5（如下图蓝框）

3. 语义分割指标计算

图混淆矩阵

3.1 IOU计算

方式1(推荐)

计算每个类别的IOU计算：
$=\frac{TP}{FN+FP+TP}$

def per_class_iu(hist):
    return np.diag(hist) / np.maximum((hist.sum(1) + hist.sum(0) - np.diag(hist)), 1)

输入hist 表示 2维的混淆矩阵，大小为n*n (n为类别数)
混淆矩阵对角线元素值，表示每个类别预测正确的数TP:

np.diag(hist)

其中：混淆矩阵所对应行中，每一行为对应类别(如类1)的统计值中，对角线位置为正常预测为该类别的统计值(TP)，其他位置则是错误的将该类别预测为其他的类别FN: 因此每个类别的FP统计值为：

FN =hist.sum(1) -TP = hist.sum(1) - np.diag(hist)

同理，预测为该类别所对应的列中，对角线为正确预测，其他位置则是将其他类别错误的预测为该列所对应的类别，也就是FP

FP =hist.sum(0) -TP = hist.sum(0) - np.diag(hist)

因此分母FN_FP+TP=np.maximum（hist.sum(1) + hist.sum(0) - np.diag(hist),1), 这里加上np.maximum确保了分母不为0

方式2

def IOU(pred,target,n_classes = args.num_class ):
    ious = []
    # ignore IOU for background class
    for cls in range(1,n_classes):
        pred_inds = pred == cls
        target_inds = target == cls
        # target_sum = target_inds.sum()
        intersection = (pred_inds[target_inds]).sum()
        union = pred_inds.sum() + target_inds.sum() - intersection
        if union == 0:
            ious.append(float('nan')) # If there is no ground truth，do not include in evaluation
        else:
            ious.append(float(intersection)/float(max(union,1)))
    return ious

参考：https://github.com/dilligencer-zrj/code_zoo/blob/master/compute_mIOU

3.2 Precision 计算

每个类别的Precision 计算如下：

$\frac{TP}{TP+FP}$

def per_class_Precision(hist):
    return np.diag(hist) / np.maximum(hist.sum(0), 1)

其中 np.diag(hist) 为TP值，hist.sum(0)表示为 TP+FP, np.maximum确保确保分母不为0

3.3 总体的Accuracy计算

总体的Accuracy计算如下:

$\frac{TP+TN}{TP+TN+FP+FN}$
由于是多类别，没有负样本，因此TN为0。

def per_Accuracy(hist):
    return np.sum(np.diag(hist)) / np.maximum(np.sum(hist), 1)

3.4 Recall 计算

recall指的是预测为Positive的样本，占所有Positive样本的比率
$\frac{TP}{P}$

def per_class_PA_Recall(hist):
    return np.diag(hist) / np.maximum(hist.sum(1), 1)

每一行统计值为该类别样本的真实数量P, 因此P = hist.sum(1)

3.5 MIOU计算

def compute_mIoU(gt_dir, pred_dir, png_name_list, num_classes, name_classes=None):  
    print('Num classes', num_classes)  
    #-----------------------------------------#
    #   创建一个全是0的矩阵，是一个混淆矩阵
    #-----------------------------------------#
    hist = np.zeros((num_classes, num_classes))
    
    #------------------------------------------------#
    #   获得验证集标签路径列表，方便直接读取
    #   获得验证集图像分割结果路径列表，方便直接读取
    #------------------------------------------------#
    gt_imgs     = [join(gt_dir, x + ".png") for x in png_name_list]  
    pred_imgs   = [join(pred_dir, x + ".png") for x in png_name_list]  

    #------------------------------------------------#
    #   读取每一个（图片-标签）对
    #------------------------------------------------#
    for ind in range(len(gt_imgs)): 
        #------------------------------------------------#
        #   读取一张图像分割结果，转化成numpy数组
        #------------------------------------------------#
        pred = np.array(Image.open(pred_imgs[ind]))  
        #------------------------------------------------#
        #   读取一张对应的标签，转化成numpy数组
        #------------------------------------------------#
        label = np.array(Image.open(gt_imgs[ind]))  

        # 如果图像分割结果与标签的大小不一样，这张图片就不计算
        if len(label.flatten()) != len(pred.flatten()):  
            print(
                'Skipping: len(gt) = {:d}, len(pred) = {:d}, {:s}, {:s}'.format(
                    len(label.flatten()), len(pred.flatten()), gt_imgs[ind],
                    pred_imgs[ind]))
            continue

        #------------------------------------------------#
        #   对一张图片计算21×21的hist矩阵，并累加
        #------------------------------------------------#
        hist += fast_hist(label.flatten(), pred.flatten(), num_classes)  
        # 每计算10张就输出一下目前已计算的图片中所有类别平均的mIoU值
        if name_classes is not None and ind > 0 and ind % 10 == 0: 
            print('{:d} / {:d}: mIou-{:0.2f}%; mPA-{:0.2f}%; Accuracy-{:0.2f}%'.format(
                    ind, 
                    len(gt_imgs),
                    100 * np.nanmean(per_class_iu(hist)),
                    100 * np.nanmean(per_class_PA_Recall(hist)),
                    100 * per_Accuracy(hist)
                )
            )
    #------------------------------------------------#
    #   计算所有验证集图片的逐类别mIoU值
    #------------------------------------------------#
    IoUs        = per_class_iu(hist)
    PA_Recall   = per_class_PA_Recall(hist)
    Precision   = per_class_Precision(hist)
    #------------------------------------------------#
    #   逐类别输出一下mIoU值
    #------------------------------------------------#
    if name_classes is not None:
        for ind_class in range(num_classes):
            print('===>' + name_classes[ind_class] + ':\tIou-' + str(round(IoUs[ind_class] * 100, 2)) \
                + '; Recall (equal to the PA)-' + str(round(PA_Recall[ind_class] * 100, 2))+ '; Precision-' + str(round(Precision[ind_class] * 100, 2)))

    #-----------------------------------------------------------------#
    #   在所有验证集图像上求所有类别平均的mIoU值，计算时忽略NaN值
    #-----------------------------------------------------------------#
    print('===> mIoU: ' + str(round(np.nanmean(IoUs) * 100, 2)) + '; mPA: ' + str(round(np.nanmean(PA_Recall) * 100, 2)) + '; Accuracy: ' + str(round(per_Accuracy(hist) * 100, 2)))  
    return np.array(hist, np.int), IoUs, PA_Recall, Precision

首先创建一个维度为(num_classes, num_classes)的空混淆矩阵hist
遍历pred_imgs和gt_imgs, 将遍历得到的每一张pred 和label展平(flatten)到一维，输入到fast_hist计算单张图片预测的混淆矩阵,将每次的计算结果加到总的混淆矩阵hist中

for ind in range(len(gt_imgs)): 
     #------------------------------------------------#
     #   读取一张图像分割结果，转化成numpy数组
     #------------------------------------------------#
     pred = np.array(Image.open(pred_imgs[ind]))  
     #------------------------------------------------#
     #   读取一张对应的标签，转化成numpy数组
     #------------------------------------------------#
     label = np.array(Image.open(gt_imgs[ind]))  

     # 如果图像分割结果与标签的大小不一样，这张图片就不计算
     if len(label.flatten()) != len(pred.flatten()):  
         print(
             'Skipping: len(gt) = {:d}, len(pred) = {:d}, {:s}, {:s}'.format(
                 len(label.flatten()), len(pred.flatten()), gt_imgs[ind],
                 pred_imgs[ind]))
         continue

     #------------------------------------------------#
     #   对一张图片计算21×21的hist矩阵，并累加
     #------------------------------------------------#
     hist += fast_hist(label.flatten(), pred.flatten(), num_classes)

每计算10张就输出一下目前已计算的图片中所有类别平均的mIoU值

# 每计算10张就输出一下目前已计算的图片中所有类别平均的mIoU值
  if name_classes is not None and ind > 0 and ind % 10 == 0: 
      print('{:d} / {:d}: mIou-{:0.2f}%; mPA-{:0.2f}%; Accuracy-{:0.2f}%'.format(
              ind, 
              len(gt_imgs),
              100 * np.nanmean(per_class_iu(hist)),
              100 * np.nanmean(per_class_PA_Recall(hist)),
              100 * per_Accuracy(hist)
          )
      )

遍历完成后，得到所有类别的Iou值IoUs以及PA_Recall 和Precision ,并逐类别输出一下mIoU值

   if name_classes is not None:
        for ind_class in range(num_classes):
            print('===>' + name_classes[ind_class] + ':\tIou-' + str(round(IoUs[ind_class] * 100, 2)) \
                + '; Recall (equal to the PA)-' + str(round(PA_Recall[ind_class] * 100, 2))+ '; Precision-' + str(round(Precision[ind_class] * 100, 2)))

最后在所有验证集图像上求所有类别平均的mIoU值

 print('===> mIoU: ' + str(round(np.nanmean(IoUs) * 100, 2)) + '; mPA: ' + str(round(np.nanmean(PA_Recall) * 100, 2)) + '; Accuracy: ' + str(round(per_Accuracy(hist) * 100, 2)))

参考

https://github.com/bubbliiiing/deeplabv3-plus-pytorch/blob/main/utils/utils_metrics.py
https://github.com/dilligencer-zrj/code_zoo/blob/master/compute_mIOU
https://www.jianshu.com/p/42939bf83b8a

你可能感兴趣的:(图像分割,计算机视觉,图像分割)

OpenCV（一个C++人工智能领域重要开源基础库）简介愚梦者 OpenCV 人工智能人工智能 opencv c++图像处理计算机视觉开源
返回：OpenCV系列文章目录（持续更新中......）上一篇：OpenCV4.9.0配置选项参考下一篇：OpenCV4.9.0开源计算机视觉库安装概述引言：OpenCV（全称OpenSourceComputerVisionLibrary）是一个基于开放源代码发行的跨平台计算机视觉库，可以用来进行图像处理、计算机视觉和机器学习等领域的开发。该库由英特尔公司于1999年开始开发，最初是为了加速处理器
神经网络（深度学习，计算机视觉，得分函数，损失函数，前向传播，反向传播，激活函数） MarkHD 深度学习神经网络计算机视觉
神经网络，特别是深度学习，在计算机视觉等领域有着广泛的应用。以下是关于你提到的几个关键概念的详细解释：神经网络：神经网络是一种模拟人脑神经元结构的计算模型，用于处理复杂的数据和模式识别任务。它由多个神经元（或称为节点）组成，这些神经元通过权重和偏置进行连接，并可以学习调整这些参数以优化性能。深度学习：深度学习是神经网络的一个子领域，主要关注于构建和训练深度神经网络（即具有多个隐藏层的神经网络）。通
什么是特征检测和描述，OpenCV中常见的特征检测算法有哪些？ -Max-静- #opencv学习 opencv 算法人工智能
特征检测和描述是计算机视觉中的基本概念，它们在图像识别、对象跟踪、图像拼接等多种任务中发挥着至关重要的作用。特征检测是指识别图像中重要的特定点、区域或结构，这些特征通常具有独特性、可重复性以及对光照变化、旋转和比例变换等变化的鲁棒性。这些特征点可以用作进一步分析的参考。特征描述是基于一定的几何或者颜色信息生成特征点的特征描述符，这种描述应满足欧式空间的仿射不变性和噪声鲁棒性，并且不同特征点的特征描
Android 实现照片抠出人像。 No Promises﹉ android
谢谢阅览、关注！！一、各平台的实现方式：1.Android实现方式：使用图像处理库（如OpenCV）：集成OpenCV库，利用其图像处理功能进行边缘检测和图像分割；使用机器学习模型（如TensorFlowLite）：集成TensorFlowLite和预训练的人像分割模型；使用第三方API服务：利用如百度AI、腾讯AI等提供的在线API进行图像处理。步骤：集成必要的库或API、加载和处理图像、应用抠
opendronemap集群搭建 Robber2000 云计算容器运维云原生
需求OpenDroneMap（ODM）是一个开源项目，旨在利用无人机采集的图像数据生成地图、模型和其他地理空间数据。它主要解决以下问题：航空摄影数据处理：ODM可以处理无人机拍摄的大量航空图像数据，通过图像处理和计算机视觉技术生成高质量的地图和模型。地图制作与更新：利用ODM，用户可以快速、成本效益地生成地图，并及时更新地理空间数据，有助于城市规划、灾害监测等领域的应用。三维建模：ODM可以生成精
Canny详解 kxg916361108 计算机视觉图像处理人工智能
Canny边缘检测是一种经典的图像处理技术，被广泛应用于计算机视觉和图像处理领域。它由JohnF.Canny在1986年提出，是一种多阶段的边缘检测算法，具有高精度和低错误率的特点。Canny边缘检测的步骤：高斯滤波（GaussianBlur）：Canny边缘检测首先对图像进行高斯平滑处理，以减少图像中的噪声。高斯滤波器将图像中的每个像素与周围像素进行加权平均，从而模糊图像并减少噪声。计算图像梯度
图像算法实习生--面经1 小豆包的小朋友0217 算法
系列文章目录文章目录系列文章目录前言一、为什么torch里面要用optimizer.zero_grad()进行梯度置0二、Unet神经网络为什么会在医学图像分割表现好？三、transformer相关问题四、介绍一下胶囊网络的动态路由五、yolo系列出到v9了，介绍一下你最熟悉的yolo算法六、一阶段目标检测算法和二阶段目标检测算法有什么区别？七、讲一下剪枝八、讲一下PTQandQAT量化的区别九、
MATLAB图像拼接算法及实现程序员小溪算法 matlab 计算机视觉 MATLAB 人工智能
图像拼接算法及实现（一）论文关键词：图像拼接图像配准图像融合全景图论文摘要：图像拼接(imagemosaic)技术是将一组相互间重叠部分的图像序列进行空间匹配对准,经重采样合成后形成一幅包含各图像序列信息的宽视角场景的、完整的、高清晰的新图像的技术。图像拼接在摄影测量学、计算机视觉、遥感图像处理、医学图像分析、计算机图形学等领域有着广泛的应用价值。一般来说,图像拼接的过程由图像获取,图像配准,图像
AI图像识别算法助力安全生产*提升风险监测效率---豌豆云豌豆云人工智能安全
2024年开年来安全生产事故频发，工厂爆炸、工程坍陷等重大安全生产事故的发生再次为我们敲响了警钟。安全生产是企业发展的生命线，而传统的安全监测手段存在盲区和延迟，难以及时发现和应对潜在风险。AI图像识别算法通过利用先进的计算机视觉和深度学习技术，能够有效提高风险监测效率，保障企业的安全生产。AI图像识别算法助力安全生产AI图像识别算法通常部署在本地服务器或边缘服务器，通过分析前端监控摄像头、无人机
深入了解OpenCVSharp中常见的图像处理功能仰望大佬007 图像处理 opencv 计算机视觉 c#
深入了解OpenCVSharp中常见的图像处理功能前言1.图像加载与保存2.图像基本操作3.图像滤波4.边缘检测5.图像分割6.特征检测与描述子7.目标识别与跟踪8.图像融合与拼接9.形状匹配与模板匹配10.颜色空间转换与直方图11.图像转换与绘制12.图像分类与机器学习13.高级图像处理算法14.GPU加速与并行计算前言OpenCVSharp是C#语言中用于图像处理和计算机视觉的开源库，它提供了
【计算机视觉面经四】基于深度学习的目标检测算法面试必备（RCNN~YOLOv5）旅途中的宽~ 计算机视觉面经总结计算机视觉深度学习目标检测 YOLO RCNN
文章目录一、前言二、两阶段目标检测算法2.1RCNN2.2Fast-RCNN2.3FasterR-CNN三、多阶段目标检测算法3.1CascadeR-CNN四、单阶段目标检测算法4.1编码方式4.1.1基于中心坐标4.1.1.1方案14.1.1.2方案24.1.1.3方案34.2YOLOv14.3SSD4.4YOLOv24.5RetinaNet4.6YOLOv34.7YOLOv44.8YOLOv5
OpenCV：开源计算机视觉的魔力之门 mikes zhang 计算机视觉
在当今这个信息爆炸的时代，图像和视频已经成为我们获取和传递信息的主要方式之一。从社交媒体上的照片分享，到安防监控、自动驾驶等领域的图像识别与处理，计算机视觉技术正日益改变着我们的生活。而在这场技术革命中，OpenCV（OpenSourceComputerVisionLibrary）这一开源计算机视觉库扮演着举足轻重的角色。本文将带你走进OpenCV的世界，一探其究竟。一、OpenCV简介OpenC
情感计算 - 情感模型无脑敲代码，bug漫天飞情感计算人工智能
1基本情感论模型--离散状态1Tomkins面部表情惩罚或奖励的反馈结果八类：基本情感2Izard具有动机的特征10中基本情感状态（言语内容表情等）神经系统电化学自主，遗传决定情感面部姿势活动情感活动输出决定脑区的反馈信息情感活动输出产生3Ekman美国心理学家早期的情感模型都是他提出的面部表情中应用广泛1972年六类情感状态90年代扩充更多的维度对于计算机视觉研究起到了推动作用泛文化意义历史进化
深度学习的进展 CuiXg 深度学习人工智能
深度学习的进展深度学习作为人工智能领域的重要分支之一，利用神经网络模拟人类大脑的学习过程，通过数据训练模型以自动提取特征、识别模式、进行分类和预测等任务。近年来，深度学习在多个领域取得显著进展，尤其在自然语言处理、计算机视觉、语音识别和机器翻译等方面实现了突破性进展。方向一：深度学习的基本原理和算法深度学习基于神经网络概念，涉及反向传播、卷积神经网络、循环神经网络等算法。这些算法模拟人脑神经元间的
05基于卷积神经网络-支持向量机（自动寻优）CNN-SVM数据分类算法机器不会学习CSJ cnn 支持向量机分类人工智能
CNN原理卷积神经网络（ConvolutionalNeuralNetwork，CNN）是一种深度学习模型，广泛用于计算机视觉领域。CNN的核心思想是通过卷积层和池化层来自动提取图像中的特征，从而实现对图像的高效处理和识别。在传统的机器学习方法中，图像特征的提取通常需要手工设计的特征提取器，如SIFT、HOG等。而CNN则可以自动从数据中学习到特征表示。这是因为CNN模型的卷积层使用了一系列的卷积核
【机器学习案例7】计算机视觉中的小物体检测：基于补丁的方法 suoge223 机器学习实用指南机器学习计算机视觉人工智能
专栏导读作者简介：工学博士，高级工程师，专注于工业软件算法研究本文已收录于专栏：《机器学习实用指南》本专栏旨在提供1.机器学习经典案例及源码；2.开源机器学习训练数据集；3.机器学习前沿专业博文。以案例的形式从实用的角度出发，快速上手机器学习项目，在案例中成长，摆脱按部就班填鸭式教学。欢迎订阅专栏，订阅用户可私聊进入机器学习交流群（知识交流、问题解答），并获赠丰厚的机器学习相关学习资料（教材、源码
图像预处理技术与算法木子n1 算法嵌入式开发算法数码相机计算机视觉
图像预处理是计算机视觉和图像处理中非常关键的第一步，其目的是为了提高后续算法对原始图像的识别、分析和理解能力。以下是一些主要的图像预处理技术：1.图像增强：对比度调整：通过直方图均衡化（HistogramEqualization）等方法改善图像整体或局部的对比度。伽玛校正：改变图像的亮度特性，用于补偿显示器或其他硬件设备的非线性响应。锐化处理：如使用高通滤波器（如拉普拉斯算子、Sobel边缘检测算
Unet 高阶分割网络实战、多类别分割、迁移学习（deeplab、resnet101等等）听风吹等浪起图像分割计算机视觉人工智能
1、前言Unet图像分割之前介绍了不少，具体可以参考图像分割专栏为了实现多类别的自适应分割，前段时间利用numpy的unique函数实现了一个项目。通过numpy函数将mask的灰度值提取出来，保存在txt文本里，这样txt里面就会有类似012...等等的灰度值。而有几个灰度值，就代表分割要分出几个类别。具体可以参考：Unet实战分割项目、多尺度训练、多类别分割将vgg换成resnet的unet参
Vis-TOP：视觉Transformer叠加处理器离欢论文 Transformer 人工智能机器学习 transformer 深度学习计算机视觉
摘要近年来，Transformer[23]在自然语言处理(NLP)领域取得了良好的效果，并开始向计算机视觉(CV)领域拓展。优秀的型号如VisionTransformer[5]和SwinTransformer[17]已经出现。同时，Transformer模型平台扩展到嵌入式设备，以满足一些对资源敏感的应用场景。但是，由于Transformer模型参数多、计算流程复杂、结构变体繁多，在硬件设计中存在
【Transformer养猪】Livestock Monitoring with Transformer 离欢 Transformer 论文笔记 python 人工智能
对牲畜行为的跟踪有助于在现代动物饲养场及早发现并预防传染病。除了经济收益，这将减少畜牧业中使用的抗生素数量，否则这些抗生素将进入人类的饮食，加剧抗生素耐药性的流行，这是导致死亡的主要原因。我们可以使用大多数现代农场都有的标准摄像机来监控牲畜。然而，大多数计算机视觉算法在这项任务中表现不佳，主要原因是:(i)农场饲养的动物看起来相同，缺乏任何明显的空间特征，(ii)现有的跟踪器都不能长时间保持健壮，
【EI会议征稿通知】2024年第四届计算机视觉与模式分析国际学术大会（ICCPA 2024）搞科研的小刘选手学术会议人工智能自动化能源大数据云计算
2024年第四届计算机视觉与模式分析国际学术大会（ICCPA2024）20244thInternationalConferenceonComputerVisionandPatternAnalysis(ICCPA2024)第四届计算机视觉与模式分析国际会议（ICCPA2024）将于2024年5月17日至19日在中国鞍山召开。ICCPA2024汇集了来自世界各地的计算机视觉与模式分析领域的学者、研究人
计算机视觉学习指南（划分为20个大类） superdont 计算机视觉入门计算机视觉人工智能开发语言 python opencv
计算机视觉的知识领域广泛而庞杂，涵盖了众多重要的方向和技术。为了更好地组织这些知识，我们需要遵循无交叉无重复（MutuallyExclusiveCollectivelyExhaustive，MECE）的原则，并采用循序渐进的方式进行分类和划分。按照无交叉无重复的原则，我们将计算机视觉划分为20个重要的方向，每个方向都具有明确的定义和特定的应用领域。通过这种划分方式，可以确保每个方向都在整个计算机视
计算机视觉与图像处理面试题,深度学习图像处理算法工程师面试题 ZW9 计算机视觉与图像处理面试题
AI开发平台ModelArtsModelArts是面向开发者的一站式AI开发平台，为机器学习与深度学习提供海量数据预处理及半自动化标注、大规模分布式Training、自动化模型生成，及端-边-云模型按需部署能力，帮助用户快速创建和部署模型，管理全周期AI工作流。按需/包周期付费可选，最低0.00元/小时引入MoXingFramework模块||https://support.huaweicloud
互联网加竞赛基于计算机视觉的身份证识别系统 Mr.D学长 python java
0前言优质竞赛项目系列，今天要分享的是基于机器视觉的身份证识别系统该项目较为新颖，适合作为竞赛课题方向，学长非常推荐！更多资料,项目分享：https://gitee.com/dancheng-senior/postgraduate1实现方法1.1原理1.1.1字符定位在Android移动端摄像头拍摄的图片是彩色图像，上传到服务器后为了读取到身份证上的主要信息，就要去除其他无关的元素，因此对身份证图
【Python】图像裁剪与匹配林九生 Python python opencv 开发语言
图像裁剪与匹配在计算机视觉领域，图像处理是一项关键的任务，其中图像裁剪和匹配是常见的操作之一。本文将介绍如何使用OpenCV库进行图像裁剪与匹配，并展示一个简单的示例代码。1.引言在图像处理中，有时需要从一张大图中截取特定区域，并在另一张图中寻找相似的部分。这可以通过裁剪和匹配操作来实现。本文将演示如何使用Python和OpenCV库进行这些操作。2.代码示例以下是一个使用OpenCV库的简单代码
深度学习——概念引入韶光流年都束之高阁深度学习日记深度学习人工智能职场和发展
深度学习深度学习简介深度学习分类根据网络结构划分：循环神经网络卷积神经网络根据学习方式划分：监督学习无监督学习半监督学习根据应用领域划分：计算机视觉自然语言处理语音识别生物信息学深度学习简介深度学习（DeepLearning，DL）是机器学习领域中的一个新的研究方向，主要是通过学习样本数据的内在规律和表示层次，让机器能够具有类似于人类的分析学习能力。深度学习的最终目标是让机器能够识别和解释各种数据
行人重识别 NineDays66 人工智能
在人的感知系统所获得的信息中，视觉信息大约占到80%～85%。行人重识别（personre-identification）是近几年智能视频分析领域兴起的一项新技术，属于在复杂视频环境下的图像处理和分析范畴，是许多监控和安防应用中的主要任务，并且在计算机视觉领域获得了越来越多的关注。下面我们就仔细来聊聊行人重识别(ReID)。1.什么是行人重识别行人重识别（PersonRe-identificat
用 Python 制作一款炫酷的二维码！ Python数据之道可视化 python 数据可视化 opencv svg
来源：https://blog.csdn.net/jinyj1转自：深度学习算法与计算机视觉1.导入myqr库下载myqr库使用windows+R键，输入cmd调出命令窗口在黑框里输入(在python3环境下，python2不行)pip install myqr等到提示下载成功就可以了导入myqr库因为我是用pycharm的，所以还需要在pycharm中导入myqr打开pycharm的file-s
【保姆级教程|YOLOv8改进】【7】多尺度空洞注意力（MSDA），DilateFormer实现暴力涨点阿_旭 YOLOv8网络结构改进 YOLO YOLOv8改进 MSDA
《博主简介》小伙伴们好，我是阿旭。专注于人工智能、AIGC、python、计算机视觉相关分享研究。✌更多学习资源，可关注公-仲-hao:【阿旭算法与机器学习】，共同学习交流~感谢小伙伴们点赞、关注！《------往期经典推荐------》一、AI应用软件开发实战专栏【链接】项目名称项目名称1.【人脸识别与管理系统开发】2.【车牌识别与自动收费管理系统开发】3.【手势识别系统开发】4.【人脸面部活体
【保姆级教程|YOLOv8改进】【6】快速涨点，SPD-Conv助力低分辨率与小目标检测阿_旭 YOLOv8网络结构改进 YOLO 目标检测人工智能 YOLOv8改进
《博主简介》小伙伴们好，我是阿旭。专注于人工智能、AIGC、python、计算机视觉相关分享研究。✌更多学习资源，可关注公-仲-hao:【阿旭算法与机器学习】，共同学习交流~感谢小伙伴们点赞、关注！《------往期经典推荐------》一、AI应用软件开发实战专栏【链接】项目名称项目名称1.【人脸识别与管理系统开发】2.【车牌识别与自动收费管理系统开发】3.【手势识别系统开发】4.【人脸面部活体
解线性方程组 qiuwanchi
package gaodai.matrix; import java.util.ArrayList; import java.util.List; import java.util.Scanner; public class Test { public static void main(String[] args) { Scanner scanner = new Sc
在mysql内部存储代码 annan211 性能 mysql 存储过程触发器
在mysql内部存储代码在mysql内部存储代码，既有优点也有缺点，而且有人倡导有人反对。先看优点： 1 她在服务器内部执行，离数据最近，另外在服务器上执行还可以节省带宽和网络延迟。 2 这是一种代码重用。可以方便的统一业务规则，保证某些行为的一致性，所以也可以提供一定的安全性。 3 可以简化代码的维护和版本更新。 4 可以帮助提升安全，比如提供更细
Android使用Asynchronous Http Client完成登录保存cookie的问题 hotsunshine android
Asynchronous Http Client是android中非常好的异步请求工具除了异步之外还有很多封装比如json的处理，cookie的处理引用 Persistent Cookie Storage with PersistentCookieStore This library also includes a PersistentCookieStore whi
java面试题 Array_06 java 面试
java面试题第一，谈谈final, finally, finalize的区别。 final-修饰符（关键字）如果一个类被声明为final，意味着它不能再派生出新的子类，不能作为父类被继承。因此一个类不能既被声明为 abstract的，又被声明为final的。将变量或方法声明为final，可以保证它们在使用中不被改变。被声明为final的变量必须在声明时给定初值，而在以后的引用中只能
网站加速 oloz 网站加速
前序:本人菜鸟，此文研究总结来源于互联网上的资料，大牛请勿喷！本人虚心学习，多指教. 1、减小网页体积的大小，尽量采用div+css模式，尽量避免复杂的页面结构，能简约就简约。 2、采用Gzip对网页进行压缩； GZIP最早由Jean-loup Gailly和Mark Adler创建，用于UNⅨ系统的文件压缩。我们在Linux中经常会用到后缀为.gz
正确书写单例模式随意而生 java 设计模式单例
　　单例模式算是设计模式中最容易理解，也是最容易手写代码的模式了吧。但是其中的坑却不少，所以也常作为面试题来考。本文主要对几种单例写法的整理，并分析其优缺点。很多都是一些老生常谈的问题，但如果你不知道如何创建一个线程安全的单例，不知道什么是双检锁，那这篇文章可能会帮助到你。　　懒汉式，线程不安全　　当被问到要实现一个单例模式时，很多人的第一反应是写出如下的代码，包括教科书上也是这样
单例模式香水浓 java
懒汉调用getInstance方法时实例化 public class Singleton { private static Singleton instance; private Singleton() {} public static synchronized Singleton getInstance() { if(null == ins
安装Apache问题：系统找不到指定的文件 No installed service named "Apache2" AdyZhang apache http server
安装Apache问题：系统找不到指定的文件 No installed service named "Apache2" 每次到这一步都很小心防它的端口冲突问题，结果，特意留出来的80端口就是不能用，烦。解决方法确保几处： 1、停止IIS启动 2、把端口80改成其它（譬如90，800，，，什么数字都好） 3、防火墙(关掉试试) 在运行处输入 cmd 回车，转到apa
如何在android 文件选择器中选择多个图片或者视频？ aijuans android
我的android app有这样的需求，在进行照片和视频上传的时候，需要一次性的从照片/视频库选择多条进行上传但是android原生态的sdk中，只能一个一个的进行选择和上传。我想知道是否有其他的android上传库可以解决这个问题，提供一个多选的功能，可以使checkbox之类的，一次选择多个处理方法官方的图片选择器(但是不支持所有版本的androi，只支持API Level
mysql中查询生日提醒的日期相关的sql baalwolf mysql
SELECT sysid,user_name,birthday,listid,userhead_50,CONCAT(YEAR(CURDATE()),DATE_FORMAT(birthday,'-%m-%d')),CURDATE(), dayofyear( CONCAT(YEAR(CURDATE()),DATE_FORMAT(birthday,'-%m-%d')))-dayofyear(
MongoDB索引文件破坏后导致查询错误的问题 BigBird2012 mongodb
问题描述： MongoDB在非正常情况下关闭时，可能会导致索引文件破坏，造成数据在更新时没有反映到索引上。解决方案：使用脚本，重建MongoDB所有表的索引。 var names = db.getCollectionNames(); for( var i in names ){ var name = names[i]; print(name);
Javascript Promise bijian1013 JavaScript Promise
Parse JavaScript SDK现在提供了支持大多数异步方法的兼容jquery的Promises模式，那么这意味着什么呢，读完下文你就了解了。一.认识Promises “Promises”代表着在javascript程序里下一个伟大的范式，但是理解他们为什么如此伟大不是件简
[Zookeeper学习笔记九]Zookeeper源代码分析之Zookeeper构造过程 bit1129 zookeeper
Zookeeper重载了几个构造函数，其中构造者可以提供参数最多，可定制性最多的构造函数是 public ZooKeeper(String connectString, int sessionTimeout, Watcher watcher, long sessionId, byte[] sessionPasswd, boolea
【Java命令三】jstack bit1129 jstack
jstack是用于获得当前运行的Java程序所有的线程的运行情况(thread dump），不同于jmap用于获得memory dump [hadoop@hadoop sbin]$ jstack Usage: jstack [-l] <pid> (to connect to running process) jstack -F
jboss 5.1启停脚本　动静分离部署 ronin47
以前启动jboss，往各种xml配置文件，现只要运行一句脚本即可。start nohup sh /**/run.sh -c servicename -b ip -g clustername -u broatcast jboss.messaging.ServerPeerID=int -Djboss.service.binding.set=p
UI之如何打磨设计能力? brotherlamp UI ui教程 ui自学 ui资料 ui视频
在越来越拥挤的初创企业世界里，视觉设计的重要性往往可以与杀手级用户体验比肩。在许多情况下，尤其对于 Web 初创企业而言，这两者都是不可或缺的。前不久我们在《右脑革命：别学编程了，学艺术吧》中也曾发出过重视设计的呼吁。如何才能提高初创企业的设计能力呢?以下是 9 位创始人的体会。 1.找到自己的方式如果你是设计师，要想提高技能可以去设计博客和展示好设计的网站如D-lists或
三色旗算法 bylijinnan java 算法
import java.util.Arrays; /** 问题：假设有一条绳子，上面有红、白、蓝三种颜色的旗子，起初绳子上的旗子颜色并没有顺序，您希望将之分类，并排列为蓝、白、红的顺序，要如何移动次数才会最少，注意您只能在绳子上进行这个动作，而且一次只能调换两个旗子。网上的解法大多类似：在一条绳子上移动，在程式中也就意味只能使用一个阵列，而不使用其它的阵列来
警告:No configuration found for the specified action: \'s chiangfai configuration
1.index.jsp页面form标签未指定namespace属性。  <%@taglib prefix="s" uri="/struts-tags"%> ... <s:form action="submit" method="post"&g
redis -- hash_max_zipmap_entries设置过大有问题 chenchao051 redis hash
使用redis时为了使用hash追求更高的内存使用率，我们一般都用hash结构，并且有时候会把hash_max_zipmap_entries这个值设置的很大，很多资料也推荐设置到1000，默认设置为了512，但是这里有个坑 #define ZIPMAP_BIGLEN 254 #define ZIPMAP_END 255 /* Return th
select into outfile access deny问题 daizj mysql txt 导出数据到文件
本文转自：http://hatemysql.com/2010/06/29/select-into-outfile-access-deny%E9%97%AE%E9%A2%98/ 为应用建立了rnd的帐号，专门为他们查询线上数据库用的，当然，只有他们上了生产网络以后才能连上数据库，安全方面我们还是很注意的，呵呵。授权的语句如下： grant select on armory.* to rn
phpexcel导出excel表简单入门示例 dcj3sjt126com PHP Excel phpexcel
<?php error_reporting(E_ALL); ini_set('display_errors', TRUE); ini_set('display_startup_errors', TRUE); if (PHP_SAPI == 'cli') die('This example should only be run from a Web Brows
美国电影超短200句 dcj3sjt126com 电影
1. I see．我明白了。2. I quit! 我不干了!3. Let go! 放手!4. Me too．我也是。5. My god! 天哪!6. No way! 不行!7. Come on．来吧(赶快)8. Hold on．等一等。9. I agree。我同意。10. Not bad．还不错。11. Not yet．还没。12. See you．再见。13. Shut up!
Java访问远程服务 dyy_gusi httpclient webservice get post
随着webService的崛起，我们开始中会越来越多的使用到访问远程webService服务。当然对于不同的webService框架一般都有自己的client包供使用，但是如果使用webService框架自己的client包，那么必然需要在自己的代码中引入它的包，如果同时调运了多个不同框架的webService，那么就需要同时引入多个不同的clien
Maven的settings.xml配置 geeksun settings.xml
settings.xml是Maven的配置文件，下面解释一下其中的配置含义： settings.xml存在于两个地方： 1.安装的地方：$M2_HOME/conf/settings.xml 2.用户的目录：${user.home}/.m2/settings.xml 前者又被叫做全局配置，后者被称为用户配置。如果两者都存在，它们的内容将被合并，并且用户范围的settings.xml优先。
ubuntu的init与系统服务设置 hongtoushizi ubuntu
转载自： http://iysm.net/?p=178 init Init是位于/sbin/init的一个程序，它是在linux下，在系统启动过程中，初始化所有的设备驱动程序和数据结构等之后，由内核启动的一个用户级程序，并由此init程序进而完成系统的启动过程。 ubuntu与传统的linux略有不同，使用upstart完成系统的启动，但表面上仍维持init程序的形式。运行
跟我学Nginx+Lua开发目录贴 jinnianshilongnian nginx lua
使用Nginx+Lua开发近一年的时间，学习和实践了一些Nginx+Lua开发的架构，为了让更多人使用Nginx+Lua架构开发，利用春节期间总结了一份基本的学习教程，希望对大家有用。也欢迎谈探讨学习一些经验。目录第一章安装Nginx+Lua开发环境第二章 Nginx+Lua开发入门第三章 Redis/SSDB+Twemproxy安装与使用第四章 L
php位运算符注意事项 home198979 位运算 PHP &
$a = $b = $c = 0; $a & $b = 1; $b | $c = 1 问a,b,c最终为多少? 当看到这题时，我犯了一个低级错误，误以为位运算符会改变变量的值。所以得出结果是1 1 0 但是位运算符是不会改变变量的值的，例如： $a=1;$b=2; $a&$b; 这样a,b的值不会有任何改变
Linux shell数组建立和使用技巧 pda158 linux
1.数组定义　　[chengmo@centos5 ~]$ a=(1 2 3 4 5) 　　[chengmo@centos5 ~]$ echo $a 　　1 　　一对括号表示是数组，数组元素用“空格”符号分割开。　　 2.数组读取与赋值　　得到长度：　　[chengmo@centos5 ~]$ echo ${#a[@]} 　　5 　　用${#数组名[@或
hotspot源码(JDK7) ol_beta java HotSpot jvm
源码结构图，方便理解： ├─agent Serviceab
Oracle基本事务和ForAll执行批量DML练习 vipbooks oracle sql
基本事务的使用：从账户一的余额中转100到账户二的余额中去，如果账户二不存在或账户一中的余额不足100则整笔交易回滚 select * from account; -- 创建一张账户表 create table account( -- 账户ID id number(3) not null, -- 账户名称 nam