宅家的小魏

Pytorch：目标检测网络-概述，指标计算和使用预训练网络

Pytorch: 目标检测网络概述，指标计算和使用预训练网络

Copyright: Jingmin Wei, Pattern Recognition and Intelligent System, School of Artificial and Intelligence, Huazhong University of Science and Technology

Pytorch教程专栏链接

文章目录

Pytorch: 目标检测网络概述，指标计算和使用预训练网络

@[toc]

Reference

物体检测技术

传统方式

目标检测网络

R-CNN

Fast R-CNN

YOLO

技术应用领域

评价指标

Intersection of Union(IoU)

4 种样本(TP, FP, FN, TN)

Recall, Precision, mean Average Precision(mAP)

代码实现 mAP

使用预训练的目标检测网络

图像目标检测

检测内容可视化

本教程不商用，仅供学习和参考交流使用，如需转载，请联系本人。

Reference

RCNN(Regions with CNN Features)

Fast RCNN

Faster RCNN

Mask RCNN

SSD(Single Shot MultiBox Detector)

YOLO v1(You Only Look Once)

华中科技大学 AIA 学院-计算机视觉课件

《深度学习之 Pytorch 物体检测实战》

注：物体检测的教程使用的数据集主要为 ImageNet，COCO，PASCAL VOC 这三个常用的目标检测数据集，相关数据集下载和使用方式请自行查阅资料。

import numpy as np 
import sys
from PIL import Image, ImageDraw, ImageFont
import matplotlib.pyplot as plt 
import os

import torchvision
import torch
import torchvision.transforms as transforms

物体检测技术

在计算机视觉众多的技术领域中，物体检测是一项非常基础的任务，图像分割、物体追踪、关键点检测等通常都要依赖于物体检测。此外，由于每张图像中物体的数量、大小及姿态各不相同，也就是非结构化的输出，这是与图像分类非常不同的一点，并且物体时常会有遮挡截断，物体检测技术也极富挑战性，从诞生以来始终是研究学者最为关注的焦点领域之一。

物体检测技术，通常是指在一张图像中检测出物体出现的位置及对应的类别。对于图中的人，我们要求检测器输出 $5$ 个量：物体类别, $x_{\min}, y_{\min},x_{\max},x_{\max}$ 当然，对于一个边框，检测器也可以输出中心点与宽高的形式，这两者是等价的。

在计算机视觉中，图像分类、物体检测与图像分割是最基础、也是目前发展最为迅速的 $3$ 个领域。

图像分类：输入图像往往仅包含一个物体，目的是判断每张图像是什么物体，是图像级别的任务，相对简单，发展也最快。

物体检测：输入图像中往往有很多物体，目的是判断出物体出现的位置与类别，是计算机视觉中非常核心的-一个任务。

图像分割：输入与物体检测类似，但是要判断出每一个像素属于哪一个类别，属于像素级的分类。图像分割与物体检测任务之间有很多联系，模型也可以相互借鉴。

传统方式

在利用深度学习做物体检测之前传统算法对于物体的检测通常分为区域选取、特征提取与特征分类这 $3$ 个阶段。

$区域选取\rightarrow 特征提取\rightarrow 特征分类$

区域选取：首先选取图像中可能出现物体的位置，由于物体位置、大小都不固定，因此传统算法通常使用滑动窗口(Sliding Windows)算法，但这种算法会存在大量的冗余框，并且计算复杂度高。
特征提取：在得到物体位置后，通常使用人工精心设计的提取器进行特征提取，如 SIFT 和 HOG 等。由于提取器包含的参数较少，并且人工设计的鲁棒性较低，因此特征提取的质量并不高。
特征分类：最后，对上一步得到的特征进行分类，通常使用如SVM, AdaBoost的分类器。

目标检测网络

深度学习时代的物体检测发展过程如图所示。深度神经网络大量的参数可以提
取出鲁棒性和语义性更好的特征，并且分类器性能也更优越。 $2014$ 年的 RCNN(Regions with CNN features) 算是使用深度学习实现物体检测的经典之作，从此拉开了深度学习做物体检测的序幕。

R-CNN

参考文章：Rich feature hierarchies for accurate object detection and semantic segmentation

其主要算法分为 $4$ 个阶段：

候选区域生成：每张图像会采用 Selective Search 方法，生成 $1000 - 2000$ 个候选区域。
特征提取：针对每个生成的候选区域，归一化为统一尺寸，使用深度卷积网络提取候选区域的特征。
类别判断：将 CNN 特征送入每一类 SVM 分类器，判别候选区域是否属于该类。
位置精修：使用回归器惊喜修正候选框位置。

在 RCNN 基础上， $2015$ 年的 Fast RCNN 实现了端到端的检测与卷积共享。

Fast R-CNN

参考文章：Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks

Fast R-CNN 是两阶段方法的奠基性工作，提出的 RPN 网络取代 Selecctive Search 算法使得检测任务可以由神经网络端到端地完成。

其具体操作方法是将 RPN 放在最后一个卷积层之后，RPN直接训练得到候选区域。RPN 网络的特点在于通过滑动窗口的方式实现候选框的提取，在特征映射上滑动窗口，每个滑动窗口位置生成 $9$ 个不同尺度、不同宽高的候选窗口，提取对应 $9$ 个候选窗口的特征，用于目标分类和边框回归。

目标分类只需要区分候选框内特征为前景或者北京，与 Fast R-CNN 类似，边框回归确定更精确的目标位置。

之后，Faster RCNN 提出锚框(Anchor)这一划时代的思想，将物体检测推向了第一个高峰。在 $2016$ 年，YOLO v1 实现了无锚框(Anchor-Free)的一阶检测，SSD 实现了多特征图的一阶检测，这两种算法对随后的物体检测也产生了深远的影响，在后续教程中将分别用一章的篇幅详细介绍。

YOLO

参考文章：You Only Look Once: Unified, Real-Time Object Detection

YOLO(You Only Look Once) 是经典的单目标检测算法，将目标区域预测和目标类别预测整合于单个神经网络模型中，实现在准确率较高的情况下快速检测与识别目标。YOLO的主要优点是检测速度快、全局处理使得背景错误相对较少、泛化性能好。但是YOLO由于其设计思想的局限，所以会在小目标检测时有些困难。

算法流程如下：

首先将图像划分为 $S\times S$ 个网格，然后在每个网格上通过深度卷积网络给出其物体所述的类别判断(图像使用不同的颜色表示)，并在网格基础上生成 B 个边框(box)，每个边框预测 $5$ 个回归值，其中前 $4$ 个值表示边框位置，第五个值表征这个边框含有物体的概率和位置的准确程度。最后经过 NMS 非极大值抑制过滤得到最后的预测框。

在 $2017$ 年，FPN 利用特征金字塔实现了更优秀的特征提取网络，Mask RCNN 则在实现了实例分割的同时，也提升了物体检测的性能。进入 $2018$ 年后，物体检测的算法更为多样，如使用角点做检测的 CornerNet ，使用多个感受野分支的 TidentNet ，使用中心点做检测的 CenterNet 等。

在物体检测算法中，物体边框从无到有，边框变化的过程在一定程度上体现了检测是一阶的还是两阶的。

两阶：两阶的算法通常在第一阶段专注于找出物体出现的位置，得到建议框，保证足够的准召率(Recall)，然后在第二个阶段专注于对建议框进行分类，导找更精确的位置)典型算法如 RCNN, Faster RCNN 。两阶的算法通常精度准更高，但速度较慢。当然，还存在例如 Cascade RCNN 这样更多阶的算法。
一阶：一阶的算法将二阶算法的两个阶段合二为一，在一个阶段里完成寻找物体出现位置与类别的预测，方法通常更为简单，依赖于特征融合、(Focal Loss 等优秀的网络经验，速度一般比两阶网络更快，但精度会有所损失，典型算法如 SSD, YOLO, RetinaNet 等。

Anchor 是一个划时代的思想，最早出现在 Faster RCNN 中，其本质上是一系列大小宽高不等的先验框，均匀地分布在特征图上，利用特征去预测这些 Anchors 的类别，以及与真实物体边框存在的偏移。Anchor 相当于给物体检测提供了一个梯子，使得检测器不至于直接从无到有地预测物体，精度往往较高，常见算法有 Faster RCNN, SSD, YOLO v2 等。

当然，还有一部分无锚框的算法，思路更为多样，有直接通过特征预测边框位置的方法，如 YOLO v1 等。最近也出现了众多依靠关键点来检测物体的算法，如 CornerNet, CenterNet 等。

技术应用领域

由于检测性能的迅速提升，物体检测也是深度学习在工业界取得大规模应用的领域之以下列举了 $5$ 个广泛应用的领域。

安防：受深度学习的影响，安防领域近年来取得了快速的发展与落地。例如广为人知的人脸识别技术，在交通卡口、车站等已有了成熟的应用。此外，在智慧城市的安防中，行人与车辆的检测也是尤为重要的一环。在安防领域中，有很大的趋势是将检测技术融入到摄像头中，形成智能摄像头，以海康威视、地平线等多家公司最为知名。
自动驾驶：自动驾驶的感知任务中，行人、车辆等障碍物的检测尤为重要。由于涉及驾驶的安全性，自动驾驶对于检测器的性能要求极高，尤其是召回率这个指标，自动驾驶也堪称人工智能应用的"珠穆朗玛峰"。此外，由于车辆需要获取障碍物相对于其自身的三维位置，因此通常在检测器后还需要增加很多的后处理感知模块。
机器人：工业机器人自动分拣中，系统需要识别出要分拣的各种部件，这是极为典型的机器人应用领域。此外，移动智能机器人需要时刻检测出环境中的各种障碍物，以实现安全的避障与导航。从广泛意义来看，自动驾驶车辆也可以看做是机器人的一种形式。
搜索推荐：在互联网公司的各大应用平台中，物体检测无处不在。例如，对于包含特定物体的图像过滤、筛选、推荐和水印处理等，在人脸、行人检测的基础上增加更加丰富的应用，如抖音等产品。
医疗诊断：基于人工智能与大数据，医疗诊断也迎来了新的春天，利用物体检测技术，我们可以更准确、迅速地对 CT, MR 等医疗图像中特定的关节和病症进行诊断。

评价指标

对于一个检测器，我们需要制定一定的规则来评价其好坏，从而选择需要的检测器。对于图像分类任务来讲，由于其输出是很简单的图像类别，因此很容易通过判断分类正确的图像数量来进行衡量。

Intersection of Union(IoU)

物体检测模型的输出是非结构化的，事先并无法得知输出物体的数量、位置、大小等，因此物体检测的评价算法就稍微复杂一些。对于具体的某个物体来讲，我们可以从预测框与真实框的贴合程度来判断检测的质量，通常使用 IoU(Intersection of Union) 来量化贴合程度。

IoU 的计算方式如图所示，使用两个边框的的交集集与并集的比值，就可以得到 IoU，公式如下所示。显而易见，loU 的取值区间是 $[0, 1]$ ， IoU 值越大，表明两个框重合越好。

$IoU_{A,B}=\frac{S_A\cap S_B}{S_A\cup S_B}$

利用代码可以很方便地实现 IoU 的计算：

def IoU(boxA, boxB):
    # 计算重合部分的上下左右4个边的值
    left_max = max(boxA[0], boxB[0]) # x_left中更大的x坐标
    top_max = max(boxA[1], boxB[1]) # y_top中更大的y坐标
    right_min = min(boxA[2], boxB[2]) # x_right中更小的x坐标
    bottom_min = min(boxA[3], boxB[3]) # y_bottom中更小的y坐标
    # 计算重合的面积
    inter = max(0, right_min-left_max) * max(0, bottom_min-top_max)
    # 计算两个框的面积
    SA = (boxA[2] - boxA[0]) * (boxA[3] - boxA[1])
    SB = (boxB[2] - boxB[0]) * (boxB[3] - boxB[1])
    # 计算所有区域的面积
    union = SA + SB - inter
    iou = inter / union
    return iou

对于 IoU 而言，我们通常会选取一个闽值，如 $0.5$ ，来确定预测框是正确的还是错误的。当两个框的 IoU 大于 $0.5$ 时，我们认为是一个有效的检测，否则属于无效的匹配。

4 种样本(TP, FP, FN, TN)

如图中有两个杯子的标签，模型产生了两个预测框。

由于图像中存在背景与物体两种标签，预测框也分为正确与错误，因此在评测时会产生以下 $4$ 种样本。

正确检测框 TP(True Positive)：预测框正确地与标签框匹配了，两者间的 IoU 大于 $0.5$ ，如图中右下方的检测框。
误检框 FP(False Positive)：将背景预测成了物体，如图中左下方的检测框，通常这种框与图中所有标签的 IoU 都不会超过 $0.5$ 。
漏检框 FN(False Negative)：本来需要模型检测出的物体，模型没有检测出，如图中左上方的杯子。
正确背景 TN(True Negative)：本身是背景，模型也没有检测出来，这种情况在物体检测中通常不需要考虑。

小技巧：

T/F：模型是否检测正确

P/N：模型有没有检测到

检测正确又检测到了，目标，TP；检测错误又检测到，把背景当成物体，FP；需要检测又没检测到，漏检，FN；检测正确且本身就不需要检测，背景，TN。

有了上述基础知识，我们就可以开始进行检测模型的评测。

Recall, Precision, mean Average Precision(mAP)

对于一个检测器，通常使用 mAP(mean Average Precision) 这一指标来评价一个模型的好坏，这里的 AP 指的是一个类别的检测精度，mAP 则是多个类别的平均精度。评测需要每张图片的预测值与标签值，对于某一个实例，二者包含的内容分别如下:

预测值(Dets) ：物体类别、边框位置的 $4$ 个预测值、该物体的得分。
标签值(GTs) ：物体类别、边框位置的 $4$ 个真值(ground truth)。

在预测值与标签值的基础上，AP 的具体计算过程如图所示。我们首先将所有的预测框按照得分从高到低进行排序( 因为得分越高的边框其对于真实物体的概率往往越大)，然后从高到低遍历预测框。

对于遍历中的某一个预测框，计算其与该图中同一类别的所有标签框 GTs 的 IoU，并选取拥有最大 IoU 的 GT 作为当前预测框的匹配对象。如果该 loU 小于阈值，则将当前的预测框标记为误检框 FP 。

如果该 IoU 大于阈值，还要看对应的标签框 GP 是否被访问过。如果前面已经有限分更高的预测框与该标签框对应了，即使现在的 IoU 大于阙值，也会被标记为 FP 。如果没有被访问过，则将当前预测框 Det 标记为正确检测框 TP ，并将该 GT 标记为访问过，以防止后面还有预测框与其对应。

在遍历完所有的预测框后，我们会得到每一个预测框的属性，即 TP 或 FP 。在遍历的过程中，我们可以通过当前TP的数量来计算模型的召回率(Recall, R)，即当前一共检测出的标签框与所有标签框的比值，如下式所示，(正确检测 / 正确检测 + 漏检)

$R=\frac{TP}{len(GTs)}=\frac{TP}{TP+FN}$

除了召回率，还有一个重要指标是准确率(Precision, P)，即当前遍历过的预测框中，属于正确预测边框的比值，如下式所示，(正确检测 / 正确检测 + 误检)

$P=\frac{TP}{TP+FP}$

遍历到每一个预测框时，都可以生成一个对应的 P 与 R ，这两个值可以组成一个点 $(R, P)$ ，将所有的点绘制成曲线，即形成了 P-R 曲线，如图所示。

然而，即使有了 P-R 曲线，评价模型仍然不直观，如果直接取曲线上的点，在哪里选取都不合适，因为召回率高的时候准确率会很低，准确率高的时候往往召回率很低。这时，AP 就派上用场了，计算公式如式所示。

$AP=\int_0^1P\mathrm{d}R$

从公式中可以看出，AP 代表了曲线的面积，综合考量了不同召回率下的准确率，不会对 P 与 R 有任何偏好。每个类别的 AP 是相互独立的，将每个类别的 AP 进行平均，即可得到 mAP 。严格意义上讲，还需要对曲线进行定的修正，再进行 AP 计算。除了求面积的方式，还可以使用 $11$ 个不同召回率对应的准确率求平均的方式求 AP 。

代码实现 mAP

下面从代码层面详细讲述 AP 求解过程。

文件夹 data/detections 只存放了 $1$ 张图片的检测信息(真实情况有 n 张图)。图片名为 1.jpg 对应检测信息为 1.txt。

Class，Left, Top, Right, Bottom, Score

文件内容：

class1 12 58 53 96 0.87
class1 51 88 152 191 0.98
class2 345 898 431 945 0.67
class2 597 346 674 415 0.45
class1 243 546 298 583 0.83
class2 99 345 150 426 0.96

文件夹 data/groundtruths 存放其真值信息 1.txt 。

Class, Left, Top, Right, Bottom

文件内容：

class1 14 56 50 100
class1 50 90 150 189
class2 345 894 432 940
class1 458 657 580 742
class2 590 354 675 420

假设经过标签数据与预测数据的加载，需要得到了下面 $3$ 个变量:

det_boxes：包含全部图像中所有类别的预测框，其中一个边框包含了 [Ieft, top, right, bottom, score, NameofImage] 。
gt_boxes：包含了全部图像中所有类别的标签，其中一个标签的内容为 [left, top, right, bottom, 0]。最后一位 $0$ 代表该标签有没有被匹配过，如果匹配过则会置为 $1$ ，其他预测框再去匹配则为误检框。
num_pos：包含了全部图像中所有类别的预测个数。

下述代码可以生成两个满足上述图像信息要求的字典数据类型：

def getDetBoxes(DetFolder='./data/detections'):

    files = os.listdir(DetFolder)
    files.sort()

    det_boxes = {}
    for f in files:
        nameOfImage = f.replace(".txt", "")
        fh1 = open(os.path.join(DetFolder, f), "r")

        for line in fh1:
            line = line.replace("\n", "")
            if line.replace(' ', '') == '':
                continue
            splitLine = line.split(" ")

            # 类别
            cls = (splitLine[0])
            # 坐标
            left = float(splitLine[1])
            top = float(splitLine[2])
            right = float(splitLine[3])
            bottom = float(splitLine[4])
            # 置信度
            score = float(splitLine[5])
            # nameOfImage为图片名，这里只有一张图，名字为1
            one_box = [left, top, right, bottom, score, nameOfImage]

            if cls not in det_boxes:
                det_boxes[cls]=[]
            det_boxes[cls].append(one_box)

        fh1.close()
    return det_boxes

def getGTBoxes(GTFolder='./data/groundtruths'):
    files = os.listdir(GTFolder)
    files.sort()

    classes = []
    num_pos = {}
    gt_boxes = {}
    for f in files:
        nameOfImage = f.replace(".txt", "")
        fh1 = open(os.path.join(GTFolder, f), "r")
        
        for line in fh1:
            line = line.replace("\n", "")
            if line.replace(' ', '') == '':
                continue
            splitLine = line.split(" ")

            # 类别
            cls = (splitLine[0])
            left = float(splitLine[1])
            # 坐标
            top = float(splitLine[2])
            right = float(splitLine[3])
            bottom = float(splitLine[4])      
            # 0表示未被访问过
            one_box = [left, top, right, bottom, 0]
            
            # 类别名列表
            if cls not in classes:
                classes.append(cls)
                gt_boxes[cls] = {}
                num_pos[cls] = 0

            num_pos[cls] += 1

            if nameOfImage not in gt_boxes[cls]:
                gt_boxes[cls][nameOfImage] = []
            gt_boxes[cls][nameOfImage].append(one_box)  
            
        fh1.close()
    return gt_boxes, classes, num_pos

gt_boxes, classes_name, num_pos = getGTBoxes('./data/groundtruths')
det_boxes = getDetBoxes('./data/detections')

# ground truth
gt_boxes

{'class1': {'1': [[14.0, 56.0, 50.0, 100.0, 0],
   [50.0, 90.0, 150.0, 189.0, 0],
   [458.0, 657.0, 580.0, 742.0, 0]]},
 'class2': {'1': [[345.0, 894.0, 432.0, 940.0, 0],
   [590.0, 354.0, 675.0, 420.0, 0]]}}

# detection boxing
det_boxes

{'class1': [[12.0, 58.0, 53.0, 96.0, 0.87, '1'],
  [51.0, 88.0, 152.0, 191.0, 0.98, '1'],
  [243.0, 546.0, 298.0, 583.0, 0.83, '1']],
 'class2': [[345.0, 898.0, 431.0, 945.0, 0.67, '1'],
  [597.0, 346.0, 674.0, 415.0, 0.45, '1'],
  [99.0, 345.0, 150.0, 426.0, 0.96, '1']]}

classes_name

['class1', 'class2']

num_pos

{'class1': 3, 'class2': 2}

cfg = {'iouThreshold': 0.5} # 配置文件

按照上述算法调用 IoU 函数，并循环标记 TP 和 FP：

# AP计算函数
def AP_caculate(cfg, classes_name, det_boxes, gt_boxes, num_pos):
    # 配置参数，所有类别的名字，全部预测框，全部标签框，全部预测框的长度
    ret = []
    for class_name in classes_name:
        # 通过类别作为关键字，得到每个类别的预测、标签及总标签数
        dets = det_boxes[class_name]
        gt_class = gt_boxes[class_name]
        npos = num_pos[class_name]
        # 利用得分，即dets的第4个元素作为关键字，对预测框按得分高低排序
        dets = sorted(dets, key=lambda conf: conf[4], reverse=True)
        # 设置两个与预测边框长度相同的列表，标记为TP or FP
        TP = np.zeros(len(dets))
        FP = np.zeros(len(dets))
        # 对某一个类别的所有预测框进行遍历
        for d in range(len(dets)):
            # 将IoU默认置为最低
            IoUMax = sys.float_info.min
            # 遍历与预测框同一图像中的同一类别的标签，计算IoU
            if dets[d][-1] in gt_class:
                for j in range(len(gt_class[dets[d][-1]])):
                    iou = IoU(dets[d][: 4], gt_class[dets[d][-1]][j][:4])
                    if iou > IoUMax:
                        IoUMax = iou
                        jmax = j # 记录与预测有最大IoU的标签
                # 如果最大IoU大于阈值，且没有被匹配过，则赋TP
                if IoUMax >= cfg['iouThreshold']:
                    if gt_class[dets[d][-1]][jmax][4] == 0:
                        TP[d] = 1
                        gt_class[dets[d][-1]][jmax][4] = 1 # 标记为匹配过
                    # 如果被匹配过，则赋FP
                    else:
                        FP[d] = 1
                # 如果最大IoU没超过阈值，则赋FP
                else:
                    FP[d] = 1
            # 如果对应的图像中没有该类别的标签，则赋FP
            else:
                FP[d] = 1
        # 计算累积的FP和TP
        acc_FP = np.cumsum(FP)
        acc_TP = np.cumsum(TP)
        # 得到每个点的Recall，即 TP / len(GTs)
        rec = acc_TP / npos
        # 得到每个点的Precision，即 TP / TP + FP
        prec = np.divide(acc_TP, (acc_FP + acc_TP))
        # 通过Recall和Precision计算AP
        [ap, m_pre, m_rec, ii] = CalculateAveragePrecision(rec, prec)
        r = {
                'class': class_name,
                'precision': prec,
                'recall': rec,
                'AP': ap,
                'interpolated precision': m_pre,
                'interpolated recall': m_rec,
                'total positives': npos,
                'total TP': np.sum(TP),
                'total FP': np.sum(FP),
            }
        ret.append(r)
    return ret, classes_name

得到每个点的 Precision 和 Recall 后，对每个离散点进行插值计算，最后采用离散积分的方式计算 AP：

# 得到每个点的P和R后，采用离散积分的方式计算AP
def CalculateAveragePrecision(rec, prec):
        m_rec = []
        m_rec.append(0)
        [m_rec.append(e) for e in rec] # 列表生成式，添加召回率
        m_rec.append(1)

        m_pre = []
        m_pre.append(0)
        [m_pre.append(e) for e in prec] # 列表生成式，添加精度
        m_pre.append(0)

        for i in range(len(m_pre) - 1, 0, -1):
            # 插值，两点间取更大的precision
            m_pre[i - 1] = max(m_pre[i - 1], m_pre[i])

        ii = []
        for i in range(len(m_rec) - 1):
            if m_rec[i + 1] != m_rec[i]:
                # 插值，只取两点间recall不等的
                ii.append(i + 1)

        ap = 0
        for i in ii:
            # 离散积分
            ap = ap + np.sum((m_rec[i] - m_rec[i - 1]) * m_pre[i])

        return [ap, m_pre[0:len(m_pre) - 1], m_rec[0:len(m_pre) - 1], ii]

ret, class_name = AP_caculate(cfg, classes_name, det_boxes, gt_boxes, num_pos)

ret

[{'class': 'class1',
  'precision': array([1.        , 1.        , 0.66666667]),
  'recall': array([0.33333333, 0.66666667, 0.66666667]),
  'AP': 0.6666666666666666,
  'interpolated precision': [1.0, 1.0, 1.0, 0.6666666666666666],
  'interpolated recall': [0,
   0.3333333333333333,
   0.6666666666666666,
   0.6666666666666666],
  'total positives': 3,
  'total TP': 2.0,
  'total FP': 1.0},
 {'class': 'class2',
  'precision': array([0.        , 0.5       , 0.66666667]),
  'recall': array([0. , 0.5, 1. ]),
  'AP': 0.6666666666666666,
  'interpolated precision': [0.6666666666666666,
   0.6666666666666666,
   0.6666666666666666,
   0.6666666666666666],
  'interpolated recall': [0, 0.0, 0.5, 1.0],
  'total positives': 2,
  'total TP': 2.0,
  'total FP': 1.0}]

# class1的AP
ret[0]['AP']

0.6666666666666666

# class2的插值后每个点的Recall
ret[1]['interpolated recall']

[0, 0.0, 0.5, 1.0]

使用预训练的目标检测网络

R-CNN系列的预训练的目标检测网络有：

detection.fasterrcnn_resnet50_fpn

detection.maskrcnn_resnet50_fpn

detection.keypointrcnn_resnet50_fpn

# 模型加载选择GPU
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
print(device)
print(torch.cuda.device_count())
print(torch.cuda.get_device_name(0))

cuda
1
GeForce MX250

图像目标检测

使用预训练好的具有 ResNet-50-FPN 结构的 Fast R-CNN 模型，使用 COCO 数据集进行训练

(COCO 数据集下载地址：https://cocodataset.org)

# 导入预训练好的ResNet50 Faster R-CNN模型
model = torchvision.models.detection.fasterrcnn_resnet50_fpn(pretrained = True)
model = model.to(device)
model.eval()

FasterRCNN(
  (transform): GeneralizedRCNNTransform(
      Normalize(mean=[0.485, 0.456, 0.406], std=[0.229, 0.224, 0.225])
      Resize(min_size=(800,), max_size=1333, mode='bilinear')
  )
  (backbone): BackboneWithFPN(
    (body): IntermediateLayerGetter(
      (conv1): Conv2d(3, 64, kernel_size=(7, 7), stride=(2, 2), padding=(3, 3), bias=False)
      (bn1): FrozenBatchNorm2d(64, eps=0.0)
      (relu): ReLU(inplace=True)
      (maxpool): MaxPool2d(kernel_size=3, stride=2, padding=1, dilation=1, ceil_mode=False)
      (layer1): Sequential(
        (0): Bottleneck(
          (conv1): Conv2d(64, 64, kernel_size=(1, 1), stride=(1, 1), bias=False)
          (bn1): FrozenBatchNorm2d(64, eps=0.0)
          (conv2): Conv2d(64, 64, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), bias=False)
          (bn2): FrozenBatchNorm2d(64, eps=0.0)
          (conv3): Conv2d(64, 256, kernel_size=(1, 1), stride=(1, 1), bias=False)
          (bn3): FrozenBatchNorm2d(256, eps=0.0)
          (relu): ReLU(inplace=True)
          (downsample): Sequential(
            (0): Conv2d(64, 256, kernel_size=(1, 1), stride=(1, 1), bias=False)
            (1): FrozenBatchNorm2d(256, eps=0.0)
          )
        )
        (1): Bottleneck(
          (conv1): Conv2d(256, 64, kernel_size=(1, 1), stride=(1, 1), bias=False)
          (bn1): FrozenBatchNorm2d(64, eps=0.0)
          (conv2): Conv2d(64, 64, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), bias=False)
          (bn2): FrozenBatchNorm2d(64, eps=0.0)
          (conv3): Conv2d(64, 256, kernel_size=(1, 1), stride=(1, 1), bias=False)
          (bn3): FrozenBatchNorm2d(256, eps=0.0)
          (relu): ReLU(inplace=True)
        )
        (2): Bottleneck(
          (conv1): Conv2d(256, 64, kernel_size=(1, 1), stride=(1, 1), bias=False)
          (bn1): FrozenBatchNorm2d(64, eps=0.0)
          (conv2): Conv2d(64, 64, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), bias=False)
          (bn2): FrozenBatchNorm2d(64, eps=0.0)
          (conv3): Conv2d(64, 256, kernel_size=(1, 1), stride=(1, 1), bias=False)
          (bn3): FrozenBatchNorm2d(256, eps=0.0)
          (relu): ReLU(inplace=True)
        )
      )
      (layer2): Sequential(
        (0): Bottleneck(
          (conv1): Conv2d(256, 128, kernel_size=(1, 1), stride=(1, 1), bias=False)
          (bn1): FrozenBatchNorm2d(128, eps=0.0)
          (conv2): Conv2d(128, 128, kernel_size=(3, 3), stride=(2, 2), padding=(1, 1), bias=False)
          (bn2): FrozenBatchNorm2d(128, eps=0.0)
          (conv3): Conv2d(128, 512, kernel_size=(1, 1), stride=(1, 1), bias=False)
          (bn3): FrozenBatchNorm2d(512, eps=0.0)
          (relu): ReLU(inplace=True)
          (downsample): Sequential(
            (0): Conv2d(256, 512, kernel_size=(1, 1), stride=(2, 2), bias=False)
            (1): FrozenBatchNorm2d(512, eps=0.0)
          )
        )
        (1): Bottleneck(
          (conv1): Conv2d(512, 128, kernel_size=(1, 1), stride=(1, 1), bias=False)
          (bn1): FrozenBatchNorm2d(128, eps=0.0)
          (conv2): Conv2d(128, 128, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), bias=False)
          (bn2): FrozenBatchNorm2d(128, eps=0.0)
          (conv3): Conv2d(128, 512, kernel_size=(1, 1), stride=(1, 1), bias=False)
          (bn3): FrozenBatchNorm2d(512, eps=0.0)
          (relu): ReLU(inplace=True)
        )
        (2): Bottleneck(
          (conv1): Conv2d(512, 128, kernel_size=(1, 1), stride=(1, 1), bias=False)
          (bn1): FrozenBatchNorm2d(128, eps=0.0)
          (conv2): Conv2d(128, 128, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), bias=False)
          (bn2): FrozenBatchNorm2d(128, eps=0.0)
          (conv3): Conv2d(128, 512, kernel_size=(1, 1), stride=(1, 1), bias=False)
          (bn3): FrozenBatchNorm2d(512, eps=0.0)
          (relu): ReLU(inplace=True)
        )
        (3): Bottleneck(
          (conv1): Conv2d(512, 128, kernel_size=(1, 1), stride=(1, 1), bias=False)
          (bn1): FrozenBatchNorm2d(128, eps=0.0)
          (conv2): Conv2d(128, 128, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), bias=False)
          (bn2): FrozenBatchNorm2d(128, eps=0.0)
          (conv3): Conv2d(128, 512, kernel_size=(1, 1), stride=(1, 1), bias=False)
          (bn3): FrozenBatchNorm2d(512, eps=0.0)
          (relu): ReLU(inplace=True)
        )
      )
      (layer3): Sequential(
        (0): Bottleneck(
          (conv1): Conv2d(512, 256, kernel_size=(1, 1), stride=(1, 1), bias=False)
          (bn1): FrozenBatchNorm2d(256, eps=0.0)
          (conv2): Conv2d(256, 256, kernel_size=(3, 3), stride=(2, 2), padding=(1, 1), bias=False)
          (bn2): FrozenBatchNorm2d(256, eps=0.0)
          (conv3): Conv2d(256, 1024, kernel_size=(1, 1), stride=(1, 1), bias=False)
          (bn3): FrozenBatchNorm2d(1024, eps=0.0)
          (relu): ReLU(inplace=True)
          (downsample): Sequential(
            (0): Conv2d(512, 1024, kernel_size=(1, 1), stride=(2, 2), bias=False)
            (1): FrozenBatchNorm2d(1024, eps=0.0)
          )
        )
        (1): Bottleneck(
          (conv1): Conv2d(1024, 256, kernel_size=(1, 1), stride=(1, 1), bias=False)
          (bn1): FrozenBatchNorm2d(256, eps=0.0)
          (conv2): Conv2d(256, 256, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), bias=False)
          (bn2): FrozenBatchNorm2d(256, eps=0.0)
          (conv3): Conv2d(256, 1024, kernel_size=(1, 1), stride=(1, 1), bias=False)
          (bn3): FrozenBatchNorm2d(1024, eps=0.0)
          (relu): ReLU(inplace=True)
        )
        (2): Bottleneck(
          (conv1): Conv2d(1024, 256, kernel_size=(1, 1), stride=(1, 1), bias=False)
          (bn1): FrozenBatchNorm2d(256, eps=0.0)
          (conv2): Conv2d(256, 256, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), bias=False)
          (bn2): FrozenBatchNorm2d(256, eps=0.0)
          (conv3): Conv2d(256, 1024, kernel_size=(1, 1), stride=(1, 1), bias=False)
          (bn3): FrozenBatchNorm2d(1024, eps=0.0)
          (relu): ReLU(inplace=True)
        )
        (3): Bottleneck(
          (conv1): Conv2d(1024, 256, kernel_size=(1, 1), stride=(1, 1), bias=False)
          (bn1): FrozenBatchNorm2d(256, eps=0.0)
          (conv2): Conv2d(256, 256, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), bias=False)
          (bn2): FrozenBatchNorm2d(256, eps=0.0)
          (conv3): Conv2d(256, 1024, kernel_size=(1, 1), stride=(1, 1), bias=False)
          (bn3): FrozenBatchNorm2d(1024, eps=0.0)
          (relu): ReLU(inplace=True)
        )
        (4): Bottleneck(
          (conv1): Conv2d(1024, 256, kernel_size=(1, 1), stride=(1, 1), bias=False)
          (bn1): FrozenBatchNorm2d(256, eps=0.0)
          (conv2): Conv2d(256, 256, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), bias=False)
          (bn2): FrozenBatchNorm2d(256, eps=0.0)
          (conv3): Conv2d(256, 1024, kernel_size=(1, 1), stride=(1, 1), bias=False)
          (bn3): FrozenBatchNorm2d(1024, eps=0.0)
          (relu): ReLU(inplace=True)
        )
        (5): Bottleneck(
          (conv1): Conv2d(1024, 256, kernel_size=(1, 1), stride=(1, 1), bias=False)
          (bn1): FrozenBatchNorm2d(256, eps=0.0)
          (conv2): Conv2d(256, 256, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), bias=False)
          (bn2): FrozenBatchNorm2d(256, eps=0.0)
          (conv3): Conv2d(256, 1024, kernel_size=(1, 1), stride=(1, 1), bias=False)
          (bn3): FrozenBatchNorm2d(1024, eps=0.0)
          (relu): ReLU(inplace=True)
        )
      )
      (layer4): Sequential(
        (0): Bottleneck(
          (conv1): Conv2d(1024, 512, kernel_size=(1, 1), stride=(1, 1), bias=False)
          (bn1): FrozenBatchNorm2d(512, eps=0.0)
          (conv2): Conv2d(512, 512, kernel_size=(3, 3), stride=(2, 2), padding=(1, 1), bias=False)
          (bn2): FrozenBatchNorm2d(512, eps=0.0)
          (conv3): Conv2d(512, 2048, kernel_size=(1, 1), stride=(1, 1), bias=False)
          (bn3): FrozenBatchNorm2d(2048, eps=0.0)
          (relu): ReLU(inplace=True)
          (downsample): Sequential(
            (0): Conv2d(1024, 2048, kernel_size=(1, 1), stride=(2, 2), bias=False)
            (1): FrozenBatchNorm2d(2048, eps=0.0)
          )
        )
        (1): Bottleneck(
          (conv1): Conv2d(2048, 512, kernel_size=(1, 1), stride=(1, 1), bias=False)
          (bn1): FrozenBatchNorm2d(512, eps=0.0)
          (conv2): Conv2d(512, 512, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), bias=False)
          (bn2): FrozenBatchNorm2d(512, eps=0.0)
          (conv3): Conv2d(512, 2048, kernel_size=(1, 1), stride=(1, 1), bias=False)
          (bn3): FrozenBatchNorm2d(2048, eps=0.0)
          (relu): ReLU(inplace=True)
        )
        (2): Bottleneck(
          (conv1): Conv2d(2048, 512, kernel_size=(1, 1), stride=(1, 1), bias=False)
          (bn1): FrozenBatchNorm2d(512, eps=0.0)
          (conv2): Conv2d(512, 512, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), bias=False)
          (bn2): FrozenBatchNorm2d(512, eps=0.0)
          (conv3): Conv2d(512, 2048, kernel_size=(1, 1), stride=(1, 1), bias=False)
          (bn3): FrozenBatchNorm2d(2048, eps=0.0)
          (relu): ReLU(inplace=True)
        )
      )
    )
    (fpn): FeaturePyramidNetwork(
      (inner_blocks): ModuleList(
        (0): Conv2d(256, 256, kernel_size=(1, 1), stride=(1, 1))
        (1): Conv2d(512, 256, kernel_size=(1, 1), stride=(1, 1))
        (2): Conv2d(1024, 256, kernel_size=(1, 1), stride=(1, 1))
        (3): Conv2d(2048, 256, kernel_size=(1, 1), stride=(1, 1))
      )
      (layer_blocks): ModuleList(
        (0): Conv2d(256, 256, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
        (1): Conv2d(256, 256, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
        (2): Conv2d(256, 256, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
        (3): Conv2d(256, 256, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
      )
      (extra_blocks): LastLevelMaxPool()
    )
  )
  (rpn): RegionProposalNetwork(
    (anchor_generator): AnchorGenerator()
    (head): RPNHead(
      (conv): Conv2d(256, 256, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
      (cls_logits): Conv2d(256, 3, kernel_size=(1, 1), stride=(1, 1))
      (bbox_pred): Conv2d(256, 12, kernel_size=(1, 1), stride=(1, 1))
    )
  )
  (roi_heads): RoIHeads(
    (box_roi_pool): MultiScaleRoIAlign(featmap_names=['0', '1', '2', '3'], output_size=(7, 7), sampling_ratio=2)
    (box_head): TwoMLPHead(
      (fc6): Linear(in_features=12544, out_features=1024, bias=True)
      (fc7): Linear(in_features=1024, out_features=1024, bias=True)
    )
    (box_predictor): FastRCNNPredictor(
      (cls_score): Linear(in_features=1024, out_features=91, bias=True)
      (bbox_pred): Linear(in_features=1024, out_features=364, bias=True)
    )
  )
)

# 准备需要检测的图像
image = Image.open('./data/objdetect/2012_004308.jpg')
transform_d = transforms.Compose([transforms.ToTensor()])
image_t = transform_d(image).to(device) # 图像变换
pred = model([image_t]) # 输出预测
pred

[{'boxes': tensor([[139.8201,  35.2344, 306.0309, 211.2748],
          [ 78.5456, 117.7256, 294.9999, 274.1726],
          [176.4146,  45.9989, 293.7729, 167.6908],
          [446.5353, 298.2009, 482.5389, 332.6683],
          [144.3929,  59.9620, 242.3081, 232.6723],
          [264.5503, 289.4034, 348.2632, 330.4233],
          [ 81.9035,  99.5320, 306.7264, 279.0831],
          [304.1234,  68.3819, 500.0000, 314.6510],
          [246.3921,  79.3525, 495.8307, 323.0642],
          [264.6102, 288.0742, 348.0310, 330.5592]], device='cuda:0',
         grad_fn=),
  'labels': tensor([ 1,  2,  1,  1,  1, 15,  4,  5,  2,  8], device='cuda:0'),
  'scores': tensor([0.9954, 0.9430, 0.8601, 0.8108, 0.4989, 0.3326, 0.3135, 0.1794, 0.1665,
          0.1197], device='cuda:0', grad_fn=)}]

boxes 为边界框。

labels 为目标所属的类别。

scores 为属于相应类别的得分(即置信度 objectness)。

检测内容可视化

定义每个类别对应的标签：

COCO_INSTANCE_CATEGORY_NAMES = [
    '__background__', 'person', 'bicycle', 'car', 'motorcycle',
    'airplane', 'bus', 'train', 'truck', 'boat', 'traffic light',
    'fire hydrant', 'N/A', 'stop sign', 'parking meter', 'bench',
    'bird', 'cat', 'dog', 'horse', 'sheep', 'cow', 'elephant', 
    'bear', 'zebra', 'giraffe', 'N/A', 'backpack', 'umbrella', 'N/A',
    'N/A', 'handbag', 'tie', 'suitcase', 'frisbee', 'skis', 'snowboard',
    'sports ball', 'kite', 'baseball bat', 'baseball glove', 'skateboard',
    'surfboard', 'tennis racket', 'bottle', 'N/A', 'wine glass',
    'cup', 'fork', 'knife', 'spoon', 'bowl', 'banana', 'apple',
    'sandwich', 'orange', 'broccoli', 'carrot', 'hot dog', 'pizza',
    'donut', 'cake', 'chair', 'couch', 'potted plant', 'bed', 'N/A',
    'dining table', 'N/A', 'N/A', 'toilet', 'N/A', 'tv', 'laptop',
    'mouse', 'remote', 'keyboard', 'cell phone', 'microwave', 'oven',
    'toaster', 'sink', 'refrigerator', 'N/A', 'book', 'clock',
    'vase', 'scissors', 'teddy bear', 'hair drier', 'toothbrush'
]

可视化前，需要分别将有效的预测目标数据解读出来，提取的信息有每个目标的位置、类别和得分，然后将得分大于 $0, 5$ 的目标作为检测到的有效目标，并将检测到的目标在图像上显示。

# 检测出的目标类别和得分
pred_class = [COCO_INSTANCE_CATEGORY_NAMES[ii] for ii in list(pred[0]['labels'].cpu().numpy())]
pred_score = list(pred[0]['scores'].detach().cpu().numpy())
# 检测出目标的边界框
pred_boxes = [[ii[0], ii[1], ii[2], ii[3]] for ii in list(pred[0]['boxes'].detach().cpu().numpy())]
# 只保留识别概率大于0.5的
pred_index = [pred_score.index(x) for x in pred_score if x > 0.5]
# 设置图像显示的字体
fontsize = np.int16(image.size[1] / 30)
font1 = ImageFont.truetype('C:/windows/Fonts/STXIHEI.TTF', fontsize) # 华文细黑

# 可视化图像
draw = ImageDraw.Draw(image)
for index in pred_index:
    box = pred_boxes[index]
    draw.rectangle(box, outline = 'red')
    texts = pred_class[index] + ':' + str(np.round(pred_score[index], 2))
    draw.text((box[0], box[1]), texts, fill = 'red', font = font1)
image

下面将上述目标检测过程定义为一个函数，方便对任意图像进行检测：

def Object_Detect(model, image_path, COCO_INSTANCE_CATEGORY_NAMES, threshold = 0.5):
    image = Image.open(image_path)
    transform_d = transforms.Compose([transforms.ToTensor()])
    image_t = transform_d(image).to(device) # 图像变换
    pred = model([image_t]) # 输出预测
    # 检测出目标的类别和得分
    pred_class = [COCO_INSTANCE_CATEGORY_NAMES[ii] for ii in list(pred[0]['labels'].cpu().numpy())]
    pred_score = list(pred[0]['scores'].detach().cpu().numpy())
    # 检测出目标的边界框
    pred_boxes = [[ii[0], ii[1], ii[2], ii[3]] for ii in list(pred[0]['boxes'].detach().cpu().numpy())]
    # 只保留识别概率大于threshold的结果
    pred_index = [pred_score.index(x) for x in pred_score if x > threshold]
    # 设置图像显示的字体
    fontsize = np.int16(image.size[1] / 30)
    font1 = ImageFont.truetype('C:/windows/Fonts/STXIHEI.TTF', fontsize) # 华文细黑
    # 可视化图像和检测结果
    draw = ImageDraw.Draw(image)
    for index in pred_index:
        box = pred_boxes[index]
        draw.rectangle(box, outline = 'red')
        texts = pred_class[index] + ':' + str(np.round(pred_score[index], 2))
        draw.text((box[0], box[1]), texts, fill = 'red', font = font1)
    return image

# 调用上面的函数
image_path = './data/objdetect/2012_003924.jpg'
Object_Detect(model, image_path, COCO_INSTANCE_CATEGORY_NAMES, 0.7)

你可能感兴趣的:(PyTorch,pytorch,目标检测,计算机视觉,卷积神经网络,深度学习)

数据分析领域中AI人工智能的发展前景展望 AI大模型应用工坊 AI大模型开发实战数据分析人工智能数据挖掘 ai
数据分析领域中AI人工智能的发展前景展望关键词：数据分析、人工智能、机器学习、深度学习、数据挖掘、预测分析、自动化摘要：本文深入探讨了人工智能在数据分析领域的发展现状和未来趋势。我们将从核心技术原理出发，分析AI如何改变传统数据分析范式，详细讲解机器学习算法在数据分析中的应用，并通过实际案例展示AI驱动的数据分析解决方案。文章还将探讨行业应用场景、工具生态以及未来发展面临的挑战和机遇，为数据分析师
深入理解卷积神经网络（CNN）与循环神经网络（RNN） CodeJourney. cnn rnn 人工智能
在当今的人工智能领域，神经网络无疑是最为璀璨的明珠之一。而卷积神经网络（ConvolutionalNeuralNetworks，CNN）和循环神经网络（RecurrentNeuralNetworks，RNN）作为神经网络家族中的重要成员，各自有着独特的架构和强大的功能，广泛应用于众多领域。本文将深入探讨这两种神经网络的原理、特点以及应用场景，为对深度学习感兴趣的读者提供全面的知识讲解。一、卷积神经
时序预测 | MATLAB实现贝叶斯优化CNN-GRU时间序列预测(股票价格预测) Matlab机器学习之心 matlab cnn gru
✅作者简介：热爱数据处理、数学建模、仿真设计、论文复现、算法创新的Matlab仿真开发者。更多Matlab代码及仿真咨询内容点击主页：Matlab科研工作室个人信条：格物致知，期刊达人。内容介绍股票价格预测一直是金融领域一个极具挑战性的课题。其内在的非线性、随机性和复杂性使得传统的预测方法难以取得令人满意的效果。近年来，深度学习技术，特别是卷积神经网络(CNN)和门控循环单元(GRU)的结合，为时
时序预测 | MATLAB实现BO-CNN-GRU贝叶斯优化卷积门控循环单元时间序列预测 Matlab算法改进和仿真定制工程师 matlab cnn gru
✅作者简介：热爱数据处理、数学建模、算法创新的Matlab仿真开发者。更多Matlab代码及仿真咨询内容点击：Matlab科研工作室个人信条：格物致知。内容介绍时间序列预测在各个领域都具有重要的应用价值，例如金融市场预测、气象预报、交通流量预测等。准确地预测未来趋势对于决策制定至关重要。近年来，深度学习技术在时间序列预测领域取得了显著进展，其中卷积神经网络(CNN)和门控循环单元(GRU)由于其强
Python Gradio：实现交互式图像编辑 PythonAI编程架构实战家 Python编程之道 python 开发语言 ai
PythonGradio：实现交互式图像编辑关键词：Python,Gradio,交互式图像编辑,计算机视觉,深度学习,图像处理,Web应用摘要：本文将深入探讨如何使用Python的Gradio库构建交互式图像编辑应用。我们将从基础概念开始，逐步介绍Gradio的核心功能，并通过实际代码示例展示如何实现各种图像处理功能。文章将涵盖图像滤镜应用、对象检测、风格迁移等高级功能，同时提供完整的项目实战案例
如何运用深度学习打造高效AI人工智能系统 AI智能探索者 AI Agent 智能体开发实战人工智能深度学习 ai
如何运用深度学习打造高效AI人工智能系统关键词：深度学习、AI系统、神经网络、模型优化、实战开发摘要：本文将从深度学习的核心概念出发，结合生活实例和代码实战，系统讲解如何构建高效AI系统。我们会拆解数据准备、模型设计、训练优化、部署落地的全流程，揭秘“数据-模型-训练-推理”的协同机制，并通过具体案例演示从0到1开发AI系统的关键技巧，帮助开发者掌握打造高效AI系统的底层逻辑。背景介绍目的和范围在
Spring AI与机器学习：智能应用开发新范式 tmjpz04412 人工智能 spring 机器学习
SpringAI与机器学习的整合SpringAI是一个基于Spring生态的AI开发框架，旨在简化智能应用的开发流程。通过SpringAI，开发者可以快速集成机器学习模型，构建高效的智能应用。SpringAI支持多种机器学习库和框架，如TensorFlow、PyTorch和Scikit-learn，提供统一的API接口。SpringAI的核心优势在于其模块化设计和自动化配置。开发者无需关心复杂的依
基于深度学习的目标检测算法综述：从RCNN到YOLOv13，一文看懂十年演进！人工智能教程深度学习目标检测算法人工智能自动驾驶 YOLO 机器学习
一、引言：目标检测的十年巨变2012年AlexNet拉开深度学习序幕，2014年RCNN横空出世，目标检测从此进入“深度时代”。十年间，算法从两阶段到单阶段，从Anchor-base到Anchor-free，从CNN到Transformer，从2D到3D，从监督学习到自监督学习，迭代速度之快令人目不暇接。本文将系统梳理基于深度学习的目标检测算法，带你全面了解技术演进、核心思想、代表算法、工业落地与
Baumer工业相机堡盟工业相机如何通过YoloV8深度学习模型实现不同水果的检测识别（C#代码，UI界面版）
Baumer工业相机堡盟工业相机如何通过YoloV8深度学习模型实现不同水果的检测识别（C#代码，UI界面版））工业相机使用YoloV8模型实现不同水果的检测识别工业相机通过YoloV8模型实现不同水果的检测识别的技术背景在相机SDK中获取图像转换图像的代码分析工业相机图像转换Bitmap图像格式和Mat图像重要核心代码本地文件图像转换Bitmap图像格式和Mat图像重要核心代码Mat图像导入Yo
yolo 目标检测600类目标大霸王龙行业+领域+业务场景=定制 YOLO 目标检测人工智能
1.模型架构调整类别适配：将YOLO输出层的类别节点数调整为600（如YOLOv5的detect.yaml中修改nc=600），并更新类别名称映射表（classes.txt）。骨干网络优化：若使用YOLOv5/v8，可升级骨干网络（如C3模块深度）或替换为更高性能的主干（如EfficientNet、ResNet-101），以增强复杂场景的特征提取能力。多尺度检测头：保留或扩展YOLO的多尺度输出（
从零开始构建深度学习环境：基于Pytorch、CUDA与cuDNN的虚拟环境搭建与实践（适合初学者）荣华富贵8 程序员的知识储备2 程序员的知识储备3 深度学习 pytorch 人工智能
摘要：深度学习正在引领人工智能技术的革新，而对于初学者来说，正确搭建深度学习环境是迈向AI研究与应用的第一步。本文将为读者提供一套详尽的教程，指导如何在本地环境中搭建Pytorch、CUDA与cuDNN，以及如何利用Anaconda和PyCharm进行高效开发。内容涵盖从环境配置、常见错误修正，到基础的深度学习模型构建及训练。我们旨在为深度学习零基础的入门者提供一个全面且易于理解的“保姆级”教程，
人工智能概念之九：深度学习概述
文章目录相关文章一、深度学习的定位：AI时代的基石技术1.1技术生态全景图1.2技术革命的催化剂二、深度学习的双面性：性能优势与技术挑战2.1技术优势全景扫描2.2技术挑战深度剖析三、技术演进时间轴：70年的厚积薄发四、主流框架生态对比五、未来演进方向相关文章人工智能概念之二：人工智能核心概念：网页链接一、深度学习的定位：AI时代的基石技术1.1技术生态全景图深度学习处于人工智能（AI）技术金字塔
基于AlexNet架构的卷积神经网络模型用于对胸部X光图像进行二分类（例如，诊断肺炎）
1.肺炎正常的胸部X线片描绘了清晰的肺部，图像中没有任何异常混浊的区域。正常的胸部X线片1.1细菌性肺炎临床表现细菌性肺炎通常由细菌引起，如肺炎链球菌、流感嗜血杆菌、肺炎克雷伯菌等。患者可能出现高热、寒战、咳嗽、咳痰（痰液可能呈脓性）、胸痛、呼吸困难等症状。影像学特征局灶性肺叶实变细菌性肺炎在影像学上常表现为肺叶或肺段的局灶性实变，即某一区域的肺组织因炎症而失去气体交换功能，呈现为高密度影。胸腔积
学苑教育杂志《学苑教育》杂志社学苑教育编辑部2025年第21期目录 QQ296078736 人工智能
专题研究推进“教-学-评”一体化，打造小学语文高效课堂刘月兰;4-6教育管理新高考制度下普通高中生涯教育课程设计的研究霍亚贞;马玲;7-9课堂教学核心素养下小学数学深度学习课堂的构建策略康贵景;10-12“双减”背景下初中英语教学的课堂模式高燕;13-15小学低年级数学说理课堂构建策略玉洁;16-18基于法治观念培育的道法课项目式教学策略许静;19-21“双师课堂”在初中语文写作教学中的实践孙巧玲
yolo检测常见指标 bigdata从入门到放弃深度学习yolo YOLO 目标跟踪人工智能深度学习
YOLO（YouOnlyLookOnce）作为经典的单阶段目标检测算法，其性能评估依赖于目标检测领域的通用指标。这些指标既衡量检测精度（是否准确识别物体类别、准确定位），也衡量检测速度（是否实时）。下面用通俗的语言详细解释核心指标：一、基础：判断“预测框是否有效”——IoU（交并比）目标检测的核心是“预测框”（模型输出的矩形框）是否准确覆盖“真实框”（人工标注的物体位置）。IoU是衡量两者重叠程度
视觉Transformer还有哪些点可以研究？怎么应用？计算机视觉工坊 3D视觉从入门到精通学习算法开源
0.这篇文章干了啥？今天笔者为大家推荐一篇最新的综述，详细总结了Transformer的网络架构、优化策略、发展方向，还会定期更新Github，研究注意力机制的小伙伴一定不要错过。注意机制有助于人类视觉系统有效地分析和理解复杂场景，它能够聚焦于图像的关键区域，同时忽略无关紧要的部分。受此概念启发，注意机制已经被引入到计算机视觉（CV）中，以动态地为图像中的不同区域分配权重。这使得神经网络能够专注于
使用 PyTorch 和 Pandas 进行 Kaggle 房价预测 Clang's Blog AI pytorch pandas 人工智能
文章目录1、环境设置2、数据下载3、数据预处理4、模型构建5、训练和验证6、训练模型并生成预测结果7、完整代码在本篇博文中，我们将探索如何使用PyTorch和Pandas库，构建一个用于Kaggle房价预测的模型。我们将详细讨论数据加载、预处理、模型构建、训练、验证及最终预测的全过程。1、环境设置我们首先需要导入所需的库，包括用于数据处理的pandas和numpy，以及用于深度学习的torch。i
PyTorch 使用指南
PyTorch是一个功能强大且灵活的Python开源机器学习库，以其动态计算图和直观的Pythonic接口而闻名。本指南将带您了解PyTorch的基础操作，包括张量创建、自动求导，以及如何构建、训练和优化神经网络模型。我们还将深入探讨其在图像分类（以CIFAR-10为例）和自然语言处理（以灾难推文分类为例）等特定领域的应用，并概述其在图像分割和强化学习等其他领域的应用。PyTorch使用指南1.P
PyTorch武侠演义第一卷：初入江湖第7章：矿洞中的计算禁制空中湖 pytorch武侠演绎 pytorch 人工智能 python
第一卷：初入江湖第7章：矿洞中的计算禁制矿洞深处罗盘残件在接近矿洞时突然发热，指针疯狂旋转。"就是这里，"欧阳长老抚摸着洞壁上的计算图刻痕，“TensorFlow帮用静态图封印了矿脉。”林小码看到：幽蓝矿脉构成巨大的计算图结构水晶矿簇随呼吸节奏明灭（CUDA核心）矿道中流淌着数据光流（内存带宽）"小心！"大师突然拉回林小码。他刚才踩中的矿砖下陷，触发岩壁上的机关——数十道计算图锁链从四面八方射来！
Python_day54Inception网络及其思考且慢.589 Python_60 python 开发语言
一、inception网络介绍今天我们介绍inception，也就是GoogleNet传统计算机视觉的发展史从上面的链接，可以看到其实inceptionnet是在resnet之前的，那为什么我今天才说呢？因为他要引出我们后面的特征融合和特征并行处理这些思想。Inception网络，也被称为GoogLeNet，是Google团队在2014年提出的经典卷积神经网络架构。它的核心设计理念是“并行的多尺度
AI 绘画 + 编程：10 分钟生成个性化艺术作品大力出奇迹985 人工智能
本文围绕Python+OpenCV实现自动人脸识别门禁系统展开，先概述系统的基本构成与作用，再从系统核心技术、开发实现步骤、功能扩展方向、实际应用场景及优化改进策略五个方面详细阐述，最后总结系统的价值与发展前景，为相关开发和应用提供全面参考。一、系统核心技术解析人脸识别技术是门禁系统的核心，其关键在于对人脸特征的精准提取与匹配。OpenCV作为开源计算机视觉库，提供了丰富的人脸检测算法，如Haar
使用中转API在Python中调用大型语言模型 (LLM) 的实践** qq_37836323 python 语言模型开发语言
**在人工智能技术中，大型语言模型(LLM)已成为自然语言处理(NLP)和生成任务的重要工具。然而，由于网络限制，直接访问OpenAI的API在中国可能面临挑战。因此，本文将介绍如何使用中转API地址http://api.wlai.vip来调用LLM，并提供相关的demo代码。什么是大型语言模型(LLM)？大型语言模型是一种深度学习模型，训练于大量文本数据上，能够生成、总结、翻译和回答问题等。Op
【免费下载】探索PlantVillage-Dataset：深度学习在植物病害检测中的革命性突破
探索PlantVillage-Dataset：深度学习在植物病害检测中的革命性突破在这个数字化时代，人工智能正逐步改变我们的生活，其中深度学习在农业领域的应用尤其引人注目。PlantVillage-Dataset是一个开放源代码的项目，它提供了一个庞大的植物病害识别数据集，旨在帮助开发人员和研究者利用机器学习技术改善农作物健康状况的监测。本文将深入探讨该项目的技术细节、应用价值及其独特之处。项目简
Python爬虫【五十八章】Python数据清洗与分析全攻略：从Pandas到深度学习的异常检测进阶程序员_CLUB Python入门到进阶 python 爬虫 pandas
目录背景与需求分析第一章：结构化数据清洗实战（Pandas核心技法）1.1数据去重策略矩阵1.2智能缺失值处理体系第二章：深度学习异常检测进阶2.1自动编码器异常检测（时序数据）2.2图神经网络异常检测（关系型数据）第三章：综合案例实战案例1：金融交易反欺诈系统案例2：工业传感器异常检测第四章：性能优化与工程实践4.1大数据处理加速技巧4.2模型部署方案第五章：方法论总结与展望5.1方法论框架5.
【AI大模型：前沿】43、Mamba架构深度解析：为什么它是Transformer最强挑战者？无心水架构 transformer Mamba Mamba架构 AI大模型系统开发实战 AI大模型高手开发 AI大模型系统实战
Transformer架构自2017年诞生以来，一直是NLP、计算机视觉等领域的“统治级”模型架构。但随着序列长度需求的增长（如128K长文本处理、基因组学超长序列分析），其自注意力机制的O(n2)O(n^2)O(n2)计算复杂度成为难以逾越的瓶颈。2023年底，由AlbertGu和TriDao等人提出的Mamba架构，通过创新的“选择性状态空间模型（SelectiveSSM）”实现了线性复杂度（
大模型【进阶】（一）MoE（mixture of experts）混合专家结构 ReinaXue 人工智能笔记语言模型神经网络
什么是MoE结构？MoE（MixtureofExperts，专家混合模型）是一种深度学习模型架构，通常用于处理大规模模型和计算资源效率的挑战。在MoE结构中，模型由多个“专家”组成，每个专家处理不同的任务或输入数据的不同部分，而不是让所有专家都参与每次计算。这种方式提高了计算效率，并在某些情况下有助于增强模型的表现。MoE结构的核心思想专家：在MoE模型中，专家通常指的是网络中的子模型，每个专家具
【YOLO系列】YOLOv1详解：模型结构、损失函数、训练方法及代码实现一碗白开水一 yolo系列助你拿捏AI算法 YOLO 人工智能目标检测计算机视觉
YOLOv1（YouOnlyLookOnce）：实时目标检测的革命性突破✨motivation在目标检测领域，传统方法如R-CNN系列存在计算冗余、推理速度慢的问题。2016年提出的YOLO（YouOnlyLookOnce）首次实现端到端单阶段检测，将检测速度提升至45FPS（FasterR-CNN仅7FPS），彻底改变了实时目标检测的格局。其核心思想是将检测视为回归问题，实现"看一眼即知全貌"的
【三维目标检测】Complex-Yolov4详解（二）：模型结构 Coding的叶子 Python三维点云实战宝典 Complex-Yolo Complex-Yolov4 三维目标检测目标检测 python
本文为博主原创文章，未经博主允许不得转载。本文为专栏《python三维点云从基础到深度学习》系列文章，地址为“https://blog.csdn.net/suiyingy/article/details/124017716”。Complex-Yolo网络模型的核心思想是用鸟瞰图BEV替换Yolo网络输入的RGB图像。因此，在完成BEV处理之后，模型的训练和推理过程基本和Yolo完全一致。Yolov
YOLOv4详细介绍不是二哈的柯基 YOLO系列深度学习 pdf YOLO 计算机视觉
YOLOv4是一种目标检测算法，是YOLO(YouOnlyLookOnce)系列的最新版本，由AlexeyBochkovskiy、Chien-YaoWang和Hong-YuanMarkLiao共同提出。相比于之前的版本，YOLOv4在速度和精度方面都有了显著的提升。下面是YOLOv4的一些详细介绍：模型结构YOLOv4采用了一种新的模型结构，称为CSPDarknet。这个结构类似于ResNet的残
YOLOv4 介绍及其模型优化方法
1、YOLOv4介绍2020年4月，YOLOv4在悄无声息中重磅发布，在目标检测领域引起广泛的讨论。在YOLO系列的原作者JosephRedmon宣布退出CV领域后，表明官方不再更新YOLOv3。但在过去的两年中，AlexeyAB继承了YOLO系列的思想和理念，在YOLOv3的基础上不断进行改进和开发，于今年4月发布YOLOv4，并得到了原作者JosephRedmon的承认。YOLOv4可以使用传
apache 安装linux windows 墙头上一根草 apache inux windows
linux安装Apache 有两种方式一种是手动安装通过二进制的文件进行安装，另外一种就是通过yum 安装，此中安装方式，需要物理机联网。以下分别介绍两种的安装方式通过二进制文件安装Apache需要的软件有apr,apr-util,pcre 1，安装 apr 下载地址：htt
fill_parent、wrap_content和match_parent的区别 Cb123456 match_parent fill_parent
fill_parent、wrap_content和match_parent的区别: 1）fill_parent 设置一个构件的布局为fill_parent将强制性地使构件扩展，以填充布局单元内尽可能多的空间。这跟Windows控件的dockstyle属性大体一致。设置一个顶部布局或控件为fill_parent将强制性让它布满整个屏幕。 2） wrap_conte
网页自适应设计天子之骄 html css 响应式设计页面自适应
网页自适应设计网页对浏览器窗口的自适应支持变得越来越重要了。自适应响应设计更是异常火爆。再加上移动端的崛起，更是如日中天。以前为了适应不同屏幕分布率和浏览器窗口的扩大和缩小，需要设计几套css样式，用js脚本判断窗口大小，选择加载。结构臃肿，加载负担较大。现笔者经过一定时间的学习，有所心得，故分享于此，加强交流，共同进步。同时希望对大家有所
[sql server] 分组取最大最小常用sql 一炮送你回车库 SQL Server
--分组取最大最小常用sql--测试环境if OBJECT_ID('tb') is not null drop table tb;gocreate table tb( col1 int, col2 int, Fcount int)insert into tbselect 11,20,1 union allselect 11,22,1 union allselect 1
ImageIO写图片输出到硬盘 3213213333332132 java image
package awt; import java.awt.Color; import java.awt.Font; import java.awt.Graphics; import java.awt.image.BufferedImage; import java.io.File; import java.io.IOException; import javax.imagei
自己的String动态数组宝剑锋梅花香 java 动态数组数组
数组还是好说，学过一两门编程语言的就知道，需要注意的是数组声明时需要把大小给它定下来，比如声明一个字符串类型的数组：String str[]=new String[10]; 但是问题就来了，每次都是大小确定的数组，我需要数组大小不固定随时变化怎么办呢？动态数组就这样应运而生，龙哥给我们讲的是自己用代码写动态数组，并非用的ArrayList 看看字符
pinyin4j工具类 darkranger .net
pinyin4j工具类Java工具类 2010-04-24 00:47:00 阅读69 评论0 字号：大中小引入pinyin4j-2.5.0.jar包: pinyin4j是一个功能强悍的汉语拼音工具包，主要是从汉语获取各种格式和需求的拼音，功能强悍，下面看看如何使用pinyin4j。本人以前用AscII编码提取工具，效果不理想，现在用pinyin4j简单实现了一个。功能还不是很完美，
StarUML学习笔记----基本概念 aijuans UML建模
介绍StarUML的基本概念，这些都是有效运用StarUML?所需要的。包括对模型、视图、图、项目、单元、方法、框架、模型块及其差异以及UML轮廓。模型、视与图（Model, View and Diagram） &
Activiti最终总结 avords Activiti id 工作流
1、流程定义ID：ProcessDefinitionId，当定义一个流程就会产生。 2、流程实例ID：ProcessInstanceId，当开始一个具体的流程时就会产生，也就是不同的流程实例ID可能有相同的流程定义ID。 3、TaskId，每一个userTask都会有一个Id这个是存在于流程实例上的。 4、TaskDefinitionKey和（ActivityImpl activityId
从省市区多重级联想到的，react和jquery的差别 bee1314 jquery UI react
在我们的前端项目里经常会用到级联的select，比如省市区这样。通常这种级联大多是动态的。比如先加载了省，点击省加载市，点击市加载区。然后数据通常ajax返回。如果没有数据则说明到了叶子节点。针对这种场景，如果我们使用jquery来实现，要考虑很多的问题，数据部分，以及大量的dom操作。比如这个页面上显示了某个区，这时候我切换省，要把市重新初始化数据，然后区域的部分要从页面
Eclipse快捷键大全 bijian1013 java eclipse 快捷键
Ctrl+1 快速修复(最经典的快捷键,就不用多说了)Ctrl+D: 删除当前行 Ctrl+Alt+↓ 复制当前行到下一行(复制增加)Ctrl+Alt+↑ 复制当前行到上一行(复制增加)Alt+↓ 当前行和下面一行交互位置(特别实用,可以省去先剪切,再粘贴了)Alt+↑ 当前行和上面一行交互位置(同上)Alt+← 前一个编辑的页面Alt+→ 下一个编辑的页面(当然是针对上面那条来说了)Alt+En
js 笔记函数征客丶 JavaScript
一、函数的使用 1.1、定义函数变量 var vName = funcation(params){ } 1.2、函数的调用函数变量的调用： vName(params); 函数定义时自发调用：(function(params){})(params); 1.3、函数中变量赋值 var a = 'a'; var ff
【Scala四】分析Spark源代码总结的Scala语法二 bit1129 scala
1. Some操作在下面的代码中，使用了Some操作：if (self.partitioner == Some(partitioner))，那么Some(partitioner)表示什么含义？首先partitioner是方法combineByKey传入的变量， Some的文档说明： /** Class `Some[A]` represents existin
java 匿名内部类 BlueSkator java匿名内部类
组合优先于继承 Java的匿名类，就是提供了一个快捷方便的手段，令继承关系可以方便地变成组合关系继承只有一个时候才能用，当你要求子类的实例可以替代父类实例的位置时才可以用继承。在Java中内部类主要分为成员内部类、局部内部类、匿名内部类、静态内部类。内部类不是很好理解，但说白了其实也就是一个类中还包含着另外一个类如同一个人是由大脑、肢体、器官等身体结果组成，而内部类相
盗版win装在MAC有害发热，苹果的东西不值得买，win应该不用 ljy325 游戏 apple windows XP OS
Mac mini 型号: MC270CH-A RMB:5,688 Apple 对windows的产品支持不好,有以下问题: 1.装完了xp,发现机身很热虽然没有运行任何程序！貌似显卡跑游戏发热一样，按照那样的发热量,那部机子损耗很大,使用寿命受到严重的影响! 2.反观安装了Mac os的展示机，发热量很小，运行了1天温度也没有那么高 &nbs
读《研磨设计模式》-代码笔记-生成器模式-Builder bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /** * 生成器模式的意图在于将一个复杂的构建与其表示相分离，使得同样的构建过程可以创建不同的表示（GoF） * 个人理解： * 构建一个复杂的对象，对于创建者（Builder）来说，一是要有数据来源(rawData)，二是要返回构
JIRA与SVN插件安装 chenyu19891124 SVN jira
JIRA安装好后提交代码并要显示在JIRA上，这得需要用SVN的插件才能看见开发人员提交的代码。 1.下载svn与jira插件安装包，解压后在安装包(atlassian-jira-subversion-plugin-0.10.1) 2.解压出来的包里下的lib文件夹下的jar拷贝到(C:\Program Files\Atlassian\JIRA 4.3.4\atlassian-jira\WEB
常用数学思想方法 comsci 工作
对于搞工程和技术的朋友来讲，在工作中常常遇到一些实际问题，而采用常规的思维方式无法很好的解决这些问题，那么这个时候我们就需要用数学语言和数学工具，而使用数学工具的前提却是用数学思想的方法来描述问题。。下面转帖几种常用的数学思想方法，仅供学习和参考函数思想　　把某一数学问题用函数表示出来，并且利用函数探究这个问题的一般规律。这是最基本、最常用的数学方法
pl/sql集合类型 daizj oracle 集合 type pl/sql
--集合类型 /* 单行单列的数据，使用标量变量单行多列数据，使用记录单列多行数据，使用集合（。。。） *集合：类似于数组也就是。pl/sql集合类型包括索引表（pl/sql table）、嵌套表（Nested Table）、变长数组（VARRAY）等 */ /* --集合方法 &n
[Ofbiz]ofbiz初用 dinguangx 电商 ofbiz
从github下载最新的ofbiz（截止2015-7-13），从源码进行ofbiz的试用 1. 加载测试库 ofbiz内置derby，通过下面的命令初始化测试库 ./ant load-demo (与load-seed有一些区别) 2. 启动内置tomcat ./ant start 或 ./startofbiz.sh 或 java -jar ofbiz.jar &
结构体中最后一个元素是长度为0的数组 dcj3sjt126com c gcc
在Linux源代码中，有很多的结构体最后都定义了一个元素个数为0个的数组，如/usr/include/linux/if_pppox.h中有这样一个结构体： struct pppoe_tag { __u16 tag_type; __u16 tag_len; &n
Linux cp 实现强行覆盖 dcj3sjt126com linux
发现在Fedora 10 /ubutun 里面用cp -fr src dest，即使加了-f也是不能强行覆盖的，这时怎么回事的呢？一两个文件还好说，就输几个yes吧，但是要是n多文件怎么办，那还不输死人呢？下面提供三种解决办法。方法一我们输入alias命令，看看系统给cp起了一个什么别名。 [root@localhost ~]# aliasalias cp=’cp -i’a
Memcached(一)、HelloWorld frank1234 memcached
一、简介高性能的架构离不开缓存，分布式缓存中的佼佼者当属memcached，它通过客户端将不同的key hash到不同的memcached服务器中，而获取的时候也到相同的服务器中获取，由于不需要做集群同步，也就省去了集群间同步的开销和延迟，所以它相对于ehcache等缓存来说能更好的支持分布式应用，具有更强的横向伸缩能力。二、客户端选择一个memcached客户端，我这里用的是memc
Search in Rotated Sorted Array II hcx2013 search
Follow up for "Search in Rotated Sorted Array":What if duplicates are allowed? Would this affect the run-time complexity? How and why? Write a function to determine if a given ta
Spring4新特性——更好的Java泛型操作API jinnianshilongnian spring4 generic type
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
CentOS安装JDK liuxingguome centos
1、行卸载原来的： [root@localhost opt]# rpm -qa | grep java tzdata-java-2014g-1.el6.noarch java-1.7.0-openjdk-1.7.0.65-2.5.1.2.el6_5.x86_64 java-1.6.0-openjdk-1.6.0.0-11.1.13.4.el6.x86_64 [root@localhost
二分搜索专题2-在有序二维数组中搜索一个元素 OpenMind 二维数组算法二分搜索
1,设二维数组p的每行每列都按照下标递增的顺序递增。用数学语言描述如下：p满足 (1),对任意的x1，x2，y，如果x1<x2,则p(x1,y)<p(x2,y); (2),对任意的x，y1,y2, 如果y1<y2,则p(x,y1)<p(x,y2); 2,问题：给定满足1的数组p和一个整数k，求是否存在x0,y0使得p(x0,y0)=k? 3,算法分析： (
java 随机数 Math与Random SaraWon java Math Random
今天需要在程序中产生随机数，知道有两种方法可以使用，但是使用Math和Random的区别还不是特别清楚，看到一篇文章是关于的，觉得写的还挺不错的，原文地址是 http://www.oschina.net/question/157182_45274?sort=default&p=1#answers 产生1到10之间的随机数的两种实现方式： //Math Math.roun
oracle创建表空间 tugn oracle
create temporary tablespace TXSJ_TEMP tempfile 'E:\Oracle\oradata\TXSJ_TEMP.dbf' size 32m autoextend on next 32m maxsize 2048m extent m
使用Java8实现自己的个性化搜索引擎 yangshangchuan java superword 搜索引擎 java8 全文检索
需要对249本软件著作实现句子级别全文检索，这些著作均为PDF文件，不使用现有的框架如lucene，自己实现的方法如下： 1、从PDF文件中提取文本，这里的重点是如何最大可能地还原文本。提取之后的文本，一个句子一行保存为文本文件。 2、将所有文本文件合并为一个单一的文本文件，这样，每一个句子就有一个唯一行号。 3、对每一行文本进行分词，建立倒排表，倒排表的格式为：词=包含该词的总行数N=行号