xionghao-coder

【转载】faster R-CNN 一篇很好的博客和 Pytorch下的代码+英文博客

原文地址：https://senitco.github.io/2017/09/02/faster-rcnn/

R-CNN是目标检测领域中十分经典的方法，相比于传统的手工特征，R-CNN将卷积神经网络引入，用于提取深度特征，后接一个分类器判决搜索区域是否包含目标及其置信度，取得了较为准确的检测结果。Fast R-CNN和Faster R-CNN是R-CNN的升级版本，在准确率和实时性方面都得到了较大提升。在Fast R-CNN中，首先需要使用Selective Search的方法提取图像的候选目标区域(Proposal)。而新提出的Faster R-CNN模型则引入了RPN网络(Region Proposal Network)，将Proposal的提取部分嵌入到内部网络，实现了卷积层特征共享，Fast R-CNN则基于RPN提取的Proposal做进一步的分类判决和回归预测，因此，整个网络模型可以完成端到端的检测任务，而不需要先执行特定的候选框搜索算法，显著提升了算法模型的实时性。

模型概述

Faster R-CNN模型主要由两个模块组成：RPN候选框提取模块和Fast R-CNN检测模块，如下图所示，又可细分为4个部分；Conv Layer，Region Proposal Network(RPN)，RoI Pooling，Classification and Regression。

Faster R-CNN网络模型

Conv Layer: 卷积层包括一系列卷积(Conv + Relu)和池化(Pooling)操作，用于提取图像的特征(feature maps)，一般直接使用现有的经典网络模型ZF或者VGG16，而且卷积层的权值参数为RPN和Fast RCNN所共享，这也是能够加快训练过程、提升模型实时性的关键所在。
Region Proposal Network: RPN网络用于生成区域候选框Proposal，基于网络模型引入的多尺度Anchor，通过Softmax对anchors属于目标(foreground)还是背景(background)进行分类判决，并使用Bounding Box Regression对anchors进行回归预测，获取Proposal的精确位置，并用于后续的目标识别与检测。
RoI Pooling: 综合卷积层特征feature maps和候选框proposal的信息，将propopal在输入图像中的坐标映射到最后一层feature map(conv5-3)中，对feature map中的对应区域进行池化操作，得到固定大小(7×7

)输出的池化结果，并与后面的全连接层相连。
Classification and Regression: 全连接层后接两个子连接层——分类层(cls)和回归层(reg)，分类层用于判断Proposal的类别，回归层则通过bounding box regression预测Proposal的准确位置。

下图为Faster R-CNN测试网络结构(网络模型文件为faster_rcnn_test.pt)，可以清楚地看到图像在网络中的前向计算过程。对于一幅任意大小P×Q

的图像，首先缩放至固定大小M×N(源码中是要求长边不超过1000，短边不超过600)，然后将缩放后的图像输入至采用VGG16模型的Conv Layer中，最后一个feature map为conv5-3，特征数(channels)为512。RPN网络在特征图conv5-3上执行3×3

卷积操作，后接一个512维的全连接层，全连接层后接两个子连接层，分别用于anchors的分类和回归，再通过计算筛选得到proposals。RoIs Pooling层则利用Proposal从feature maps中提取Proposal feature进行池化操作，送入后续的Fast R-CNN网络做分类和回归。RPN网络和Fast R-CNN网络中均有分类和回归，但两者有所不同，RPN中分类是判断conv5-3中对应的anchors属于目标和背景的概率(score)，并通过回归获取anchors的偏移和缩放尺度，根据目标得分值筛选用于后续检测识别的Proposal；Fast R-CNN是对RPN网络提取的Proposal做分类识别，并通过回归参数调整得到目标(Object)的精确位置。具体的训练过程会在后面详述。接下来会重点介绍RPN网络和Fast R-CNN网络这两个模块，包括RPN网络中引入的Anchor机制、训练数据的生成、分类和回归的损失函数(Loss Function)计算以及RoI Pooling等。

Fast R-CNN test网络结构

Region Proposal Network(RPN)

传统的目标检测方法中生成候选框都比较耗时，例如使用滑动窗口加图像金字塔的方式遍历图像，获取多尺度的候选区域；以及R-CNN、Fast R-CNN中均使用到的Selective Search的方法生成候选框。而Faster R-CNN则直接使用RPN网络，将检测框Proposal的提取嵌入到网络内部，通过共享卷积层参数的方式提升了Proposal的生成速度。

Anchor

Anchor是RPN网络中一个较为重要的概念，传统的检测方法中为了能够得到多尺度的检测框，需要通过建立图像金字塔的方式，对图像或者滤波器(滑动窗口)进行多尺度采样。RPN网络则是使用一个3×3

的卷积核，在最后一个特征图(conv5-3)上滑动，将卷积核中心对应位置映射回输入图像，生成3种尺度(scale){1282,2562,5122}和3种长宽比(aspect ratio){1:1,1:2,2:1}共9种Anchor，如下图所示。特征图conv5-3每个位置都对应9个anchors，如果feature map的大小为W×H，则一共有W×H×9

个anchors，滑动窗口的方式保证能够关联conv5-3的全部特征空间，最后在原图上得到多尺度多长宽比的anchors。

Anchor示意图

最后一个feature map后面会接一个全连接层，如下图所示，全连接的维数和feature map的特征数(channels)相同。对于原论文中采用的ZF模型，conv5的特征数为256，全连接层的维数也为256；对于VGG模型，conv5-3的特征数为512，全连接的的维数则为512，相当于feature map上的每一个点都输出一个512维的特征向量。

RPN网络结构

关于anchors还有几点需要说明：

conv5-3上使用了3×3

的卷积核，每个点都可以关联局部邻域的空间信息。
conv5-3上每个点前向映射得到k(k=9)个anchors，并且后向输出512维的特征向量，而anchors的作用是分类和回归得到Proposal，因此全连接层后须接两个子连接层————分类层(cls)和回归层(reg)，分类层用于判断anchors属于目标还是背景，向量维数为2k；回归层用于计算anchors的偏移量和缩放量，共4个参数[dx,dy,dw,dh]

，向量维数为4k。

训练样本的生成

一般而言，特征图conv5-3的实际尺寸大致为60×40

，那么一共可以生成60×40×9≈20k

个anchors，显然不会将所有anchors用于训练，而是筛选一定数量的正负样本。对于数据集中包含有人工标定ground truth的图像，考虑一张图像上所有anchors:

首先过滤掉超出图像边界的anchors
对每个标定的ground truth，与其重叠比例IoU最大的anchor记为正样本，这样可以保证每个ground truth至少对应一个正样本anchor
对每个anchors，如果其与某个ground truth的重叠比例IoU大于0.7，则记为正样本(目标)；如果小于0.3，则记为负样本(背景)
再从已经得到的正负样本中随机选取256个anchors组成一个minibatch用于训练，而且正负样本的比例为1:1,；如果正样本不够，则补充一些负样本以满足256个anchors用于训练，反之亦然。

Multi-task Loss Function

由于涉及到分类和回归，所以需要定义一个多任务损失函数(Multi-task Loss Function)，包括Softmax Classification Loss和Bounding Box Regression Loss，公式定义如下：

L({pi},{ti})=1NclsΣiLcls(pi,p∗i)+λ1NregΣip∗iLreg(ti,t∗i)

Softmax Classification：对于RPN网络的分类层(cls)，其向量维数为2k = 18，考虑整个特征图conv5-3，则输出大小为W×H×18，正好对应conv5-3上每个点有9个anchors，而每个anchor又有两个score(fg/bg)输出，对于单个anchor训练样本，其实是一个二分类问题。为了便于Softmax分类，需要对分类层执行reshape操作，这也是由底层数据结构决定的。在caffe中，Blob的数据存储形式为Blob=[batch_size,channel,height,width]，而对于分类层(cls)，其在Blob中的实际存储形式为[1,2k,H,W]，而Softmax针对每个anchor进行二分类，所以需要在分类层后面增加一个reshape layer，将数据组织形式变换为[1,2,k∗H,W]

，之后再reshape回原来的结构，caffe中有对softmax_loss_layer.cpp的reshape函数做如下解释：

"Number of labels must match number of predictions; "

"e.g., if softmax axis == 1 and prediction shape is (N, C, H, W), "

"label count (number of labels) must be N*H*W, "

"with integer values in {0, 1, ..., C-1}.";

在上式中，pi

为样本分类的概率值，p∗i为样本的标定值(label)，anchor为正样本时p∗i为1，为负样本时p∗i为0，Lcls为两种类别的对数损失(log loss)。
Bounding Box Regression：RPN网络的回归层输出向量的维数为4k = 36，回归参数为每个样本的坐标[x,y,w,h]，分别为box的中心位置和宽高，考虑三组参数预测框(predicted box)坐标[x,y,w,h]，anchor坐标[xa,ya,wa,ha]，ground truth坐标[x∗,y∗,w∗,h∗]，分别计算预测框相对anchor中心位置的偏移量以及宽高的缩放量{t}，ground truth相对anchor的偏移量和缩放量{t∗}

tx=(x−xa)/wa, ty=(y−ya)/ha, tw=log(w/wa), th=log(h/ha) (1)

t∗x=(x∗−xa)/wa, t∗y=(y∗−ya)/ha, t∗w=log(w∗/wa), t∗h=log(h∗/ha) (2)

回归目标就是让{t}尽可能地接近{t∗}，所以回归真正预测输出的是{t}，而训练样本的标定真值为{t∗}。得到预测输出{t}后，通过上式(1)即可反推获取预测框的真实坐标。在损失函数中，回归损失采用Smooth L1函数

SmoothL1(x)={0.5x2 |x|≤1|x|−0.5 otherwise

Lreg=SmoothL1(t−t∗)

Smooth L1损失函数曲线如下图所示，相比于L2损失函数，L1对离群点或异常值不敏感，可控制梯度的量级使训练更易收敛。

Smooth L1损失函数

在损失函数中，p∗iLreg

这一项表示只有目标anchor(p∗i=1)才有回归损失，其他anchor不参与计算。这里需要注意的是，当样本bbox和ground truth比较接近时(IoU大于某一阈值)，可以认为上式的坐标变换是一种线性变换，因此可将样本用于训练线性回归模型，否则当bbox与ground truth离得较远时，就是非线性问题，用线性回归建模显然不合理，会导致模型不work。分类层(cls)和回归层(reg)的输出分别为{p}和{t}，两项损失函数分别由Ncls和Nreg以及一个平衡权重λ归一化。分类损失的归一化值为minibatch的大小，即Ncls=256；回归损失的归一化值为anchor位置的数量，即Nreg≈2400；λ

一般取值为10，这样分类损失和回归损失差不多是等权重的。

Proposal的生成

Proposal的生成就是将图像输入到RPN网络中进行一次前向(forward)计算，处理流程如下：

计算特征图conv5-3映射到输入图像的所有anchors，并通过RPN网络前向计算得到anchors的score输出和bbox回归参数
由anchors坐标和bbox回归参数计算得到预测框proposal的坐标
处理proposal坐标超出图像边界的情况(使得坐标最小值为0，最大值为宽或高)
滤除掉尺寸(宽高)小于给定阈值的proposal
对剩下的proposal按照目标得分(fg score)从大到小排序，提取前pre_nms_topN(e.g. 6000)个proposal
对提取的proposal进行非极大值抑制(non-maximum suppression,nms)，再根据nms后的foreground score，筛选前post_nms_topN(e.g. 300)个proposal作为最后的输出

Fast R-CNN

对于RPN网络中生成的proposal，需要送入Fast R-CNN网络做进一步的精确分类和坐标回归，但proposal的尺寸可能大小不一，所以需要做RoI Pooling，输出统一尺寸的特征，再与后面的全连接层相连。

RoI Pooling

对于传统的卷积神经网络，当网络训练好后输入图像的尺寸必须是固定值，同时网络输出的固定大小的向量或矩阵。如果输入图像大小不统一，则需要进行特殊处理，如下图所示：

从图像中crop一部分传入网络
将图像warp成需要的大小后传入网络

crop与warp操作

可以从图中看出，crop操作破坏了图像的完整结构，warp操作破坏了图像的原始形状信息，两种方法的效果都不太理想。RPN网络生成的proposal也存在尺寸不一的情况，但论文中提出了RoI Pooling的方法解决这个问题。

RoI Pooling结合特征图conv5-3和proposal的信息，proposal在输入图像中的坐标[x1,y1,x2,y2]

对应M×N尺度，将proposal的坐标映射到M16×N16大小的conv5-3中，然后将Proposal在conv5-3的对应区域水平和竖直均分为7等份，并对每一份进行Max Pooling或Average Pooling处理，得到固定大小(7×7

)输出的池化结果，实现固定长度输出(fixed-length output)，如下图所示。

RoI Pooling示意图

Classification and Regression

RoI Pooling层后接多个全连接层，最后为两个子连接层——分类层(cls)和回归层(reg)，如下图所示，和RPN的输出类似，只不过输出向量的维数不一样。如果类别数为N+1(包括背景)，分类层的向量维数为N+1，回归层的向量维数则为4(N+1)。还有一个关键问题是RPN网络输出的proposal如何组织成Fast R-CNN的训练样本：

对每个proposal，计算其与所有ground truth的重叠比例IoU
筛选出与每个proposal重叠比例最大的ground truth
如果proposal的最大IoU大于0.5则为目标(前景)，标签值(label)为对应ground truth的目标分类；如果IoU小于0.5且大于0.1则为背景，标签值为0
从2张图像中随机选取128个proposals组成一个minibatch，前景和背景的比例为1:3
计算样本proposal与对应ground truth的回归参数作为标定值，并且将回归参数从(4,)拓展为(4(N+1),)，只有对应类的标定值才为非0。
设定训练样本的回归权值，权值同样为4(N+1)维，且只有样本对应标签类的权值才为非0。

在源码实现中，用于训练Fast R-CNN的Proposal除了RPN网络生成的，还有图像的ground truth，这两者归并到一起，然后通过筛选组成minibatch用于迭代训练。Fast R-CNN的损失函数也与RPN类似，二分类变成了多分类，背景同样不参与回归损失计算，且只考虑proposal预测为标签类的回归损失。

Classification and Regression

Faster R-CNN的训练

对于提取proposals的RPN，以及分类回归的Fast R-CNN，如何将这两个网络嵌入到同一个网络结构中，训练一个共享卷积层参数的多任务(Multi-task)网络模型。源码中有实现交替训练(Alternating training)和端到端训练(end-to-end)两种方式，这里介绍交替训练的方法。

训练RPN网络，用ImageNet模型M0初始化，训练得到模型M1
利用第一步训练的RPN网络模型M1，生成Proposal P1
使用上一步生成的Proposal，训练Fast R-CNN网络，同样用ImageNet模型初始化，训练得到模型M2
训练RPN网络，用Fast R-CNN网络M2初始化，且固定卷积层参数，只微调RPN网络独有的层，训练得到模型M3
利用上一步训练的RPN网络模型M3，生成Proposal P2
训练Fast R-CNN网络，用RPN网络模型M3初始化，且卷积层参数和RPN参数不变，只微调Fast R-CNN独有的网络层，得到最终模型M4

由训练流程可知，第4步训练RPN网络和第6步训练Fast R-CNN网络实现了卷积层参数共享。总体上看，训练过程只循环了2次，但每一步训练(M1，M2，M3，M4)都迭代了多次(e.g. 80k，60k)。对于固定卷积层参数，只需将学习率(learning rate)设置为0即可。

源码解析

以上关于RPN的训练，Proposal的生成，以及Fast R-CNN的训练做了的详细讲解，接下来结合网络模型图和部分源码，对这些模块做进一步的分析。

train RPN

训练RPN的网络结构如下图所示，首先加载参数文件，并改动一些参数适应当前训练任务。在train_rpn函数中调用get_roidb、get_imdb、get_train_imdb_roidb等获取训练数据集，并通过调用gt_roidb和prepare_roidb方法对训练数据进行预处理，为样本增添一些属性，数据集roidb中的每个图像样本，主要有以下属性：

'image':图像存储路径

'width':图像宽

'height':图像高

'boxes':图像中bbox(groundtruth or proposal)的坐标[x1,y1,x2,y2]

'gt_classes':每个bbox对应的类索引(1~20)

'gt_overlaps':二维数组，shape=[num_boxes * num_classes]，每个bbox(ground truth)对应的类索引处取值为1，其余为0

'flipped':取值为True/False，用于标记有无将图像水平翻转

'seg_area':bbox的面积

'max_classes':bbox与所有ground truth的重叠比例IoU最大的类索引(gt_overlaps.argmax(axis=1))

'max_overlaps':bbox与所有ground truth的IoU最大值(gt_overlaps.max(axis=1))

train_rpn_model

获取数据集roidb中字典的属性后，设置输出路径output_dir，用来保存中间训练结果，然后调用train_net函数。在train_net函数中，首先调用filter_roidb，滤除掉既没有前景又没有背景的roidb。然后调用layer.py中的set_roidb方法，打乱训练样本roidb的顺序，将roidb中长宽比近似的图像放在一起。之后开始训练模型train_model，这里需要实例化每个层，对于第一层RoIDataLayer，通过setup方法进行实例化，并且在训练过程中通过forward方法，调用get_minibatch函数，获取每一次迭代训练的数据，在读取数据时，主要获取了3个属性组成Layer中的Blob

'data':单张图像数据im_blob=[1,3,H,W]

'gt_boxes':一幅图像中所有ground truth的坐标和类别[x1,y1,x2,y2,cls]

'im_info':图像的宽高和缩放比例 height,width,scale = [[im_blob.shape[2], im_blob.shape[2], im_scale[0]]]

从网络结构图中可以看出，input-data(RoIDataLayer)的下一层是rpn-data(AnchorTargetLayer)，rpn-data计算所有anchors与ground truth的重叠比例IoU，从中筛选出一定数量(256)的正负样本组成一个minibatch，用于RPN网络的训练，这一层的输出有如下属性：

'rpn_label':每个anchor对应的类别(1——fg，0——bg，-1——ignored)，shape=[1,1,A*height,width]

'rpn_bbox_targets':anchor与ground truth的回归参数[dx,dy,dw,dh]，shape=[1,A*4,height,width]

'rpn_box_inside_targets':回归损失函数中的样本权值，正样本为1，负样本为0，相当于损失函数中的p*，shape=[1,A*4,height,width]

'rpn_box_outside_targets':分类损失函数和回归损失函数的平衡权重，相当于λ，shape=[1,A*4,height,width]

注：height、width为特征图conv5-3的高宽，A=9为Anchor种数

对于分类损失rpn_loss_cls，输入的rpn_cls_scors_reshape和rpn_labels分别对应p

与p∗；对于回归损失，输入的rpn_bbox_pred和rpn_bbox_targets分别对应{t}与{t∗}，pn_bbox_inside_weigths对应p∗，rpn_bbox_outside_weights对应λ

。

generate proposals

Proposal的生成只需将图像输入到RPN网络中，进行前向(forward)计算然后经过筛选即可得到，网络结构如下图所示

generate proposals

从rpn_proposals = imdb_proposals(rpn_net, imdb)开始，使用im = cv2.imread(imdb.image_path_at(i))读入图片数据，调用 im_proposals生成单张图片的rpn proposals，以及得分。im_proposals函数会调用网络的forward方法，从而得到想要的boxes和scores，最后将获取的proposal保存在python pickle文件中。

train Fast R-CNN

训练Fast R-CNN的网络结构如下图所示，首先设置参数适应训练任务，在预处理数据时，调用的不再是gt_roidb方法，而是rpn_roidb，通过使用类imdb的静态方法merge_roidb，将rpn_roidb和gt_roidb归并为一个roidb，因此数据集中的’boxes’属性除了包含ground truth，还有RPN网络生成的proposal，可通过上一步保存的文件直接读取。通过add_bbox_regression_targets方法给roidb的样本增添了额外的属性’bbox_targets’，用于表示回归参数的标定值。属性’gt_overlaps’是所有proposal与ground truth通过计算IoU得到的。最后就是调用get_minibatch方法从2张图像中选取128个proposal作为一次迭代的训练样本，读取数据时，获取如下属性组成Layer中的Blob

'data':图像数据

'rois':proposals的坐标[batch_inds,x1,y1,x2,y2]

'label':proposals对应的类别(0~20)

'bbox_targets':proposal回归参数的标定值，shape = [128, 4(N+1)]

'box_inside_targets':回归损失函数中的样本权值，正样本为1，负样本为0，相当于损失函数中的p*

'rpn_box_outside_targets':分类损失函数和回归损失函数的平衡权重，相当于λ

train_fast_rcnn_model

损失函数的计算与RPN网络类似。在Faster R-CNN中，自定义的Python Layer包括RoIDataLayer、AnchorTargetLay、ProposalLayer，都只实现了前向计算forward，因为这些Layer的作用是获取用于训练网络的数据，而对网络本身没有贡献任何权值参数，也不传播梯度值，因此不需要实现反向传播backward。

reference

Paper: Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks
Paper: R-CNN：Rich feature hierarchies for accurate object detection and semantic segmentation
Paper: SPP-Net: Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition
Paper: Fast R-CNN
Code: Caffe implement of Faster RCNN
Code: Tensorflow implement of Faster RCNN
http://blog.csdn.net/iamzhangzhuping/article/category/6230157
http://www.infocool.net/kb/Python/201611/209696.html
http://www.cnblogs.com/venus024/p/5717766.html
http://blog.csdn.net/zy1034092330/article/details/62044941

较好的Pytorch下实现的faster R-CNN:

github:https://github.com/jwyang/faster-rcnn.pytorch

blog:www.telesens.co/2018/03/11/object-detection-and-classification-using-r-cnns/#ITEM-1455-2

最后在VOC数据集上测试后，mean AP达到了0.7253。

你可能感兴趣的:(Machine,Learning/Deep,Learning)

Deepseek技术深化：驱动大数据时代颠覆性变革的未来引擎荣华富贵8 spring boot 搜索引擎后端缓存 redis
在大数据时代，信息爆炸和数据驱动的决策逐渐重塑各行各业。作为一项前沿技术，Deepseek正在引领新一轮技术革新，颠覆传统数据处理与分析方式。本文将从理论原理、应用场景和前沿代码实践三个层面，深入剖析Deepseek技术如何为大数据时代提供颠覆性变革的解决方案。一、技术背景与核心思想1.1大数据挑战与机遇在数据量呈指数级增长的背景下，传统数据处理方法面临数据存储、计算效率和信息提取精度的诸多挑战。
学C++的五大惊人好处
为什么要学c++学c++有什么用学习c++的好处有1.中考可以加分2.高考可能直接录取3.就业广且工资高4.在未来30--50年c++一定是一个很受欢迎的职业5.c++成功的例子deepsick等AI智能C++语言兼备编程效率和编译运行效率的语言C++语言是C语言功能增强版,在c语言的基础上添加了面向对象编程和泛型编程的支持既继承了C语言高效，简洁，快速和可移植的传统,又具备类似Java、Go等其
基于DeepSeek的下一代大型游戏开发革命：架构、核心技术与项目管理实践 Liudef06小白特殊专栏人工智能 AIGC 架构人工智能 deepseek
基于DeepSeek的下一代大型游戏开发革命：架构、核心技术与项目管理实践DeepSeek大模型正重塑游戏开发范式，本文将深入解析如何利用这一革命性技术构建下一代大型游戏，涵盖从架构设计到项目管理的全流程实践。目录DeepSeek游戏引擎核心架构1.1神经符号系统融合架构1.2动态世界生成引擎智能NPC与剧情系统2.1角色人格建模技术2.2动态叙事生成算法大型项目管理体系3.1敏捷-AI混合开发流
19.0-《超越感觉》-说服他人 SAM52
Becausethoughtfuljudgmentsdeservetobeshared,andthewaytheyarepresentedcanstronglyinfluencethewayothersreacttothem.因为经过深思熟虑的判断值得分享，而这些判断的呈现方式会强烈影响其他人对它们的反应。Bylearningtheprinciplesofpersuasionandapplying
2018年中南大学中英翻译某翁
参考：20180827235856533.jpg【1】机器学习理论表明，机器学习算法能从有限个训练集样本上得到较好的泛化【1】Machinelearningtheoryshowsthatmachinelearningalgorithmcangeneralizewellfromfinitetrainingsetsampleslimited有限的infinite无限的【2】这似乎违背了一些基本的逻辑准
DeepBI助力亚马逊广告投放：精准获取竞品ASIN，抢占更多流量新置元创业创新 amazon 亚马逊广告
想在亚马逊广告投放中抢占更多流量？关键就在于精准添加竞品ASIN！通过DeepBI，你可以轻松找到与你产品高度相关的竞品，自动添加到广告中，提升曝光率。系统不仅智能分析竞品，还根据最新的数据调整出价策略，让你以最低成本获取最大回报。想要在竞争激烈的市场中脱颖而出，提升广告效果，DeepBI帮你精准定位、优化投放，让每一笔广告投入都物超所值！一、精准获取与添加竞品ASIN的重要性在亚马逊广告投放中，
如何在 Ubuntu 24.04 或 22.04 Linux 上安装和使用 NoMachine 山岚的运维笔记 Linux 运维及使用 linux ubuntu 运维 nomachine 远程连接
NoMachine是一款适用于Linux（Ubuntu）及其他支持的操作系统的远程桌面应用程序，允许用户通过本地或远程系统从世界任何地方控制计算机。它可以在低带宽连接下工作，被专业人士和家庭用户广泛使用。NoMachine的主要功能高性能远程访问跨平台兼容性易于使用，因为用户界面友好提供强大的加密协议，如SSH、SSL及其他安全标准支持远程文件传输和打印服务允许从远程计算机进行音频和视频流媒体传输
Python STL概念学习与代码实践体制教科书
本文还有配套的精品资源，点击获取简介：通过”py_stl_learning”项目，学习者可以使用Python实现和理解C++STL的概念，包括数据结构、算法、容器适配器、模板和泛型容器等。Python中的列表、集合、字典等数据结构与STL中的vector、set、map等类似，而Python的itertools和functools模块提供了STL风格的算法功能。Python通过其面向对象的特性以及
Day 2-DeepMind and London hospital focus AI on spotting eye diseases from scans 罗禹
篇章分析段落大意总起1.What-讲述DeepMindAI在健康领域的运用，及地位。分论现状及已有成果2.How-DeepMind如何运转，与过往方式人工诊断比较的优势。3.What-现阶段成果及未来发展：临床实践运用转化为学术成果，文章发表。未来将进一步进行临床实验。引用+前景4.通过引用DeepMindHealth负责人的话，来阐明未来前景。实操阐述5.What-算法机械学习的具体材料，及临床
4.ESP32-按键实验老蒋精髓 microPython 4.ESP32
4.ESP32-按键实验"""按键实验2022.10.9"""frommachineimportPinimporttimekey1=Pin(4,Pin.IN,Pin.PULL_UP)#GPIO2，设置为输出模式，输入模式为Pin.IN,设置为上拉key2=Pin(5,Pin.IN,Pin.PULL_UP
智慧建筑：科技引领房地产与建筑业的未来 RedPhoenix45
最新接入DeepSeek-V3模型，点击下载最新版本InsCodeAIIDE智慧建筑：科技引领房地产与建筑业的未来随着科技的飞速发展，人工智能（AI）和智能化工具正以前所未有的速度改变着各行各业。在房地产与建筑领域，这种变革尤为显著。从建筑设计到施工管理，再到物业管理，智能化技术正在重塑行业的每一个环节。本文将探讨如何利用先进的智能化工具提升房地产与建筑行业的效率，并介绍一款革命性的开发工具——它
智慧施工：AI技术赋能建筑安全监测新纪元
开发AI智能应用，就下载InsCodeAIIDE，一键接入DeepSeek-R1满血版大模型！智慧施工：AI技术赋能建筑安全监测新纪元在现代建筑行业中，施工安全始终是核心关注点之一。随着科技的飞速发展，人工智能（AI）和大数据分析逐渐成为提升施工安全的重要工具。本文将探讨如何利用智能化软件和大模型API来构建高效的施工安全监测系统，并介绍一款强大的开发工具——InsCodeAIIDE的应用场景及其
每周一段仿写-181028 Zeroun_Ph
Theneedfornewlearningstylesdoesnotmeanignoringthewaysinthepast.TheInternetagebringssomechallengesnotseenbefore,mostobviouslyandmostworryinglyuselessinformationblast.Butfragmentationoflearningandtheine
八大国产 AI 模型全景对比：阿里 Qwen、百度文心、腾讯混元、字节豆包、华为盘古、DeepSeek、Kimi、MiniMax 的技术解析与选型指南 charles666666 人工智能百度交互语言模型 transformer 产品经理
“在国产AI模型百花齐放的今天，企业技术决策者稍有不慎，就可能陷入性能与成本的双重困境。如何穿越技术迷雾，找到真正适配业务场景的那把钥匙？”一、开篇引言当技术选型决定企业AI落地成败，你还在凭感觉决策吗？当前国产AI模型市场，模型同质化现象严重，各厂商宣传资料中充满夸张的性能指标，但真正落地到企业实际业务场景中，却常常出现适配性不佳、部署成本不可控等问题。企业急需一份基于真实数据与场景验证的深度解
考研长难句-1-29 EasyNetCN
Onfirstlearning,thiswasthesociallyconcernedchancellortryingtochangelivesforthebetter,completewith"reforms"toanobviouslyindulgentsystemthatdemandstoolittleeffortfromthenewlyunemployedtofindwork,andsubs
Mamba架构的模型（内容由deepseek辅助汇总） Jiang_Immortals 人工智能
基于Mamba架构的模型近年来在效率和性能上展现出显著突破，以下按架构类型分类列出当前表现最出色的代表模型及其核心特点：一、纯SSM架构模型FalconMamba-7B关键创新：首个通用大规模纯Mamba模型，由阿布扎比TII开发，基于Mamba-1改进，增加RMS归一化层提升训练稳定性13。性能表现：在综合基准（IFEval、BBH、MMLU-PRO等）平均得分15.04，超越Llama3.1-
DeepSeek在大数据领域正掀起一场深刻的变革智海观潮 AI 大数据 deepseek AI
随着人工智能技术的飞速发展，DeepSeek作为一款行业领先的开源大模型，正在大数据领域掀起一场深刻的变革。其强大的数据处理和分析能力，为各行业带来了新的机遇和变革，推动数据与业务的深度融合。以下是DeepSeek在大数据领域的一些典型的潜在应用：1.加速数据处理与分析流程在传统的大数据应用中，数据收集、预处理和分析往往是一个繁琐且耗时的工程。DeepSeek凭借其高效的算法和强大的计算能力，极大
强化学习入门三（SARSA）第六五签算法模型算法人工智能
SARSA算法详解SARSA是强化学习中另一种经典的时序差分（TD）学习算法，与Q-Learning同属无模型（model-free）算法，但在更新策略上有显著差异。SARSA的名称来源于其更新公式中涉及的五个元素：状态（State）、动作（Action）、奖励（Reward）、下一状态（NextState）、下一动作（NextAction），即(S,A,R,S’,A’)。SARSA与Q-Lear
2025年最新五大顶级大模型技术对比分析报告 it_czz 人工智能
2025年最新五大顶级大模型技术对比分析报告执行摘要本报告基于2025年最新数据，深度分析当前最顶尖的5个已发布大语言模型：KimiK2(月之暗面)、Claude3.5Sonnet、GPT-4o、Gemini2.5Pro、DeepSeekR1，从技术架构、成本效益、性能表现、适配场景等多个维度进行全面对比。核心发现KimiK2：中文优化最强，超长上下文处理能力突出，本土化程度最高Claude3.5
RAGFlow 框架调研报告 it_czz 架构
RAGFlow框架调研报告1.概述RAGFlow是一个开源的检索增强生成（RAG）框架，专注于深度文档理解和高精度检索。它通过先进的文档解析能力和可视化调试功能，为企业提供了一个强大的知识库问答解决方案。1.1核心特性深度文档处理：内置DeepDoc引擎，支持复杂文档解析高精度检索：提供可视化分块和引用追踪多模态支持：支持文本、图片、PDF、Excel等多种格式开源自托管：完全开源，支持私有化部署
如何评价开课吧机器学习特训营这个课程？ cda2024 机器学习人工智能
开场：点明主题，吸引眼球在当今数据驱动的时代，机器学习（MachineLearning）已经成为各个行业不可或缺的技术之一。无论是金融、医疗、制造还是零售，机器学习的应用都为这些领域带来了巨大的变革。面对这样的趋势，许多人都希望能够掌握这门技术，从而提升自己的职业竞争力。那么，当我们谈论“如何评价开课吧机器学习特训营这个课程”时，实际上是在探讨一个非常具体且重要的问题：对于那些希望进入或深入机器学
表征学习：机器认知世界的核心能力与前沿突破大千AI助手人工智能 #OTHER Python 学习人工智能机器学习神经网络表征学习 RL 特征工程
一、定义与背景：从特征工程到自动化学习表征学习（RepresentationLearning），又称特征学习（FeatureLearning），是机器学习的核心技术领域，其核心目标是通过算法自动学习数据的内在特征表示，将复杂多变的原始数据（如图像、文本、语音）转化为低维、富含语义信息的向量形式，从而提升下游任务（如分类、回归、聚类）的效率和精度。与传统依赖人工设计特征的特征工程（FeatureEn
Crome：因果鲁棒奖励建模框架——破解LLM对齐中的奖励黑客难题大千AI助手人工智能 #OTHER Python 人工智能深度学习神经网络大模型因果推断奖励黑客 RewardHacking
Crome（CausalRobustRewardModeling）是由GoogleDeepMind联合麦吉尔大学和魁北克人工智能研究所（MILA）于2025年提出的创新框架，旨在解决大语言模型（LLM）对齐中奖励模型（RM）的奖励黑客（RewardHacking）问题。该框架通过因果数据增强与反事实训练机制，显著提升RM对真实质量属性（如事实性、安全性）的敏感性，同时抑制对虚假属性（如文本长度、格
踏上人工智能之旅（一）-----机器学习之knn算法 Sunhen_Qiletian 人工智能机器学习算法 python
目录一、机器学习是什么（1）概述（2）三种类型1.监督学习（SupervisedLearning）：2.无监督学习（UnsupervisedLearning）：3.强化学习（ReinforcementLearning）：二、KNN算法的基本原理：1.距离度量：2.K值的选择：3.投票机制和投票：三、Python实现KNN算法1.导入必要的库和数据：2.提取特征和标签：3.导入KNN分类器并训练模型
大模型基础知识（万字详解）掘金安东尼 python 机器学习人工智能
在数学上，deepseek多轮自蒸馏可以理解为对学生模型施加一系列滚动KL散度约束：LMSD=∑i=1nαi⋅KL(pTi(x)∥pSi(x))\mathcal{L}_{MSD}=\sum_{i=1}^{n}\alpha_i\cdot\text{KL}(p_{T_i}(x)\parallelp_{S_i}(x))LMSD=i=1∑nαi⋅KL(pTi(x)∥pSi(x))其中，TiT_iTi和Si
Spring AI 实战：第六章、Spring AI源码浅析之一山可容二虎 liaokailin Spring AI 实战人工智能 spring java
目录（如果文章对您有一丢丢输入，请点赞、收藏、转发吧~）源码开篇、大模型时代：我们正站在浪潮之巅第一章、SpringAI入门之DeepSeek调用第二章、SpringAI提示词之玩转AI占卜的艺术第三章、SpringAI结构化输出之告别杂乱无章第四章、SpringAI多模态之看图说话第五
Place JillionZ
PLACE是美国的JayMcSwain提出的开发子女才能的工具。PLACE是指在五个领域发现子女的才能。P（Personalitydiscovery)性格类型L（Learningspiritualgifts)天生的才能A（AbilitiesAwareness)能力C（Connectingpassionwithministry)热情E（Experiencesoflife)人生经历作为父母，要充分了解
生成式引擎优化（GEO）在 Google Gemini 中的实践与探索 GEO优化助手生成式引擎优化 AI搜索优化 GEO优化人工智能生成式引擎优化搜索引擎 AI搜索营销 GEO优化 Google Gemini
2025年，生成式AI（如GoogleGemini、ChatGPT、DeepSeek）已占据全球63%的互联网用户信息获取入口。用户行为从"浏览多个网页"转向"直接获取AI生成的精准答案"，这一转变使传统SEO（搜索引擎优化）面临失效风险——即使内容优质，若未被AI模型识别为"可信信源"，仍可能被淹没在信息洪流中。在此背景下，生成式引擎优化（GEO,GenerativeEngineOptimiza
谷歌官网app适配Android 15的官方指南
deepseek回答：谷歌官网提供了完整的Android15应用适配官方指南，涵盖兼容性测试工具、API迁移规范及商店审核要求，核心内容如下：一、官方适配指南入口访问Android15开发者网站核心内容：功能解读、API变更、安全策略及适配工具说明关键资源：适配工具链（兼容性框架、ADB调试）GSI系统映像下载虚拟设备配置教程⚙️二、适配工具链兼容性框架工具支持在不修改targetSdkVersi
Android项目如果项目中使用的so库都是第三方的aar包里才有so库，那么Android studio是不是可以不用安装ndk？ yzpyzp android android studio ndk
Android项目如果项目中使用的so库全都是第三方的aar包里才有so库，那么Androidstudio是不是可以不用安装ndk？deepseek回答：是的，如果项目中使用的.so库完全来自第三方aar包（即库文件已预编译并包含在aar中），那么AndroidStudio无需安装NDK。原因在于：NDK的核心作用是编译和调试原生代码（如C/C++），生成.so文件；但第三方aar包已包含编译好的
项目中枚举与注解的结合使用飞翔的马甲 java enum annotation
前言：版本兼容，一直是迭代开发头疼的事，最近新版本加上了支持新题型，如果新创建一份问卷包含了新题型，那旧版本客户端就不支持，如果新创建的问卷不包含新题型，那么新旧客户端都支持。这里面我们通过给问卷类型枚举增加自定义注解的方式完成。顺便巩固下枚举与注解。一、枚举 1.在创建枚举类的时候，该类已继承java.lang.Enum类，所以自定义枚举类无法继承别的类，但可以实现接口。
【Scala十七】Scala核心十一：下划线_的用法 bit1129 scala
下划线_在Scala中广泛应用，_的基本含义是作为占位符使用。_在使用时是出问题非常多的地方，本文将不断完善_的使用场景以及所表达的含义 1. 在高阶函数中使用 scala> val list = List(-3,8,7,9) list: List[Int] = List(-3, 8, 7, 9) scala> list.filter(_ > 7) r
web缓存基础：术语、http报头和缓存策略 dalan_123 Web
对于很多人来说，去访问某一个站点，若是该站点能够提供智能化的内容缓存来提高用户体验，那么最终该站点的访问者将络绎不绝。缓存或者对之前的请求临时存储，是http协议实现中最核心的内容分发策略之一。分发路径中的组件均可以缓存内容来加速后续的请求，这是受控于对该内容所声明的缓存策略。接下来将讨web内容缓存策略的基本概念，具体包括如如何选择缓存策略以保证互联网范围内的缓存能够正确处理的您的内容，并谈论下
crontab 问题周凡杨 linux crontab unix
一： 0481-079 Reached a symbol that is not expected. 背景： */5 * * * * /usr/IBMIHS/rsync.sh
让tomcat支持2级域名共享session g21121 session
tomcat默认情况下是不支持2级域名共享session的，所有有些情况下登陆后从主域名跳转到子域名会发生链接session不相同的情况，但是只需修改几处配置就可以了。打开tomcat下conf下context.xml文件找到Context标签,修改为如下内容如果你的域名是www.test.com <Context sessionCookiePath="/path&q
web报表工具FineReport常用函数的用法总结（数学和三角函数）老A不折腾 Web finereport 总结
ABS ABS(number):返回指定数字的绝对值。绝对值是指没有正负符号的数值。 Number:需要求出绝对值的任意实数。示例: ABS(-1.5)等于1.5。 ABS(0)等于0。 ABS(2.5)等于2.5。 ACOS ACOS(number):返回指定数值的反余弦值。反余弦值为一个角度，返回角度以弧度形式表示。 Number:需要返回角
linux 启动java进程 sh文件墙头上一根草 linux shell jar
#!/bin/bash #初始化服务器的进程PId变量 user_pid=0; robot_pid=0; loadlort_pid=0; gateway_pid=0; ######### #检查相关服务器是否启动成功 #说明： #使用JDK自带的JPS命令及grep命令组合，准确查找pid #jps 加 l 参数，表示显示java的完整包路径 #使用awk，分割出pid
我的spring学习笔记5-如何使用ApplicationContext替换BeanFactory aijuans Spring 3 系列
如何使用ApplicationContext替换BeanFactory？ package onlyfun.caterpillar.device; import org.springframework.beans.factory.BeanFactory; import org.springframework.beans.factory.xml.XmlBeanFactory; import
Linux 内存使用方法详细解析 annan211 linux 内存 Linux内存解析
来源 http://blog.jobbole.com/45748/ 我是一名程序员，那么我在这里以一个程序员的角度来讲解Linux内存的使用。一提到内存管理，我们头脑中闪出的两个概念，就是虚拟内存，与物理内存。这两个概念主要来自于linux内核的支持。 Linux在内存管理上份为两级，一级是线性区，类似于00c73000-00c88000，对应于虚拟内存，它实际上不占用
数据库的单表查询常用命令及使用方法(-) 百合不是茶 oracle 函数单表查询
创建数据库; --建表 create table bloguser(username varchar2(20),userage number(10),usersex char(2)); 创建bloguser表,里面有三个字段 &nbs
多线程基础知识 bijian1013 java 多线程 thread java多线程
一．进程和线程进程就是一个在内存中独立运行的程序，有自己的地址空间。如正在运行的写字板程序就是一个进程。 “多任务”：指操作系统能同时运行多个进程（程序）。如WINDOWS系统可以同时运行写字板程序、画图程序、WORD、Eclipse等。线程：是进程内部单一的一个顺序控制流。线程和进程 a. 每个进程都有独立的
fastjson简单使用实例 bijian1013 fastjson
一.简介阿里巴巴fastjson是一个Java语言编写的高性能功能完善的JSON库。它采用一种“假定有序快速匹配”的算法，把JSON Parse的性能提升到极致，是目前Java语言中最快的JSON库；包括“序列化”和“反序列化”两部分，它具备如下特征：
【RPC框架Burlap】Spring集成Burlap bit1129 spring
Burlap和Hessian同属于codehaus的RPC调用框架，但是Burlap已经几年不更新，所以Spring在4.0里已经将Burlap的支持置为Deprecated,所以在选择RPC框架时，不应该考虑Burlap了。这篇文章还是记录下Burlap的用法吧，主要是复制粘贴了Hessian与Spring集成一文，【RPC框架Hessian四】Hessian与Spring集成
【Mahout一】基于Mahout 命令参数含义 bit1129 Mahout
1. mahout seqdirectory $ mahout seqdirectory --input (-i) input Path to job input directory(原始文本文件). --output (-o) output The directory pathna
linux使用flock文件锁解决脚本重复执行问题 ronin47 linux lock　重复执行
linux的crontab命令，可以定时执行操作，最小周期是每分钟执行一次。关于crontab实现每秒执行可参考我之前的文章《linux crontab 实现每秒执行》现在有个问题，如果设定了任务每分钟执行一次，但有可能一分钟内任务并没有执行完成，这时系统会再执行任务。导致两个相同的任务在执行。例如： <? // test .php
java-74-数组中有一个数字出现的次数超过了数组长度的一半，找出这个数字 bylijinnan java
public class OcuppyMoreThanHalf { /** * Q74 数组中有一个数字出现的次数超过了数组长度的一半，找出这个数字 * two solutions: * 1.O(n) * see <beauty of coding>--每次删除两个不同的数字，不改变数组的特性 * 2.O(nlogn) * 排序。中间
linux 系统相关命令 candiio linux
系统参数 cat /proc/cpuinfo cpu相关参数 cat /proc/meminfo 内存相关参数 cat /proc/loadavg 负载情况性能参数 1）top M：按内存使用排序 P：按CPU占用排序 1：显示各CPU的使用情况 k：kill进程 o：更多排序规则回车：刷新数据 2）ulimit ulimit -a：显示本用户的系统限制参
[经营与资产]保持独立性和稳定性对于软件开发的重要意义 comsci 软件开发
一个软件的架构从诞生到成熟，中间要经过很多次的修正和改造如果在这个过程中，外界的其它行业的资本不断的介入这种软件架构的升级过程中那么软件开发者原有的设计思想和开发路线
在CentOS5.5上编译OpenJDK6 Cwind linux OpenJDK
几番周折终于在自己的CentOS5.5上编译成功了OpenJDK6，将编译过程和遇到的问题作一简要记录，备查。 0. OpenJDK介绍 OpenJDK是Sun（现Oracle）公司发布的基于GPL许可的Java平台的实现。其优点： 1、它的核心代码与同时期Sun（-> Oracle）的产品版基本上是一样的，血统纯正，不用担心性能问题，也基本上没什么兼容性问题；（代码上最主要的差异是
java乱码问题 dashuaifu java乱码问题 js中文乱码
swfupload上传文件参数值为中文传递到后台接收中文乱码在js中用setPostParams（{"tag" : encodeURI( document.getElementByIdx_x("filetag").value，"utf-8")}）; 然后在servlet中String t
cygwin很多命令显示command not found的解决办法 dcj3sjt126com cygwin
cygwin很多命令显示command not found的解决办法修改cygwin.BAT文件如下 @echo off D: set CYGWIN=tty notitle glob set PATH=%PATH%;d:\cygwin\bin;d:\cygwin\sbin;d:\cygwin\usr\bin;d:\cygwin\usr\sbin;d:\cygwin\us
[介绍]从 Yii 1.1 升级 dcj3sjt126com PHP yii2
2.0 版框架是完全重写的，在 1.1 和 2.0 两个版本之间存在相当多差异。因此从 1.1 版升级并不像小版本间的跨越那么简单，通过本指南你将会了解两个版本间主要的不同之处。如果你之前没有用过 Yii 1.1，可以跳过本章，直接从"入门篇"开始读起。请注意，Yii 2.0 引入了很多本章并没有涉及到的新功能。强烈建议你通读整部权威指南来了解所有新特性。这样有可能会发
Linux SSH免登录配置总结 eksliang ssh-keygen Linux SSH免登录认证 Linux SSH互信
转载请出自出处：http://eksliang.iteye.com/blog/2187265 一、原理我们使用ssh-keygen在ServerA上生成私钥跟公钥，将生成的公钥拷贝到远程机器ServerB上后,就可以使用ssh命令无需密码登录到另外一台机器ServerB上。生成公钥与私钥有两种加密方式，第一种是
手势滑动销毁Activity gundumw100 android
老是效仿ios，做android的真悲催！有需求：需要手势滑动销毁一个Activity 怎么办尼？自己写？不用~，网上先问一下百度。结果： http://blog.csdn.net/xiaanming/article/details/20934541 首先将你需要的Activity继承SwipeBackActivity，它会在你的布局根目录新增一层SwipeBackLay
JavaScript变换表格边框颜色 ini JavaScript html Web html5 css
效果查看：http://hovertree.com/texiao/js/2.htm代码如下，保存到HTML文件也可以查看效果： <html> <head> <meta charset="utf-8"> <title>表格边框变换颜色代码-何问起</title> </head> <body&
Kafka Rest : Confluent kane_xie kafka REST confluent
最近拿到一个kafka rest的需求，但kafka暂时还没有提供rest api（应该是有在开发中，毕竟rest这么火），上网搜了一下，找到一个Confluent Platform，本文简单介绍一下安装。这里插一句，给大家推荐一个九尾搜索，原名叫谷粉SOSO，不想fanqiang谷歌的可以用这个。以前在外企用谷歌用习惯了，出来之后用度娘搜技术问题，那匹配度简直感人。环境声明：Ubu
Calender不是单例 men4661273 单例 Calender
在我们使用Calender的时候，使用过Calendar.getInstance()来获取一个日期类的对象，这种方式跟单例的获取方式一样，那么它到底是不是单例呢，如果是单例的话，一个对象修改内容之后，另外一个线程中的数据不久乱套了吗？从试验以及源码中可以得出，Calendar不是单例。测试： Calendar c1 =
线程内存和主内存之间联系 qifeifei java thread
1， java多线程共享主内存中变量的时候，一共会经过几个阶段， lock:将主内存中的变量锁定，为一个线程所独占。 unclock:将lock加的锁定解除，此时其它的线程可以有机会访问此变量。 read:将主内存中的变量值读到工作内存当中。 load:将read读取的值保存到工作内存中的变量副本中。
schedule和scheduleAtFixedRate tangqi609567707 java timer schedule
原文地址：http://blog.csdn.net/weidan1121/article/details/527307 import java.util.Timer;import java.util.TimerTask;import java.util.Date; /** * @author vincent */public class TimerTest {
erlang 部署 wudixiaotie erlang
1.如果在启动节点的时候报这个错： {"init terminating in do_boot",{'cannot load',elf_format,get_files}} 则需要在reltool.config中加入 {app, hipe, [{incl_cond, exclude}]}, 2.当generate时，遇到： ERROR

【转载】faster R-CNN 一篇很好的博客 和 Pytorch下的代码+英文博客