qishenlvqiao

ImageNet调查报告

本篇内容是在网络中收集汇总

1. ILSVRC介绍:

ImageNet大规模视觉识别挑战赛即“ILSVRC”(ImageNet Large Scale Visual Recognition Challenge)，它是基于ImageNet图像数据库的国际计算机视觉识别竞赛。ILSVRC从2010年开始举办，并逐渐发展为国际计算机视觉领域受关注度最大、水平最高、竞争最激烈的竞赛。2017年是这场竞赛的最后一年。短短7年内，优胜者的识别率就从71.8%提升到97.3%，超过了人类，并证明了更庞大的数据可以带来更好的决策。

ILSVRC使用的数据都来自ImageNet，ImageNet项目于2007年由斯坦福大学华人教授李飞飞创办，目标是收集大量带有标注信息的图片数据供计算机视觉模型训练。ImageNet拥有1500万张标注过的高清图片，总共拥有22000类，其中约有100万张标注了图片中主要物体的定位边框。

首届ImageNet的两年后，也就是2012年，发生的一件大事情，如果可以将如今人工智能领域的繁荣归功于某项比赛，那么肯定当属2012年ImageNet挑战赛宣布研究成果的那一刻。

那一年，多伦多大学的Geoffrey Hinton、Ilya Sutskever和Alex Krizhevsky提出了一种深度卷积神经网络结构：AlexNet，夺得了ImageNet冠军，成绩远远领先于当时的第二名。

2. 比赛指标：

从 2010 年以来，每年的 ILSVRC 都主要包括以下 3 项，后来逐渐增多：

图像分类：算法产生图像中存在的对象类别列表；

单物体定位：算法生成一个图像中含有的物体类别的列表，以及轴对齐的边框，边框指示每个物体类别的每个实例的位置和比例；

物体检测：算法生成图像中含有的物体类别的列表，以及每个物体类别中每个实例的边框，边框表示这些实例的位置和比例。

ILSVRC2016 分为五大部分，包括：目标检测、目标定位、视频中目标物体检测、场景分类、场景分析。

3. 主流算法

自从Alex和他的导师Hinton在2012年的ImageNet大规模图像识别竞赛（ILSVRC2012）中以超过第二名10个百分点的成绩(83.6%的Top5精度)碾压第二名（74.2%，使用传统的计算机视觉方法）后，深度学习真正开始火热，卷积神经网络（CNN）开始成为家喻户晓的名字；

虽然AlexNet并不是CNN的开创，但是从此开始CNN开始受到人们的强烈关注，并在ImageNet的比赛中大放异彩，2012年的AlexNet成为了研究热点从传统视觉方法到卷积神经网络的分水岭；

从12年的AlexNet（83.6%），到2013年ImageNet 大规模图像识别竞赛冠军的88.8%，再到2014年VGG的92.7%和同年的GoogLeNet的93.3%，终于，到了2015年，在1000类的图像识别中，微软提出的残差网（ResNet）以96.43%的Top5正确率，达到了超过人类的水平（人类的正确率也只有94.9%）。

以下为四种经典的卷积神经网络：

Name	Rank	Top-5	Lays
AlexNet	ILSVRC 2012年冠军	16.4%	8层
VGGNet	ILSVRC 2014年亚军	7.3%	19层
Google Inception Net	ILSVRC 2014年冠军	6.7%	22层
ResNet	ILSVRC 2015年冠军	3.57%	152层

3.1 算法学习——卷积神经网络CNN：

3.1.1 卷积神经网络（CNN）概况：

如图为神经网络示意图，图中结点表示神经元，仅有相邻层间结点有连接，同层或跨层间均无连接，分层结构，左侧输入层，右侧输出层，中间为隐藏层，隐藏层比较多（大于2）的神经网络叫做深度神经网络。

卷积神经网络是一种特殊的深层的神经网络模型，它的特殊性体现在两个方面，一方面它的神经元间的连接是非全连接的，即局部感知野的方法，每个神经元没有必要对全局图像进行感知，只需要对局部进行感知，然后在更高层将局部的信息综合起来就得到了全局的信息；另一方面为参数共享，即可以从一个大尺寸图像中选取一个小样本，并从该样本中学习到一些特征，然后可以把从这个样本中学习到的特征作为探测器，应用到这个图像的任意地方中去，而且可以用从样本中所学习到的特征跟原本的大尺寸图像作卷积，从而对这个大尺寸图像上的任一位置获得一个不同特征的激活值。

卷积神经网络大致就是Convolutional Layer（卷积层）、pooling Layer（池化层）、ReLU Layer（修正线性单元层）、fully-connected layer（全连接层）的组合。

3.1.2 卷积层（负责特征抓取）：

如图选中左上角区域的红色框叫做filter（过滤器，有时候也被称为神经元（neuron）或核（kernel）），被选中的区域被称为感受野（receptive field）。过滤器同样也是一个数组（其中的数字被称作权重或参数）。且过滤器的深度必须与输入内容的深度相同（这样才能确保可以进行数学运算），如图为大小为2 x 2的过滤器；

第二层的节点0的数值就是局部区域的线性组合，即被圈中节点的数值乘以对应的权重后相加（线性组合后，也会和前馈神经网络一样，加上一个偏移量）。

然后向后移动过滤器扫描全图，因此每个输出结点并非与全部的输入结点相连，为了不丢失图片的平面结构信息，仍采用矩阵存储输出信息。

三维下过滤器变为（对应RGB），对应的线性组合计算为

可见，在输入depth为时，2x2x个输入节点连接到1个输出节点上。示意图如下:

3.1.2.1 Zero padding

可以看到，每次卷积操作完图片大小都会被压缩，为了避免若干层卷积后图片越来越小的问题，也避免边缘信息被一步步舍弃的问题，采用Zero padding的方法，即在图片周围填充一圈0(或两圈)，根据采用过滤器的大小来决定，以便在卷积之后，得到的Feature Map大小不变。

3.1.2.2 形状、概念抓取

首先，明确不同的形状都可由细小的“零件”组合而成的，而且卷积的每个filter可以探测特定的形状；

又由于Feature Map保持了抓取后的空间结构；

因此若将探测到细小图形的Feature Map作为新的输入再次卷积后，则可以由此探测到“更大”的形状概念。因而经过层层的卷积后，所能够探测的形状、概念也变得越来越抽象和复杂。

2.3、filter内的权重矩阵W是网络根据数据学习得到的，也就是说，我们让神经网络自己学习以什么样的方式去观察图片。

3.1.2.3 多filters

每个filter可以抓取探测特定的形状的存在。因此我们自然而然的会选择用多个不同的filters对同一个图片进行多次抓取。每增加一个filter，就意味着你想让网络多抓取一个特征。

每增加一个filter，就多得到一个Feature Map，多个输出堆积，这样卷积层的输出也不再是depth为1的平面，将不同filters所卷积得到的Feature Maps按顺序堆叠后，就得到了一个卷积层的最终输出。。

这样卷积后输出的长方体可以作为新的输入送入另一个卷积层中处理。

3.1.2.4 加入非线性（ReLU变换）

和前馈神经网络一样，经过线性组合和偏移后，会加入非线性增强模型的拟合能力。

3.1.3 池化层：

它把输入信号分割成不重叠的区域，对于每个区域通过池化（下采样）运算来降低网络的空间分辨率，比如最大值池化是选择区域内的最大值，均值池化是计算区域内的平均值。通过该运算来消除信号的偏移和扭曲。如下为Max Pooling示意图：

Max pooling的主要功能是down sampling，却不会损坏识别结果。这就意味着卷积后的Feature Map中有对于识别物体不必要的冗余信息，事实上，为了探测某个特定形状的存在，用一个filter对整个图片进行扫描，但只有出现了该特定形状的区域卷积获得的输出才是有用的，其他区域得到的数值对该形状是否存在的判定影响较小。

3.1.4 完全连接层：

全连接层（也叫前馈层）就可以用来将最后的输出映射到线性可分的空间，通常卷积网络的最后会将末端得到的长方体平摊(flatten)成一个长长的向量，并送入全连接层配合输出层进行分类。

4 相关论文：

4.1 AlexNet

参赛论文“ImageNet Classification with Deep Convolutional Networks”：https://papers.nips.cc/paper/4824-imagenet-classification-with-deep-convolutional-neural-networks.pdf

4.1.1 体系结构

该团队训练了一个大型的深度卷积神经网络，有6000万个参数和650,000个神经元，由五个卷积层，以及某些卷积层后跟着的max-pooling层，和三个全连接层，还有排在最后的1000-way的soft max层组成。

以下为论文中提及的该网络体系结构的一些新颖独特的功能：

ReLU非线性

在多个GPU上训练

局部响应归一化

重叠Pooling

总体结构：

“如图2所示，该网络包括八个带权层；前五层是卷积层，剩下三层是全连接层。最后一个全连接层的输出被送到一个1000-way的softmax层，其产生一个覆盖1000类标签的分布。我们的网络使得多分类的Logistic回归目标最大化，这相当于最大化了预测分布下训练样本中正确标签的对数概率平均值。”

论文中采用了两种减少过拟合的方法，分别是数据增强和Dropout；

数据增强：减少图像数据过拟合最简单最常用的方法，是使用标签-保留转换，人为地扩大数据集，“我们使用数据增强的两种不同形式，这两种形式都允许转换图像用很少的计算量从原始图像中产生，所以转换图像不需要存储在磁盘上。”

“数据增强的第一种形式由生成图像转化和水平反射组成。”

“数据增强的第二种形式包含改变训练图像中RGB通道的强度。”“该方案将top-1误差率减少了1%以上。”

Dropout：“我们在图2中前两个全连接层使用dropout。如果没有dropout，我们的网络会表现出大量的过拟合。dropout使收敛所需的迭代次数大致增加了一倍。”

4.1.2 论文细节摘录

（按论文中顺序）

向量化：

虽然ILSVRC是高清图片，但仍然按惯例被压到256x256使用。说明目前的方法和计算能力，还不足以处理更大规模的输入，另外，向量化的过程也是信息丢失的过程，但这个环节无法回避。

被压缩后的图片又减去了训练集的平均值，即，做了mean normalization。这个预处理的意义在于加速初期的学习，但论文中并未进行分析，更没有像其他的处理那样给出量化的影响，看来这都是处理的惯例了。

ReLU：

ReLU的引入，主要目的是为了提高学习速度。作者发现，如果使用ReLU作为激活函数，对于CNN学习图片分类的任务，学习速度远远超过传统的饱和非线性的激活函数，如tanh、sigmoid。对一个用来跑CIFAR-10的四层卷积，LeRU的学习速度是tanh的6倍。至于原因，文中并未进一步解释。或许是由于饱和非线性函数在边缘区域导数越来越小、反向传播时的衰减；或许是由于对于识别型的分类任务，更适合一个稀疏的网络，依赖少量激活的神经元完成任务。这些原因都是猜想，不容易验证。

多GPU训练：

因为神经网络的规模太大，超过单GPU内存（3G），两个GPU分别学习模型的一半。而且，模型的两部分仅在3/6/7/8层会使用对方的数据。多用一个GPU对训练时间影响并不明显，但使top 1/5错误率下降了1.7/1.2%。

Local Response Normalization：

加入这个机制的最初目的是，模仿真实神经元的侧抑制机制（lateral inhibition），提高网络的泛化能力。实际上，此机制能使top 1/5错误率下降了1.4/1.2%。我理解，这个机制在抑制相邻神经元的同时，其实也对本神经元的输出进行修正。饱和非线性函数在边缘区域衰减的特性还是必要的，经过此机制修正后，ReLU的正数部分也有类似于饱和非线性函数的曲线。ReLU+Local Response Normalization的输出，类似于真实神经元的电位发放的表现。

Overlapping Pooling：

Max Polling是为了进行信息压缩。我觉得，Overlapping Pooling的出发点是，认为传统的Polling丢失了过多的信息，而部分重叠的输入可以降低信息压缩的比例，从而减少信息丢失。此处理使top 1/5错误率下降了0.4/0.3%。

整体架构：

个人感觉，Alex的网络主要是为了够深、容量够大，还是有一些很奇怪的细节的，不过无伤大雅。比如输入是从256x256中裁了224x224像素，后边接的是核11x11、步长4、55x55的卷积层，224像素这个偶数相当奇怪，既然已经是裁过的结果，不如裁成227像素（11+54*4），后面的卷积层就不用补边了（Caffe里的AlexNet也是这么修改的）。论文中说第一层的神经元数量为253440，这应该是一个笔误，48*48*55*2=253440，作者原意应该是55*55*48*2=290400。

Data Augmentation：

对于这种规模（60M参数）的网络，如果数据不够多，必然学出来的都是过拟合。作者用了两个方法来增大数据集。方法一是裁剪，从256x256中裁出随机位置的224x224像素并加上水平翻转，这将数据扩大至原有的2178倍（33*33*2，论文原文中为2048倍），当然，为了避免测试集把关键内容裁掉，测试时还是4边+中心+翻转的10张图取平均值的。这基本上都是惯例做法了，所以作者没有多加解释。

方法二是加全局调整，对整个训练集做PCA来取得RGB值的主要特征，然后对输入进行主要特征的σ=0.1的高斯扰动。实际上相当于对图片的强度进行小范围调整。此处理使top 1错误率下降了1%。（此处没搞清楚为什么一定要根据整个训练集来做PCA，如果只是为了让学到的特征更稳定，单纯地调整图片亮度都可以达到同样目的）

Dropout：

Dropout的大概思路是，对于已有的神经网络，每次只训练其中一部分，以得到更稳定的特征，推迟过拟合的出现。Dropout虽然增加了训练时间，但大大推迟了过拟合。

训练过程：

mini-batch stochastic gradient descent，batch=128、momentum=0.9、weight decay=0.0005。每次验证集上不再提高时，将学习速度降低一个数量级继续训练。

结论&分析

1. 对于每一个改进，作者都能将前因后果说的很清楚，并将其效果量化，这种习惯值得学习。由此，我们可以反推出对最终正确率最关键的因素：网络深度（减一层2%、加一层1.7%）> 单层容量（双GPU约1.7%）> LRN（1.4%）> PCA干扰（1%）> 重叠Polling（0.4%）。即，虽然其他的Trick也有明显效果，但决定性的，还是尽可能保持一个足够深、足够大规模的网络。

2. 对于学习结果的分析。深度神经网络并不像一些基于统计的方法，有健全的理论支持。这种情况下，了解对学习结果，了解网络到底学到了什么东西，对加深我们的理解就至关重要。另一方面，由于对分数的提升太过恐怖（top5错误率接近腰斩），为了让大家信服，也需要对结果的充分展示以体现模型确实是在学习物体特征，而不是在通过某种方式hack标签数据。文中除了常规的case展示，还把倒数第二层的欧氏距离用于衡量图片是否相似，展示了很多图片查询的例子。这其实同时证明了倒数第二层是相当好的图片特征，这一层的用法有很大的想象空间。

3. 额外收获。作者对第一个卷积层的可视化非常有意思。第一个卷积层是直接对应到原图的局部信息，人能直接看明白。而这一层的可视化则说明了网络很依赖图片中的明暗边缘（很像Gabor Filter）、颜色变化、纹理，这是直观可以理解的。但很有趣的是，两块GPU由于前两个卷积层是相互独立的，学习中，两块GPU的第一个卷积层形成了自发的分工（而且实验是可重复的），一个GPU的第一层更倾向于检测略缓和的明暗变化，很少用到颜色信息，而另一个GPU的第一层更倾向于检测颜色变化、同时检测更急剧的明暗变化和纹理。其实一个单纯分类图片的神经网络能有这样的演化已经超出很多人的想象能力了。估计网络的第三层应该也有类似的分工，只是不如第一层容易展示出来。

4.2 ResNet

https://arxiv.org/pdf/1512.03385.pdf 论文地址

ResNet——MSRA何凯明团队的Residual Networks，在2015年ImageNet上大放异彩，在ImageNet的classification、detection、localization以及COCO的detection和segmentation上均斩获了第一名的成绩，而且Deep Residual Learning for Image Recognition也获得了CVPR2016的best paper，实在是实至名归。就让我们来观摩大神的这篇上乘之作。

ResNet最根本的动机就是所谓的“退化”问题，即当模型的层次加深时，错误率却提高了，如下图：

但是模型的深度加深，学习能力增强，因此更深的模型不应当产生比它更浅的模型更高的错误率。而这个“退化”问题产生的原因归结于优化难题，当模型变复杂时，SGD的优化变得更加困难，导致了模型达不到好的学习效果。

针对这个问题，作者提出了一个Residual的结构：

即增加一个identity mapping（恒等映射），将原始所需要学的函数H(x)转换成F(x)+x，而作者认为这两种表达的效果相同，但是优化的难度却并不相同，作者假设F(x)的优化会比H(x)简单的多。这一想法也是源于图像处理中的残差向量编码，通过一个reformulation，将一个问题分解成多个尺度直接的残差问题，能够很好的起到优化训练的效果。

这个Residual block通过shortcut connection实现，通过shortcut将这个block的输入和输出进行一个element-wise的加叠，这个简单的加法并不会给网络增加额外的参数和计算量，同时却可以大大增加模型的训练速度、提高训练效果，并且当模型的层数加深时，这个简单的结构能够很好的解决退化问题。

接下来，作者就设计实验来证明自己的观点。

首先构建了一个18层和一个34层的plain网络，即将所有层进行简单的铺叠，然后构建了一个18层和一个34层的residual网络，仅仅是在plain上插入了shortcut，而且这两个网络的参数量、计算量相同，并且和之前有很好效果的VGG-19相比，计算量要小很多。（36亿FLOPs VS 196亿FLOPs，FLOPs即每秒浮点运算次数。）这也是作者反复强调的地方，也是这个模型最大的优势所在。

模型构建好后进行实验，在plain上观测到明显的退化现象，而且ResNet上不仅没有退化，34层网络的效果反而比18层的更好，而且不仅如此，ResNet的收敛速度比plain的要快得多。

对于shortcut的方式，作者提出了三个选项：

A. 使用恒等映射，如果residual block的输入输出维度不一致，对增加的维度用0来填充；

B. 在block输入输出维度一致时使用恒等映射，不一致时使用线性投影以保证维度一致；

C. 对于所有的block均使用线性投影。

对这三个选项都进行了实验，发现虽然C的效果好于B的效果好于A的效果，但是差距很小，因此线性投影并不是必需的，而使用0填充时，可以保证模型的复杂度最低，这对于更深的网络是更加有利的。

进一步实验，作者又提出了deeper的residual block：

这相当于对于相同数量的层又减少了参数量，因此可以拓展成更深的模型。于是作者提出了50、101、152层的ResNet，而且不仅没有出现退化问题，错误率也大大降低，同时计算复杂度也保持在很低的程度。

这个时候ResNet的错误率已经把其他网络落下几条街了，但是似乎还并不满足，于是又搭建了更加变态的1202层的网络，对于这么深的网络，优化依然并不困难，但是出现了过拟合的问题，这是很正常的，作者也说了以后会对这个1202层的模型进行进一步的改进.

4.3 GoogleNet

4.3.1 GoogLeNet相关论文及下载地址

[v1] Going Deeper withConvolutions, 6.67% test error，2014.9

论文地址：http://arxiv.org/abs/1409.4842

[v2] Batch Normalization:Accelerating Deep Network Training by Reducing Internal Covariate Shift, 4.8% test error，2015.2

论文地址：http://arxiv.org/abs/1502.03167

[v3] Rethinking theInception Architecture for Computer Vision, 3.5%test error，2015.12

论文地址：http://arxiv.org/abs/1512.00567

[v4] Inception-v4,Inception-ResNet and the Impact of Residual Connections on Learning, 3.08% test error，2016.2

论文地址：http://arxiv.org/abs/1602.07261

4.3.2 GoogLeNet发展历程

1. Inception v1的网络，打破了常规的卷积层串联的模式，将1x1，3x3，5x5的卷积层和3x3的pooling池化层并联组合后concatenate组装在一起的设计思路；

2. Inception v2的网络在Inception v1的基础上，进行了改进，一方面了加入了BN层，减少了Internal Covariate Shift（内部神经元分布的改变），使每一层的输出都规范化到一个N(0, 1)的高斯，还去除了Dropout、LRN等结构；另外一方面学习VGG用2个3x3的卷积替代inception模块中的5x5卷积，既降低了参数数量，又加速计算；

3. Inception v3一个最重要的改进是分解（Factorization），将7x7分解成两个一维的卷积（1x7,7x1），3x3也是一样（1x3,3x1）。这样的好处，既可以加速计算（多余的计算能力可以用来加深网络），又可以将1个conv拆成2个conv，使得网络深度进一步增加，增加了网络的非线性，可以处理更多更丰富的空间特征，增加特征多样性。还有值得注意的地方是网络输入从224x224变为了299x299，更加精细设计了35x35/17x17/8x8的模块；

4. Inception v4结合了微软的ResNet，发现ResNet的结构可以极大地加速训练，同时性能也有提升，得到一个Inception-ResNet v2网络，同时还设计了一个更深更优化的Inception v4模型，能达到与Inception-ResNet v2相媲美的性能。

4.3.3 Inception V1

4.3.3.1 概述

Google Inception Net首次出现在ILSVRC 2014的比赛中，以较大优势取得了第一名。那届比赛中的Inception Net通常被称为Inception V1，它最大的特点是控制了计算量和参数量的同时，获得了非常好的分类性能——top-5错误率6.67%，只有AlexNet的一半不到。Inception V1有22层深，比AlexNet的8层或者VGGNet的19层还要更深。但其计算量只有15亿次浮点运算，同时只有500万的参数量，仅为AlexNet参数量（6000万）的1/12，却可以达到远胜于AlexNet的准确率，可以说是非常优秀并且非常实用的模型。Inception V1降低参数量的目的有两点，第一，参数越多模型越庞大，需要供模型学习的数据量就越大，而目前高质量的数据非常昂贵；第二，参数越多，耗费的计算资源也会更大。Inception V1参数少但效果好的原因除了模型层数更深、表达能力更强外，还有两点：一是去除了最后的全连接层，用全局平均池化层（即将图片尺寸变为1*1）来取代它。全连接层几乎占据了AlexNet或VGGNet中90%的参数量，而且会引起过拟合，去除全连接层后模型训练更快并且减轻了过拟合。用全局平均池化层取代全连接层的做法借鉴了NetworkIn Network（以下简称NIN）论文。二是Inception V1中精心设计的InceptionModule提高了参数的利用效率，其结构如图1所示。这一部分也借鉴了NIN的思想，形象的解释就是Inception Module本身如同大网络中的一个小网络，其结构可以反复堆叠在一起形成大网络。不过Inception V1比NIN更进一步的是增加了分支网络，NIN则主要是级联的卷积层和MLPConv层。一般来说卷积层要提升表达能力，主要依靠增加输出通道数，但副作用是计算量增大和过拟合。每一个输出通道对应一个滤波器，同一个滤波器共享参数，只能提取一类特征，因此一个输出通道只能做一种特征处理。而NIN中的MLPConv则拥有更强大的能力，允许在输出通道之间组合信息，因此效果明显。可以说，MLPConv基本等效于普通卷积层后再连接1*1的卷积和ReLU激活函数。

图1 Inception Module

4.3.3.2 InceptionModule

Inception Module的基本结构如图1，有4个分支：第一个分支对输入进行1*1的卷积，这其实也是NIN中提出的一个重要结构。1*1的卷积是一个非常优秀的结构，它可以跨通道组织信息，提高网络的表达能力，同时可以对输出通道升维和降维。可以看到Inception Module的4个分支都用到了1*1卷积，来进行低成本（计算量比3*3小很多）的跨通道的特征变换。第二个分支先使用了1*1卷积，然后连接3*3卷积，相当于进行了两次特征变换。第三个分支类似，先是1*1的卷积，然后连接5*5卷积。最后一个分支则是3*3最大池化后直接使用1*1卷积。有的分支只使用1*1卷积，有的分支使用了其他尺寸的卷积时也会再使用1*1卷积，这是因为1*1卷积的性价比很高，用很小的计算量就能增加一层特征变换和非线性化。Inception Module的4个分支在最后通过一个聚合操作合并（在输出通道数这个维度上聚合）。Inception Module中包含了3种不同尺寸的卷积和1个最大池化，增加了网络对不同尺度的适应性，这一部分和Multi-Scale的思想类似。早期计算机视觉的研究中，受灵长类神经视觉系统的启发，Serre使用不同尺寸的Gabor滤波器处理不同尺寸的图片，Inception V1借鉴了这种思想。Inception V1的论文中指出，InceptionModule可以让网络的深度和宽度高效率地扩充，提升准确率且不致于过拟合。

稀疏结构是非常适合神经网络的一种结构，尤其是对非常大型、非常深的神经网络，可以减轻过拟合并降低计算量，例如卷积神经网络就是稀疏的连接。Inception Net的主要目标就是找到最优的稀疏结构单元Inception Module，论文中提到其稀疏结构基于Hebbian原理，这里简单解释一下Hebbian原理：神经反射活动的持续与重复会导致神经元连接稳定性的持久提升，当两个神经元细胞A和B距离很近，并且A参与了对B重复、持续的兴奋，那么某些代谢变化会导致A将作为能使B兴奋的细胞。总结一下即“一起发射的神经元会连在一起”（Cells that fire together, wire together），学习过程中的刺激会使神经元间的突触强度增加。受Hebbian原理启发，另一篇文章Provable Bounds for Learning Some Deep Representations提出，如果数据集的概率分布可以被一个很大很稀疏的神经网络所表达，那么构筑这个网络的最佳方法是逐层构筑网络：将上一层高度相关的节点聚类，并将聚类出来的每一个小簇（cluster）连接到一起，如图2所示。这个相关性高的节点应该被连接在一起的结论，即是从神经网络的角度对Hebbian原理有效性的证明。

图2将高度相关的节点连接在一起，形成稀疏网络

因此一个“好”的稀疏结构，应该是符合Hebbian原理的，我们应该把相关性高的一簇神经元节点连接在一起。在图片数据中，天然的就是临近区域的数据相关性高，因此相邻的像素点被卷积操作连接在一起。而我们可能有多个卷积核，在同一空间位置但在不同通道的卷积核的输出结果相关性极高。因此，一个1*1的卷积就可以很自然地把这些相关性很高的、在同一个空间位置但是不同通道的特征连接在一起，这就是为什么1*1卷积这么频繁地被应用到Inception Net中的原因。1*1卷积所连接的节点的相关性是最高的，而稍微大一点尺寸的卷积，比如3*3、5*5的卷积所连接的节点相关性也很高，因此也可以适当地使用一些大尺寸的卷积，增加多样性（diversity）。Inception Module通过4个分支中不同尺寸的1*1、3*3、5*5等小型卷积将相关性很高的节点连接在一起，就完成了其设计初衷，构建出了很高效的符合Hebbian原理的稀疏结构。

4.3.3.3 InceptionNet网络结构

在Inception Module中，通常1*1卷积的比例（输出通道数占比）最高，3*3卷积和5*5卷积稍低。而在整个网络中，会有多个堆叠的Inception Module，我们希望靠后的InceptionModule可以捕捉更高阶的抽象特征，因此靠后的Inception Module的卷积的空间集中度应该逐渐降低，这样可以捕获更大面积的特征。因此，越靠后的InceptionModule中，3*3和5*5这两个大面积的卷积核的占比（输出通道数）应该更多。

Inception Net有22层深，除了最后一层的输出，其中间节点的分类效果也很好。因此在Inception Net中，还使用到了辅助分类节点（auxiliary classifiers），即将中间某一层的输出用作分类，并按一个较小的权重（0.3）加到最终分类结果中。这样相当于做了模型融合，同时给网络增加了反向传播的梯度信号，也提供了额外的正则化，对于整个Inception Net的训练很有裨益。Inception V1也使用了Multi-Scale、Multi-Crop等数据增强方法，并在不同的采样数据上训练了7个模型进行融合，得到了最后的ILSVRC 2014的比赛成绩——top-5错误率6.67%。

对上图做如下说明：

1. 显然GoogLeNet采用了模块化的结构，方便增添和修改；

2. 网络最后采用了average pooling来代替全连接层，想法来自NIN,事实证明可以将TOP1 accuracy提高0.6%。但是，实际在最后还是加了一个全连接层，主要是为了方便以后大家finetune；

3. 虽然移除了全连接，但是网络中依然使用了Dropout ;

4. 为了避免梯度消失，网络额外增加了2个辅助的softmax用于向前传导梯度。文章中说这两个辅助的分类器的loss应该加一个衰减系数，但看caffe中的model也没有加任何衰减。此外，实际测试的时候，这两个额外的softmax会被去掉。

下图是清晰图。

4.3.4 Inception V2

Inception V2学习了VGGNet，用两个3*3的卷积代替5*5的大卷积（用以降低参数量并减轻过拟合），还提出了著名的BatchNormalization（以下简称BN）方法。BN是一个非常有效的正则化方法，可以让大型卷积网络的训练速度加快很多倍，同时收敛后的分类准确率也可以得到大幅提高。BN在用于神经网络某层时，会对每一个mini-batch数据的内部进行标准化（normalization）处理，使输出规范化到N(0,1)的正态分布，减少了InternalCovariate Shift（内部神经元分布的改变）。BN的论文指出，传统的深度神经网络在训练时，每一层的输入的分布都在变化，导致训练变得困难，我们只能使用一个很小的学习速率解决这个问题。而对每一层使用BN之后，我们就可以有效地解决这个问题，学习速率可以增大很多倍，达到之前的准确率所需要的迭代次数只有1/14，训练时间大大缩短。而达到之前的准确率后，可以继续训练，并最终取得远超于Inception V1模型的性能——top-5错误率4.8%，已经优于人眼水平。因为BN某种意义上还起到了正则化的作用，所以可以减少或者取消Dropout，简化网络结构。

只是单纯地使用BN获得的增益还不明显，还需要一些相应的调整：增大学习速率并加快学习衰减速度以适用BN规范化后的数据；去除Dropout并减轻L2正则（因BN已起到正则化的作用）；去除LRN；更彻底地对训练样本进行shuffle；减少数据增强过程中对数据的光学畸变（因为BN训练更快，每个样本被训练的次数更少，因此更真实的样本对训练更有帮助）。在使用了这些措施后，Inception V2在训练达到Inception V1的准确率时快了14倍，并且模型在收敛时的准确率上限更高。

4.3.5 Inception V3

Inception V3网络则主要有两方面的改造：一是引入了Factorization into smallconvolutions的思想，将一个较大的二维卷积拆成两个较小的一维卷积，比如将7*7卷积拆成1*7卷积和7*1卷积，或者将3*3卷积拆成1*3卷积和3*1卷积，如图3所示。一方面节约了大量参数，加速运算并减轻了过拟合（比将7*7卷积拆成1*7卷积和7*1卷积，比拆成3个3*3卷积更节约参数），同时增加了一层非线性扩展模型表达能力。论文中指出，这种非对称的卷积结构拆分，其结果比对称地拆为几个相同的小卷积核效果更明显，可以处理更多、更丰富的空间特征，增加特征多样性。

图 3将一个3*3卷积拆成1*3卷积和3*1卷积

Inception V3优化了Inception Module的结构，现在Inception Module有35*35、17*17和8*8三种不同结构，如图4所示。这些Inception Module只在网络的后部出现，前部还是普通的卷积层。并且Inception V3除了在Inception Module中使用分支，还在分支中使用了分支（8*8的结构中），可以说是Network In Network In Network。

图4Inception V3中三种结构的InceptionModule

(1) 图4左是GoogLeNetV1中使用的Inception结构；

(2) 图5中是用3x3卷积序列来代替大卷积核；

(3) 图6右是用nx1卷积来代替大卷积核，这里设定n=7来应对17x17大小的feature map。该结构被正式用在GoogLeNet V2中。

图5Inception V3的网络结构

4.3.6 Inception V4

Inception V4相比V3主要是结合了微软的ResNet。

Inception v4结合了微软的ResNet，发现ResNet的结构可以极大地加速训练，同时性能也有提升，得到一个Inception-ResNet v2网络，同时还设计了一个更深更优化的Inception v4模型，能达到与Inception-ResNet v2相媲美的性能。

4.4 VGGNet

https://arxiv.org/pdf/1409.1556.pdf

VGG Net是ILSCVRC2014 classification的第二名，localization的第一名，网络结构上比其他网络都要来得复杂(实验过程中卷积层最多有16个)，但是文章中对如何构造复杂网络和训练网络的描述非常详尽，相信对research会有很多帮助

4.4.1 Training

网络的training借鉴了AlexNet在训练中使用的方法，同样是momentum SGD＋dropout，处理图像尺寸的方法相同，做数据增量的方法也相同，但是由于一共有5个网络需要训练，且网络深度依次递增，因此在参数初始化时作者提出：

最简单的网络使用随机初始化，而后面的网络中最前面的4个卷积层与最后3个全连接层参数用先前网络的参数初始化,其他层使用随机初始化，这种首先训练简单网络，随后使用其参数来初始化复杂网络的训练方法是一种非常合理且高效的方式

值得一提的是文中对比了7*7的卷积层与三个3*3的卷积层之间的对比，相比较而言多个小的卷积层级联能在引入更多的linear rectify之外同时还能降低卷积层参数的数量。

整个训练过程如下：

1 Classification

设计结构复杂度依次递增的网络

在Image size的处理上，作者提出single-scale和multi－scale的方法, single-scale的方法与AlexNet相同，先resize后crop，multi－scale的方法类似于随机采样，每次rescale之前在一个固定区间内（如[256,512]）选取一个scale，这样每个图像的尺寸就不同了，但是怎么处理feature长度不同的问题作者似乎没有说明

每次训练新的网络之前用之前网络的参数进行初始化以加快收敛速度

2 Localization

Training Localization的方法与classification相同，只不过用的是Euclidean Loss

4.4.2 Testing

在testing阶段，网络接收图像数据之前首先需要把图像rescale到固定大小，作者称之为test scale，之后首先通过fc层计算，我们把fc层看作一个卷积窗口为1*1的卷积层，得到的feature map维度与object类别相同。

这样做的好处是对比首先crop再通过卷积计算feature map的做法，直接通过fc层计算可以减少许多重复的卷积计算量，crop出来的图像之间必然会有重叠的部分，这些重叠部分增加了测试时卷积的计算量，但是笔者认为既然在训练时使用crop来做数据增量，测试时用crop可以增加网络输出的置信度（每个crop输出分类结果，这个结果甚至可以用来做类似bagging的训练），如果面对实时性要求比较高的情况，对整张图片应用fc层是比较可行的方法。

5 其它

http://www.voidcn.com/blog/kangroger/article/p-6409081.html

你可能感兴趣的:(ImageNet调查报告)

无形中的数据泄漏
勒索软件和外部黑客继续充当2018数据泄露事件头号原因全世界超过1/4的数据泄露都起源于公司“内部人员”的电脑台位，而且还不仅仅是单纯误点了可疑链接那么简单。不过，管理员们对这样的情况应该已经习以为常了。威瑞森最近的一份《数据泄露调查报告》(DBIR)显示，全年25%的攻击都是内部人所致，主要是求财、找情报，或者就是一时疏忽或误操作了。报告还称，约50%的数据泄露是犯罪团伙所为，而1/10的数
2023-05-08 TVXQMAX
美国网络攻击的目标瞄准了全世界中国西北工业大学”遭受网络攻击的调查报告公布，又是美国在搞事。调查发现，主导网络攻击的并非个人，而是一个叫特定入侵行动办公室的机构，英语简称为TAO，隶属于美国国家安全局。本次攻击行动由TAO负责人直接参与指挥，内部代号为“阻击XXXX”（shotXXXX）。动用了40余种网络攻击武器，持续开展对西北工业大学的窃密行动。虽然TAO不为世人所熟知，但他们组织庞大，计划周
锦说定投106：你能承受多大的亏损？阿锦在行动
投资股票基金的时候，如果没有太多的投资经验，看到市场下跌，难免会担心受怕。一般微跌的时候，心理状态还可以。然而跌到一定程度，可能就会跌破自己的心理防线，难以坚持下来了。下跌更多之后，甚至会引发恐慌性的赎回潮。那这个下跌的心理防线，大概是跌多少呢？投资者的心理防线前段时间证券业协会和基金业协会，发布了一个调查问卷，《2019年度全国公募基金投资者状况调查报告》，里面有一些很有意思的数据。有89.3%
福布斯：聚焦OPPO超级闪充背后的匠人笔点酷玩
OPPO的超级闪充究竟有多大价值？一项用户调查报告显示，用户之所以会选择购买OPPO手机，有20%以上是冲着VOOC闪充！2018年OPPOFindX兰博基尼版携SuperVOOC超级闪充一同亮相之后，这一影响权重再次加大。截止到现在，全球已有超过1亿台拥有OPPO闪充技术的智能手机。可以说，OPPO能够与苹果三星平起平坐，跃升为世界手机五强之一，闪充的功劳不可忽视。权威杂志《福布斯》很显然也对O
猫狗图像分类深度学习模型：VGG-13网络训练实战
本文还有配套的精品资源，点击获取简介：猫狗分类模型基于VGG-13网络，这是一个在ImageNet竞赛中获得认可的深度卷积神经网络。VGG-13的特点是其包含多个3x3卷积层和全连接层，它能够有效地提取复杂的图像特征，用以区分猫和狗。模型通过大量标记图像的训练，使权重和偏置得以优化，以实现高精度的分类。本文档的文件列表包括了模型训练后得到的权重和偏置，这些都是进行图像分类时的核心参数。1.VGG-
门诊医疗迈入“数字深水区“：信息化重构就医生态的四大支点争实科技重构人工智能互联网医院医疗信息化
在国家卫生健康委《2023年全民健康信息化调查报告》中显示，我国三级医院电子病历应用水平平均分级达4.72级，较2020年提升1.85级。这一数据背后，是医疗信息化从工具升级转向系统重构的深刻变革。以下通过经核实的案例与数据，解析这场变革的四大核心支点。一、智能预问诊：破解"挂号迷宫"的认知革命▍AI分诊的精准进化上海瑞金医院2023年12月发布的《智能预问诊系统年度报告》显示，其自主研发的第四代
pytorch图像分类全流程（二）前人栽树,后人乘凉 datawhale pytorch pytorch 分类 python
本次使用的是ImageNet1000类别信息，resnet18预训练模型。记录一些一坑和知识点。在传入图片或视频之前我们都会对其进行预处理，归纳下来为四个字母RCTN：缩放、裁剪、转Tensor、归一化，可以使用transforms.Compose()函数打包对应四个函数进行预处理，当然这里有个小坑，transforms.Compose()只接受pillow格式的图像，不能拿opencv传入图片。
Vue.js 全面解析：构建现代前端应用的渐进式框架斯~内克 vue知识点前端 vue.js
一、Vue.js的核心价值与演进1.1前端框架的变革与Vue的定位根据2024年StateofJS调查报告，Vue.js以82%的开发者满意度稳居前端框架前三甲。其核心优势体现在：渐进式架构：可从轻量级视图层扩展至全栈解决方案响应式系统：基于Proxy的精准依赖追踪（Vue3）组合式API：代码复用率提升60%以上生态系统：覆盖SSR、状态管理、移动端等20+场景1.2版本演进里程碑版本发布时间里
SUSE让AI可观测，助企业摆脱盲马夜行
当今时代，企业运营和发展越来越依赖于数字化技术。要说技术里的“当红炸子鸡”，非AI莫属。无数企业寄希望于借助AI转型，但同时又焦虑于如何用好AI。有句话是这么说的：“焦虑来源于恐惧，恐惧来源于未知。”“未知”出人意料地成为目前困扰众多企业迈出AI创新的最大迷雾——相关调查报告指出，至2025年1月份，仅有44%的AIPoC进入生产环节；同时由于模型及工具应用的不一致性、扩展及信任等各种原因，预计在
如何使用Python实现交通工具识别
如何使用Python实现交通工具识别文章目录技术架构功能流程识别逻辑用户界面增强特性依赖项主要类别内容展示该系统是一个基于深度学习的交通工具识别工具，具备以下核心功能与特点：技术架构使用预训练的ResNet50卷积神经网络模型（来自ImageNet数据集）集成图像增强预处理技术（随机裁剪、旋转、翻转等）采用多数投票机制提升预测稳定性基于置信度评分的结果筛选策略功能流程用户通过GUI界面选择待识别图
ResNet：深度卷积神经网络的里程碑心想事“程” 小知识点 cnn 人工智能神经网络
一、引言在深度学习的发展历程中，深度卷积神经网络（CNN）不断演进，旨在提升对图像等数据的特征提取与分类能力。然而，随着网络层数的增加，传统CNN面临着梯度消失、梯度爆炸以及退化等棘手问题，训练变得愈发困难。2015年，由微软研究院提出的ResNet（ResidualNetworks，残差网络）横空出世，它以独特的残差学习思想，成功攻克了这些难题，在ImageNet竞赛中大放异彩，开创了深度神经网
卷积神经网络架构的演进：从AlexNet到EfficientNet t0_54manong 大数据与人工智能 cnn 架构人工智能个人开发
在过去的8.5年里，深度学习取得了飞速的进步。回溯到2012年，AlexNet在ImageNet上的Top-1准确率仅为63.3%，而如今，借助EfficientNet架构和师生训练法，我们已经能达到超过90%的准确率。本文将聚焦于卷积神经网络（CNN）架构的演变，深入探究其背后的基本原理。一些关键术语在深入了解各种架构之前，我们需要明确几个关键术语。更宽的网络意味着卷积层中有更多的特征图（滤波器
网络安全之注入攻击：原理、危害与防御之道
网络安全之注入攻击：原理、危害与防御之道引言在OWASPTop10安全风险榜单中，注入攻击常年占据首位。2023年Verizon数据泄露调查报告显示，67%的Web应用漏洞与注入类攻击直接相关。本文从技术视角系统解析注入攻击的核心原理、典型场景及防御体系，揭示这一"网络安全头号杀手"的攻防博弈。一、注入攻击的本质与分类1.1基本定义当应用程序将非可信数据（UntrustedData）作为代码解析时
【2025CVPR】SEC-Prompt：少样本增量学习中的语义互补提示模型详解清风AI 生成对抗网络人工智能神经网络 pcm 目标跟踪深度学习计算机视觉
目录一、研究背景：少样本增量学习的挑战二、SEC-Prompt核心原理1.自适应层次化查询（AdaptiveHierarchicalQuery）2.语义互补提示机制（1）判别性提示（D-Prompt）（2）非判别性提示（ND-Prompt）3.训练策略创新（1）判别性提示聚类损失（2）ND-Prompt数据增强三、模型架构图解四、关键创新点五、实验结果对比1.ImageNet-R结果2.CUB20
Random Erasing：计算机视觉的「隐形斗篷」——遮挡艺术的对抗学习革命星光银河深度学习-代表性技术主题 /概念层面计算机视觉学习人工智能 cnn 神经网络深度学习
当ImageNet冠军模型在真实世界的遮挡面前崩溃时（识别准确率骤降38%），中科院自动化研究所2017年提出的RandomErasing技术以一纸惊艳了学界。这种在图像中随机挖洞的简单操作，让ResNet-50在Partial-iNaturalist数据集上抗遮挡能力提升4.2倍，错误率降低59%，揭示了模型鲁棒性的深层密码。️遮挡困境：视觉模型的阿喀琉斯之踵图像识别鲁棒性演化史时代技术Imag
Python Day44 别勉. python机器学习 python 开发语言
Task：1.预训练的概念2.常见的分类预训练模型3.图像预训练模型的发展史4.预训练的策略5.预训练代码实战：resnet181.预训练的概念预训练（Pre-training）是指在大规模数据集上，先训练模型以学习通用的特征表示，然后将其用于特定任务的微调。这种方法可以显著提高模型在目标任务上的性能，减少训练时间和所需数据量。核心思想：在大规模、通用的数据（如ImageNet）上训练模型，学习丰
可商用的AI训练数据哪里找？工程师亲测有效的解决方案 MyLadyShuShu 人工智能数据要素医疗数据数据交易
一、为什么90%的AI项目卡在数据关？根据Gartner2024年AI实施调查报告显示：67%的企业在AI项目初期面临数据不足或质量低下问题52%的项目因数据版权纠纷导致延期（来源：IDC《全球AI合规白皮书》）自建标注团队成本高达$35/小时（麦肯锡2023年标注行业调研）二、为什么商用AI数据这么难找？做AI项目的工程师最常遇到的三大难题：网上开源数据不能用数据杂乱，清洗要花80%时间很多数据
OSS与NAS混合云存储架构：非结构化数据统一管理实战
AI训练集管理面临的核心挑战：数据规模爆炸式增长与访问模式多样化的矛盾。ImageNet等典型数据集已达150TB规模，传统单一存储方案面临三重困境：NAS在PB级场景下硬件成本呈指数增长OSS对象存储无法满足高频随机访问需求跨存储数据访问导致训练流程碎片化混合架构创新点：通过统一命名空间整合OSS与NAS，实现热数据本地加速与冷数据云存储的自动分层。实测表明该方案使存储成本降低62%，训练迭代速
以numpy或Torch的格式存储的公开数据集以科技求富强多模态聚类学习数据库 python 大数据 database
现有的以numpy或Torch的格式存储的公开数据集1.**MNIST**2.**CIFAR-10/CIFAR-100**3.**ImageNet**4.**COCO(CommonObjectsinContext)**5.**PascalVOC**6.**Fashion-MNIST**7.**BostonHousing**8.**Iris**9.**KITTI**10.**CelebA**11.*
攻击者泄露740万巴拉圭公民个人信息，索要人均1美元赎金 FreeBuf- php 开发语言
国家级数据泄露事件在一场针对主权国家最大胆的网络攻击中，威胁行为者将巴拉圭近740万公民的个人数据泄露至暗网，并索要740万美元赎金（约合人均1美元）。网络安全公司Resecurity在2025年6月13日发布的调查报告中指出："这起勒索软件组织对全国实施敲诈的事件，可能是该国历史上最严重的网络安全事故之一。"攻击者使用Gatito_FBI_Nz和el_farado等化名，通过种子文件发布被盗数据
深度学习之模型压缩三驾马车：基于ResNet18的模型剪枝实战（1） king of code porter 深度学习深度学习剪枝人工智能
一、背景：为什么需要模型剪枝？随着深度学习的发展，模型参数量和计算量呈指数级增长。以ResNet18为例，其在ImageNet上的参数量约为1100万，虽然在服务器端运行流畅，但在移动端或嵌入式设备上部署时，内存和计算资源的限制使得直接使用大模型变得困难。模型剪枝（ModelPruning）作为模型压缩的核心技术之一，通过删除冗余的神经元或通道，在保持模型性能的前提下显著降低模型大小和计算量，是解
CSPNet: 一种增强CNN学习能力的新型骨干网络简诚 cnn 学习人工智能
论文翻译与总结标题CSPNet:一种增强CNN学习能力的新型骨干网络摘要翻译神经网络在目标检测等计算机视觉任务中取得了显著成果，但其成功高度依赖昂贵的计算资源，限制了在廉价设备上的应用。本文提出跨阶段部分网络（CSPNet），从网络架构角度解决先前工作推理计算量大的问题。该问题源于网络优化中的梯度信息重复。CSPNet通过整合网络阶段起始和结束的特征图，保留梯度的多样性，在ImageNet数据集上
深度学习 backbone，neck，head网络关键组成 SLAM必须dunk 深度学习人工智能
在深度学习，尤其是计算机视觉任务中，backbone（骨干网络），neck（颈部），head（头部）是网络的关键组成部分，各自承担了不同的功能：1，总署：Backbone,译作骨干网络，主要指用于特征提取的，已在大型数据集(例如ImageNet|COCO等)上完成预训练，拥有预训练参数的卷积神经网络，例如：ResNet-50、Darknet53等;Head，译作检测头，主要用于预测目标的种类和位置
深度学习入门指南：从基础概念到代码实践软考和人工智能学堂人工智能 #深度学习 Python开发经验深度学习人工智能
深度学习入门指南：从基础概念到代码实践1.深度学习概述深度学习是机器学习的一个分支，它通过模拟人脑神经元的工作方式，构建多层次的神经网络模型来处理复杂的数据模式。与传统机器学习方法相比，深度学习能够自动从原始数据中学习特征表示，无需过多的人工特征工程。深度学习已经在计算机视觉、自然语言处理、语音识别等领域取得了突破性进展。例如，ImageNet竞赛中深度学习模型的识别准确率已经超过人类水平，而GP
30 - Partnet模块 Leo Chaw 深度学习算法实现 pytorch 计算机视觉人工智能深度学习神经网络
论文《NON-DEEPNETWORKS》1、作用论文提出了“Partnet”，这是一种新型的神经网络架构，旨在不依赖传统的深层架构就能在视觉识别任务中达到高性能。展示了在大规模基准测试如ImageNet、CIFAR-10和CIFAR-100上，即便是层数大大减少（大约12层）的网络也能够保持竞争力。2、机制1、Partnet采用并行子网络而不是传统的顺序层叠，从而减少了网络深度，同时保持或甚至增强
Python----神经网络发（神经网络发展历程）蹦蹦跳跳真可爱589 Python 深度学习神经网络计算机视觉神经网络人工智能深度学习 python
年份网络名称突出点主要成就论文地址1989LeNet首个现代卷积神经网络（CNN），引入卷积、池化操作手写数字识别先驱，奠定CNN基础MNISTDemosonYannLeCun'swebsite2012AlexNet首次大规模使用深度卷积神经网络进行图像识别；引入ReLU、Dropout、重叠池化、GPU加速；大规模数据增强。2012年ImageNet图像识别竞赛冠军，Top-5错误率远低于第二名
《AI算力成本暴跌背后：硬件、算法与能源的深度变革！》嘉图明人工智能算法能源
《AI算力成本暴跌背后：硬件、算法与能源的深度变革！》1.AI模型算力成本的下降趋势及驱动因素算力成本持续下降：近年来训练和运行AI模型的单位算力成本呈明显下降趋势。有分析指出，AI模型的计算成本正以每年约10%甚至更高的速度降低其中不仅包括硬件价格/性能比的提升，也包括算法效率的改进。例如，OpenAI的研究显示，自2012年以来，在保持ImageNet分类同等性能的前提下，训练所需的计算量每1
家长必读：儿童上网7大防护策略+3款家长控制工具实测月_o9 量子计算 web安全安全网络经验分享
家长必读：儿童上网7大防护策略+3款家长控制工具实测在数字时代，儿童接触网络的年龄不断提前。据《2023年青少年网络素养调查报告》，我国6-18岁未成年人日均上网时长已达3.8小时，但仅有37%的家长系统部署过网络安全防护措施。面对网络暴力、不良信息、隐私泄露等风险，如何为孩子构筑安全防线？本文结合行为干预与技术工具，总结实战型防护方案。一、儿童上网7大核心防护策略1.设备隔离：建立“纯净空间”物
百度百舸万卡集群的训练稳定性系统设计和实践百度Geek说语言模型持续集成
01AI训练稳定性的演进历程2012年ImageNet竞赛中AlexNet的横空出世，开启了现代AI发展的新纪元。彼时我们不会想到，十年后支撑AI训练的GPU集群会从研究室里的几台服务器，发展成需要专门供电系统的万卡级计算矩阵。在这个算力爆发式增长的过程中，训练系统的稳定性管理正经历着从「简单运维」到「精密工程」的深刻变革。1.1标****早期的小模型时代：手动运维的黄金年代2022年之前的AI训
(七) 深度学习进阶：现代卷积神经网络技术解析与应用实践只有左边一个小酒窝动手学深度学习深度学习 cnn 人工智能
1深度卷积神经网络（AlexNet）AlexNet是由AlexKrizhevsky、IlyaSutskever和GeoffreyHinton于2012年提出的卷积神经网络，它在当年的ImageNet图像识别挑战赛中取得了突破性进展。AlexNet的成功标志着深度学习在计算机视觉领域的崛起，其设计和创新对后续的深度学习模型产生了深远影响。1.1AlexNet的背景与创新在AlexNet出现之前，计算
数据采集高并发的架构应用 3golden .net
问题的出发点：最近公司为了发展需要，要扩大对用户的信息采集，每个用户的采集量估计约2W。如果用户量增加的话，将会大量照成采集量成3W倍的增长，但是又要满足日常业务需要，特别是指令要及时得到响应的频率次数远大于预期。 &n
不停止 MySQL 服务增加从库的两种方式 brotherlamp linux linux视频 linux资料 linux教程 linux自学
现在生产环境MySQL数据库是一主一从，由于业务量访问不断增大，故再增加一台从库。前提是不能影响线上业务使用，也就是说不能重启MySQL服务，为了避免出现其他情况，选择在网站访问量低峰期时间段操作。一般在线增加从库有两种方式，一种是通过mysqldump备份主库，恢复到从库，mysqldump是逻辑备份，数据量大时，备份速度会很慢，锁表的时间也会很长。另一种是通过xtrabacku
Quartz——SimpleTrigger触发器 eksliang SimpleTrigger TriggerUtils quartz
转载请出自出处：http://eksliang.iteye.com/blog/2208166 一.概述 SimpleTrigger触发器，当且仅需触发一次或者以固定时间间隔周期触发执行；二.SimpleTrigger的构造函数 SimpleTrigger(String name, String group)：通过该构造函数指定Trigger所属组和名称； Simpl
Informatica应用（1） 18289753290 sql workflow lookup 组件 Informatica
1.如果要在workflow中调用shell脚本有一个command组件，在里面设置shell的路径；调度wf可以右键出现schedule，现在用的是HP的tidal调度wf的执行。 2.designer里面的router类似于SSIS中的broadcast（多播组件）;Reset_Workflow_Var：参数重置（比如说我这个参数初始是1在workflow跑得过程中变成了3我要在结束时还要
python 获取图片验证码中文字酷的飞上天空 python
根据现成的开源项目 http://code.google.com/p/pytesser/改写在window上用easy_install安装不上看了下源码发现代码很少于是就想自己改写一下添加支持网络图片的直接解析 #coding:utf-8 #import sys #reload(sys) #sys.s
AJAX 永夜-极光 Ajax
1.AJAX功能:动态更新页面,减少流量消耗,减轻服务器负担 2.代码结构: <html> <head> <script type="text/javascript"> function loadXMLDoc() { .... AJAX script goes here ...
创业OR读研随便小屋创业
现在研一，有种想创业的想法，不知道该不该去实施。因为对于的我情况这两者是矛盾的，可能就是鱼与熊掌不能兼得。研一的生活刚刚过去两个月，我们学校主要的是
需求做得好与坏直接关系着程序员生活质量 aijuans IT 生活
这个故事还得从去年换工作的事情说起，由于自己不太喜欢第一家公司的环境我选择了换一份工作。去年九月份我入职现在的这家公司，专门从事金融业内软件的开发。十一月份我们整个项目组前往北京做现场开发，从此苦逼的日子开始了。系统背景：五月份就有同事前往甲方了解需求一直到6月份，后续几个月也完
如何定义和区分高级软件开发工程师 aoyouzi
在软件开发领域，高级开发工程师通常是指那些编写代码超过 3 年的人。这些人可能会被放到领导的位置，但经常会产生非常糟糕的结果。Matt Briggs 是一名高级开发工程师兼 Scrum 管理员。他认为，单纯使用年限来划分开发人员存在问题，两个同样具有 10 年开发经验的开发人员可能大不相同。近日，他发表了一篇博文，根据开发者所能发挥的作用划分软件开发工程师的成长阶段。　　初
Servlet的请求与响应百合不是茶 servlet get提交 java处理post提交
Servlet是tomcat中的一个重要组成,也是负责客户端和服务端的中介 1,Http的请求方式(get ,post); 客户端的请求一般都会都是Servlet来接受的,在接收之前怎么来确定是那种方式提交的,以及如何反馈,Servlet中有相应的方法, http的get方式 servlet就是都doGet(
web.xml配置详解之listener bijian1013 java web.xml listener
一.定义 <listener> <listen-class>com.myapp.MyListener</listen-class> </listener> 二.作用该元素用来注册一个监听器类。可以收到事件什么时候发生以及用什么作为响
Web页面性能优化（yahoo技术） Bill_chen JavaScript Ajax Web css Yahoo
1.尽可能的减少HTTP请求数 content 2.使用CDN server 3.添加Expires头(或者 Cache-control) server 4.Gzip 组件 server 5.把CSS样式放在页面的上方。 css 6.将脚本放在底部(包括内联的) javascript 7.避免在CSS中使用Expressions css 8.将javascript和css独立成外部文
【MongoDB学习笔记八】MongoDB游标、分页查询、查询结果排序 bit1129 mongodb
游标游标，简单的说就是一个查询结果的指针。游标作为数据库的一个对象，使用它是包括声明打开循环抓去一定数目的文档直到结果集中的所有文档已经抓取完关闭游标游标的基本用法，类似于JDBC的ResultSet(hasNext判断是否抓去完,next移动游标到下一条文档)，在获取一个文档集时，可以提供一个类似JDBC的FetchSize
ORA-12514 TNS 监听程序当前无法识别连接描述符中请求服务的解决方法白糖_ ORA-12514
今天通过Oracle SQL*Plus连接远端服务器的时候提示“监听程序当前无法识别连接描述符中请求服务”，遂在网上找到了解决方案： ①打开Oracle服务器安装目录\NETWORK\ADMIN\listener.ora文件，你会看到如下信息： # listener.ora Network Configuration File: D:\database\Oracle\net
Eclipse 问题 A resource exists with a different case bozch eclipse
在使用Eclipse进行开发的时候，出现了如下的问题： Description Resource Path Location TypeThe project was not built due to "A resource exists with a different case: '/SeenTaoImp_zhV2/bin/seentao'.&
编程之美-小飞的电梯调度算法 bylijinnan 编程之美
public class AptElevator { /** * 编程之美小飞电梯调度算法 * 在繁忙的时间，每次电梯从一层往上走时，我们只允许电梯停在其中的某一层。 * 所有乘客都从一楼上电梯，到达某层楼后，电梯听下来，所有乘客再从这里爬楼梯到自己的目的层。 * 在一楼时，每个乘客选择自己的目的层，电梯则自动计算出应停的楼层。 * 问：电梯停在哪
SQL注入相关概念 chenbowen00 sql Web 安全
SQL Injection：就是通过把SQL命令插入到Web表单递交或输入域名或页面请求的查询字符串，最终达到欺骗服务器执行恶意的SQL命令。具体来说，它是利用现有应用程序，将（恶意）的SQL命令注入到后台数据库引擎执行的能力，它可以通过在Web表单中输入（恶意）SQL语句得到一个存在安全漏洞的网站上的数据库，而不是按照设计者意图去执行SQL语句。首先让我们了解什么时候可能发生SQ
[光与电]光子信号战防御原理 comsci 原理
无论是在战场上,还是在后方,敌人都有可能用光子信号对人体进行控制和攻击,那么采取什么样的防御方法,最简单,最有效呢? 我们这里有几个山寨的办法,可能有些作用,大家如果有兴趣可以去实验一下根据光
oracle 11g新特性:Pending Statistics daizj oracle dbms_stats
oracle 11g新特性:Pending Statistics 转从11g开始，表与索引的统计信息收集完毕后，可以选择收集的统信息立即发布，也可以选择使新收集的统计信息处于pending状态，待确定处于pending状态的统计信息是安全的，再使处于pending状态的统计信息发布，这样就会避免一些因为收集统计信息立即发布而导致SQL执行计划走错的灾难。在 11g 之前的版本中，D
快速理解RequireJs dengkane jquery requirejs
RequireJs已经流行很久了，我们在项目中也打算使用它。它提供了以下功能：声明不同js文件之间的依赖可以按需、并行、延时载入js库可以让我们的代码以模块化的方式组织初看起来并不复杂。在html中引入requirejs 在HTML中，添加这样的 <script> 标签： <script src="/path/to
C语言学习四流程控制if条件选择、for循环和强制类型转换 dcj3sjt126com c
# include <stdio.h> int main(void) { int i, j; scanf("%d %d", &i, &j); if (i > j) printf("i大于j\n"); else printf("i小于j\n"); retu
dictionary的使用要注意 dcj3sjt126com IO
NSDictionary *dict = [NSDictionary dictionaryWithObjectsAndKeys: user.user_id , @"id", user.username , @"username",
Android 中的资源访问(Resource) finally_m xml android String drawable color
简单的说，Android中的资源是指非代码部分。例如，在我们的Android程序中要使用一些图片来设置界面，要使用一些音频文件来设置铃声，要使用一些动画来显示特效，要使用一些字符串来显示提示信息。那么，这些图片、音频、动画和字符串等叫做Android中的资源文件。在Eclipse创建的工程中，我们可以看到res和assets两个文件夹，是用来保存资源文件的，在assets中保存的一般是原生
Spring使用Cache、整合Ehcache 234390216 spring cache ehcache @Cacheable
Spring使用Cache 从3.1开始，Spring引入了对Cache的支持。其使用方法和原理都类似于Spring对事务管理的支持。Spring Cache是作用在方法上的，其核心思想是这样的：当我们在调用一个缓存方法时会把该方法参数和返回结果作为一个键值对存放在缓存中，等到下次利用同样的
当druid遇上oracle blob(clob) jackyrong oracle
http://blog.csdn.net/renfufei/article/details/44887371 众所周知，Oracle有很多坑, 所以才有了去IOE。在使用Druid做数据库连接池后，其实偶尔也会碰到小坑，这就是使用开源项目所必须去填平的。【如果使用不开源的产品，那就不是坑，而是陷阱了，你都不知道怎么去填坑】用Druid连接池，通过JDBC往Oracle数据库的
easyui datagrid pagination获得分页页码、总页数等信息 ldzyz007
var grid = $('#datagrid'); var options = grid.datagrid('getPager').data("pagination").options; var curr = options.pageNumber; var total = options.total; var max =
浅析awk里的数组 nigelzeng 二维数组 array 数组 awk
awk绝对是文本处理中的神器，它本身也是一门编程语言，还有许多功能本人没有使用到。这篇文章就单单针对awk里的数组来进行讨论，如何利用数组来帮助完成文本分析。有这么一组数据： abcd,91#31#2012-12-31 11:24:00 case_a,136#19#2012-12-31 11:24:00 case_a,136#23#2012-12-31 1
搭建 CentOS 6 服务器(6) - TigerVNC rensanning centos
安装GNOME桌面环境 # yum groupinstall "X Window System" "Desktop" 安装TigerVNC # yum -y install tigervnc-server tigervnc 启动VNC服务 # /etc/init.d/vncserver restart # vncser
Spring 数据库连接整理 tomcat_oracle spring bean jdbc
1、数据库连接jdbc.properties配置详解　　jdbc.url=jdbc:hsqldb:hsql://localhost/xdb 　　jdbc.username=sa 　　jdbc.password= 　　jdbc.driver=不同的数据库厂商驱动，此处不一一列举　　接下来，详细配置代码如下：　　 Spring连接池
Dom4J解析使用xpath java.lang.NoClassDefFoundError: org/jaxen/JaxenException异常 xp9802
用Dom4J解析xml,以前没注意,今天使用dom4j包解析xml时在xpath使用处报错异常栈：java.lang.NoClassDefFoundError: org/jaxen/JaxenException异常导入包 jaxen-1.1-beta-6.jar 解决; &nb