一个小猴子｀

论文精读(MobileVIT)《MOBILEVIT: LIGHT-WEIGHT, GENERAL-PURPOSE, AND MOBILE-FRIENDLY VISION TRANSFORMER》

文章目录

ABSTRACT
1、INTRODUCTION
2、RELATED WORK
3、MOBILEVIT: A LIGHT-WEIGHT TRANSFORMER
- 3.1、MOBILEVIT ARCHITECTURE
- 3.2 MULTI-SCALE SAMPLER FOR TRAINING EFFICIENCY
4、EXPERIMENTAL RESULTS
- 4.1、IMAGENET-1 K数据集上的图象分类
- 4.2、MobileVIT作为通用backbone
- - 4.2.1、MOBILE OBJECT DETECTION
  - 4.2.2、MOBILE OBJECT DETECTION
- 4.3、PERFORMANCE ON MOBILE DEVICES
讨论

ABSTRACT

翻译

轻量级的卷积神经网络(cnn)实际上是用于移动视觉任务的。他们的空间归纳偏置允许他们在不同的视觉任务中以更少的参数学习表征。然而，这些网络是空间局部的。为了学习全局表示，采用了基于自我注意的Vision Transoformer(vit)。与cnn不同，vit是重量级的。在本文中，我们提出了以下问题:是否有可能结合cnn和vit的优势，构建一个轻量级、低延迟的移动视觉任务网络?为此，我们引入了MobileViT，一种用于移动设备的轻量级通用vision transformer。MobileViT为Transformer的全局信息处理提供了一个不同的视角。我们的结果表明，MobileViT在不同的任务和数据集上显著优于基于CNN 和 VIT-base的网络。在ImageNet-1k数据集上，MobileViT以大约600万个参数获得了78.4%的最佳精度，在相同数量的参数下，比MobileNetv3(基于cnn)和DeIT(基于viti)的精度分别高出3.2%和6.2%。在MS-COCO目标检测任务中，对于类似数量的参数，MobileViT比MobileNetv3的精度高5.7%。我们的源代码是开源的，可以在以下网站获取:https://github.com/apple/ml-cvnets.

精读

CNN的优势和不足：CNN归纳偏置的特性允许他们在不同的视觉任务中以更少的参数学习表征，但是这些网络是空间局部的。
Transoformer的优势和不足：能够注意到全局信息，但是参数量太大
改进思想：是否有可能结合cnn和vit的优势，构建一个轻量级、低延迟的移动视觉任务网络?
提出的方法：MobileViT
效果：在600万的参数下获得了78.4%的，比MobileNetV3和DeIT的表现好

1、INTRODUCTION

翻译

基于自我注意力的模型，特别是Vision Transformer（ViTs;图1a; Dosovitskiy等人，2021），是卷积神经网络（CNN）的替代方案，用于学习视觉表示。简单地说，ViT将图像划分为一系列非重叠的patch，然后使用transformers中的多头自注意力来学习patch间的表示（Vaswani等人，2017年）。总的趋势是增加ViT网络中的参数数量以提高性能（例如，Touvron等人，2021 a; Graham等人，2021; Wu等人，2021年）。然而，这些性能改进是以模型大小（网络参数）和延迟为代价的。许多现实世界的应用程序（例如，增强现实和自主轮椅）需要视觉识别任务（例如，对象检测和语义分割）以及时地在资源受限的移动的设备上运行。为了有效，用于此类任务的ViT模型应该是轻量级和快速的。即使ViT模型的模型大小被减小以匹配移动的设备的资源约束，它们的性能也明显比轻量级CNN差。例如，对于约5-6百万的参数预算，DeIT（Touvron等人，2021 a）比MobileNetv 3（霍华德等人，2019年）。因此，设计轻量化的ViT势在必行。

轻量级CNN为许多移动的视觉任务提供了动力。然而，基于ViT的网络还远未在此类设备上使用。与易于优化和与特定任务网络集成的轻量级CNN不同，ViT是重量级的（例如，ViT-B/16 vs. MobileNetv 3：86 vs. 750万个参数），更难优化（Xiao等人，2021），需要广泛的数据增强和L2正则化，以防止过度拟合（Touvron等人，2021 a; Wang等人，2021），并且需要昂贵的解码器用于下游任务，特别是用于密集预测任务。例如，基于ViT的分割网络（Ranftl等人，2021）学习了大约3.45亿个参数，并实现了与基于CNN的网络DeepLabv 3（Chen et al.，2017），有5900万个参数。在基于ViT的模型中需要更多参数可能是因为它们缺乏CNN固有的图像特异性归纳偏差（Xiao et al.，2021年）。为了构建鲁棒且高性能的ViT模型，结合联合CNN和Transformer的混合方法正引起人们的兴趣（Xiao等人，2021; d 'Ascoli等人，2021; Chen等人，2021 b）。然而，这些混合模型仍然是重量级的，并且对数据增强敏感。例如，去除CutMix（Zhong等人，2020）和DeIT风格（Touvron等人，2021 a）数据增强导致Heo等人（2021）的ImageNet准确率显著下降（78.1%至72.4%）。

结合CNN和transformers的优势来构建用于移动的视觉任务的ViT模型仍然是一个悬而未决的问题。移动的视觉任务需要满足设备资源约束的轻量级、低延迟和准确的模型，并且是通用的，使得它们可以应用于不同的任务（例如，分割和检测）。注意，浮点运算（FLOP）对于移动的设备上的低延迟是不够的，因为FLOP忽略了几个重要的与推理相关的因素，例如存储器访问、并行度和平台特性（Ma等人，2018年）。例如，Heo等人（2021）的基于ViT的方法PiT的FLOP比DeIT少3倍（Touvron等人，2021 a），但在移动终端上具有类似的推断速度（iPhone上的DeIT与PiT-12：10.99 ms与10.56 ms）。因此，本文的重点不是优化FLOP 1，而是为移动的视觉任务设计一个轻量级（§3），通用（§4.1和§4.2）和低延迟（§4.3）的网络。我们通过MobileViT实现了这一目标，MobileViT结合了CNN的优点（例如，空间感应偏差和对数据增强的较低灵敏度）和ViT（例如，输入自适应加权和全局处理）。具体来说，我们引入了MobileViT块，它有效地将局部和全局信息编码在张量中（图1b）。与ViT及其变体（有和没有卷积）不同，MobileViT提供了一个不同的视角来学习全局表示。标准卷积涉及三个操作：展开、局部处理和折叠。MobileViT块使用transformer将卷积中的局部处理替换为全局处理。这允许MobileViT块具有CNN和ViT类属性，这有助于它用更少的参数和简单的训练配方（例如，基本增长）。据我们所知，这是第一个表明轻量级ViT可以在不同的移动的视觉任务中通过简单的训练配方实现轻量级CNN级性能的工作。对于大约500 - 600万的参数预算，MobileViT在ImageNet-1 k数据集上实现了78.4%的top-1准确度（Russakovsky等人，2015年），比MobileNetv 3准确3.2%，并且具有简单的训练配方（MobileViT与MobileNetv 3：300与600 epoch; 1024与4096批次大小）。当MobileViT在高度优化的移动视觉任务特定架构中用作功能骨干时，我们还观察到性能的显著提高。替换MNASNet（Tan等人，2019），MobileViT作为SSDLite中的功能骨干（Sandler等人，2018）导致更好（+1.8%mAP）和更小（1.8×）的检测网络（图2）。

精读

之前VIT的不足：
1）总的趋势是增加ViT网络中的参数数量以提高性能，这些性能改进是以模型大小（网络参数）和延迟为代价的。
2）参数量小的VIT模型不如CNN
3）VIT难以优化，需要广泛的数据增强和L2正则化，以防止过度拟合
4）不能只以FLOP作为速度的衡量标准，还要考虑存储器访问、并行度和平台特性等

本文的目的
设计一个轻量化的VIT网络，需要满足设备资源约束的轻量级、低延迟和准确，并且是通用的，使得它们可以应用于不同的任务

提出的方法
设计了一个MobileViT块：使用transformer将卷积中的局部处理替换为全局处理

达到的效果
模型更小、更准确

2、RELATED WORK

翻译

轻量级CNN。 CNN中的基本构建层是标准卷积层。由于这一层在计算上是昂贵的，因此已经提出了几种基于因子分解的方法来使其重量轻且移动友好（例如，Jin等人，2014; Chollet，2017; Mehta等人，2020年）。其中，Chollet（2017）的可分离卷积引起了人们的兴趣，并广泛用于最先进的轻量级CNN，用于移动的视觉任务，包括MobileNets（霍华德et al.，2017; Sandler等人，2018;霍华德等人，2019）、ShuffleNetv 2（Ma等人，2018）、ESPNetv 2（Mehta等人，2019），MixNet（Tan & Le，2019 b）和MNASNet（Tan等人，2019年）。这些轻量级的CNN是通用的，易于训练。例如，这些网络可以容易地替换重量级骨干网（例如，ResNet（He等人，2016））中的现有任务特定模型（例如，DeepLabv 3），以减少网络规模和改善延迟。尽管有这些好处，这些方法的一个主要缺点是，它们是空间局部的。这项工作将transformers视为卷积;允许利用两种卷积的优点（例如，通用和简单的训练）和transformer（例如，全局处理）来构建轻量级（§3）和通用（§4.1和§4.2）ViT。

Vision transformers。 Dosovitskiy等人（2021）将Vaswani等人（2017）的transformer应用于大规模图像识别，并表明对于超大规模数据集（例如，JFT-300 M），ViT可以实现CNN级的精度，而无需图像特定的归纳偏置。通过广泛的数据增强、重L2正则化和蒸馏，可以在ImageNet数据集上训练ViTs，以实现CNN级性能（Touvron et al.，2021 a;B; Zhou等人，2021年）。然而，与CNN不同的是，ViT显示出不合格的可优化性，并且难以训练。后续工作（例如，Graham等人，2021; Dai等人，2021; Liu等人，2021; Wang等人，2021; Yuan等人，2021 b; Chen等人，2021 b）表明，这种不合标准的优化是由于缺乏空间归纳偏置的ViT。在ViT中使用卷积消除这种偏差可以提高其稳定性和性能。已经探索了不同的设计以获得卷积和变压器的好处。例如，Xiao等人（2021）的ViT-C为ViT添加了早期卷积干。CvT（Wu等人，2021）修改了transformers中的多头注意力，并使用深度可分离卷积代替线性投影。BoTNet（Srinivas等人，2021）用多头注意力取代了ResNet瓶颈单元中的标准3×3卷积。ConViT（d 'Ascoli等人，2021）使用门控位置自注意合并软卷积归纳偏置。PiT（Heo等人，2021）扩展了ViT与基于深度卷积的池化层。虽然这些模型可以通过广泛的增强实现与CNN竞争的性能，但这些模型中的大多数都是重量级的。例如，PiT和CvT学习的参数比EfficientNet多6.1倍和1.7倍（Tan & Le，2019 a），并分别在ImageNet 1 k数据集上实现了类似的性能（前1精度约为81.6%）。此外，当这些模型被缩小以构建轻量级ViT模型时，它们的性能明显比轻量级CNN差。对于大约600万的参数预算，PiT的ImageNet-1 k精度比MobileNetv 3低2.2%。

讨论。 与标准ViT相比，结合卷积和transformer可以产生鲁棒和高性能的ViT。然而，一个悬而未决的问题是：如何将cnn和transformer的优势结合起来，为移动的视觉任务构建轻量级网络？本文的重点是设计轻量级的ViT模型，这些模型通过简单的训练配方优于最先进的模型。为此，我们引入了MobileViT，它结合了CNN和ViT的优势，构建了一个轻量级、通用和移动友好的网络。MobileViT带来了一些新的观察。(i)更好的性能： 对于给定的参数预算，与现有的轻量级CNN相比，MobileViT模型在不同的移动视觉任务中实现了更好的性能（§4.1和§4.2）。(ii)泛化能力： 泛化能力是指训练和评估指标之间的差距。对于具有相似训练指标的两个模型，具有更好评估指标的模型更具可推广性，因为它可以在看不见的数据集上进行更好的预测。与先前的ViT变体（具有和不具有卷积）不同，与CNN相比，即使具有广泛的数据增强，ViT变体也显示出较差的泛化能力（Dai等人，2021年），MobileViT显示出更好的泛化能力（图3）。(iii)鲁棒性： 一个好的模型应该对超参数（例如，数据增强和L2正则化），因为调整这些超参数是耗时且耗费资源的。与大多数基于ViT的模型不同，MobileViT模型使用基本增强进行训练，对L2正则化不太敏感（§C）。

精读
主要内容
介绍了轻量化CNN、VIT和两者的混合

MobileVIT的特点
1）更好的性能
2）更轻的泛化能力
3）更强的鲁棒性：MobileViT模型使用基本增强进行训练，对L2正则化不太敏感

3、MOBILEVIT: A LIGHT-WEIGHT TRANSFORMER

翻译

如图1a所示，标准ViT模型将输入X ∈ R^H×W×C重新整形为一系列平坦的补丁X_f ∈ R^N×PC，将其投影到固定的d维空间Xp ∈ R^N×d中，然后使用L个Transformer块的堆栈学习patch间表示。在Vision Transformer中，自我注意的计算成本是O（N² d）。这里，C、H和W分别表示张量的通道、高度和宽度，并且P = wh是具有高度h和宽度w的patch中的像素的数量，并且N是patch的数量。由于这些模型忽略了CNN固有的空间归纳偏差，因此它们需要更多的参数来学习视觉表示。例如，DPT（Dosovitskiy等人，2021），一个基于ViT的网络，与DeepLabv 3相比，学习了6倍多的参数（Chen et al.，2017），一个基于CNN的网络，提供类似的分割性能（DPT与DeepLabv 3：345 M与59 M）。此外，与CNN相比，这些模型表现出低于标准的可优化性。这些模型对L2正则化敏感，并且需要大量的数据增强以防止过拟合（Touvron等人，2021 a; Xiao等人，2021年）。

本文介绍了一种轻量级的ViT模型MobileViT。核心思想是学习全局表示，将transformer作为卷积。这允许我们隐式地合并卷积类属性（例如，空间偏差），用简单的训练配方学习表示（例如，基本增强），并轻松集成MobileViT与下游架构（例如，DeepLabv3用于分割）。

精读

主要内容
介绍了MobileViT的核心思想：将transformer运用在卷积模块中学习全局表示。

3.1、MOBILEVIT ARCHITECTURE

翻译

MobileViT块。MobileViT块，如图1b所示，旨在用更少的参数在输入张量中对局部和全局信息进行建模。形式上，对于给定的输入张量X ∈ R^H×W×C，MobileViT应用n × n标准卷积层，然后是逐点（或1×1）卷积层，以产生X_L ∈ R^H×W×d。n×n卷积层编码局部空间信息，而逐点卷积通过学习输入通道的线性组合将张量投影到高维空间（或d维，其中d > C）。

使用MobileViT，我们希望在具有H ×W的有效感受野的同时对长距离非局部依赖性进行建模。一个广泛研究的方法来建模长距离依赖性是扩张卷积。然而，这种方法需要仔细选择扩张率。否则，权重被应用于填充的零而不是有效的空间区域（Yu & Koltun，2016; Chen等人，2017; Mehta等人，2018年）。另一个有希望的解决方案是self-attention（Wang et al.，2018; Ramachandran等人，2019; Bello等人，2019; Dosovitskiy等人，2021年）。在自我注意力方法中，具有多头自我注意力的视觉transformer（ViTs）被证明对视觉识别任务是有效的。然而，ViT是重量级的，并表现出低于标准的优化能力。这是因为ViTs缺乏空间感应偏差（Xiao et al.，2021; Graham等人，2021年）。

为了使MobileViT能够学习具有空间归纳偏置的全局表示，我们将X_L展开为N个不重叠的平坦patch X_U ∈ R^P×N×d。这里，P = wh，N = HW/P是patch的数量，并且h ≤ n和w ≤ n分别是patch的高度和宽度。对于每个p ∈ {1，· · ·，P}，通过应用transformer对片间关系进行编码，以获得X_G ∈ R^P×N×d：
X_G( p) = Transformer(X_U( p))，1 ≤ p ≤ P

与丢失像素空间顺序的ViT不同，MobileViT既不会丢失patch顺序，也不会丢失每个补丁内像素的空间顺序（图1b）。因此，我们可以折叠X_G ∈ R^P×N×d，得到X_F ∈ R^H×W×d。然后使用逐点卷积将X_F投影到低C维空间，并通过concatenation操作与X组合。然后使用另一个n × n卷积层来融合这些级联特征。请注意，由于X_U（p）使用卷积对来自n × n区域的局部信息进行编码，而X_G（p）对第p个位置的P个patch的全局信息进行编码，因此X_G中的每个像素都可以对来自X中所有像素的信息进行编码，如图4所示。因此，MobileViT的整体有效感受野为H ×W。

与卷积的关系。 标准卷积可以被视为三个顺序操作的堆栈：（1）展开，（2）矩阵乘法（学习局部表示）和（3）折叠。MobileViT块类似于卷积，因为它也利用了相同的构建块。MobileViT块将卷积中的局部处理（矩阵乘法）替换为更深层次的全局处理（Transformer层的堆栈）。因此，MobileViT具有类似卷积的属性（例如，空间偏差）。因此，MobileViT块可以被看作是卷积的变换器。我们有意简化设计的一个优点是，卷积和变压器的低级别有效实现可以开箱即用;使我们能够在不同的设备上使用MobileViT，而无需任何额外的努力。

轻量化。 MobileViT块使用标准卷积和transformers分别学习局部和全局表示。因为以前的作品（例如，霍华德等人，2017; Mehta等人，2021 a）已经表明，使用这些层设计的网络是重量级的，一个自然的问题出现了：为什么MobileViT是轻量级的？我们认为，问题主要在于transformer学习全局表示。对于给定的patch，以前的作品（例如，Touvron等人，2021 a; Graham等人，2021）通过学习像素的线性组合将空间信息转换为潜在信息（图1a）。然后通过使用transforner学习patch间的信息来编码全局信息。因此，这些模型失去了CNN固有的图像特定的归纳偏差。因此，他们需要更多的能力来学习视觉表示。因此，它们既深又宽。与这些模型不同的是，MobileViT使用卷积结合transformer的方式，结果MobileViT块具有类似卷积的属性，同时允许全局处理。这种建模能力使我们能够设计浅而窄的MobileViT模型，而这些模型又是轻量级的。与使用L=12和d=192的基于ViT的模型DeIT相比，MobileViT模型分别在32 × 32、16 × 16和8 × 8的空间水平上使用L= {2，4，3}和d={96，120，144}。结果MobileViT网络比DeIT网络更快（1.85倍），更小（2倍），更好（+1.8%）（表3; §4.3）。

计算成本。 在MobileViT和ViTs（图1a）中，多头自我注意的计算成本分别为O（N² Pd）和O（N2 d）。从理论上讲，MobileViT与ViTs相比效率低下。然而，在实践中，MobileViT比ViTs更有效。MobileViT在ImageNet-1 K数据集上的FLOP减少了2倍，准确率比DeIT高出1.8%（表3; §4.3）。我们认为这是因为与轻量化设计（上面讨论过）相似的原因。

MobileViT架构。 我们的网络受到轻量级CNN的启发。我们在三种不同的网络大小（S：小，XS：超小，XXS：超超小）下训练MobileViT模型，这些网络通常用于移动视觉任务（图3c）。MobileViT中的初始层是一个跨越的3 × 3标准卷积，然后是MobileNetv2（或MV2）块和MobileViT块（图1b和§A）。我们使用Swish（Elfwing等人，2018年），作为激活函数。在CNN模型之后，我们在MobileViT块中使用n = 3。特征图的空间维度通常是2和h的倍数，w ≤ n。因此，我们在所有空间水平上设置h = w = 2（更多结果见§C）。MobileViT网络中的MV2块主要负责下采样。因此，这些块在MobileViT网络中是浅且窄的。图3d中的MobileViT的空间水平参数分布进一步表明，在不同的网络配置中，MV2块对总网络参数的贡献非常小。

精读

主要内容
学习具有空间归纳偏置的全局表示： 先使用CNN，然后将特征图展开为N个不重叠的平坦patch ，使用transformer学习全局信息。结构如图（b)
实现轻量化： MobileViT使用卷积结合transformer的方式。结果MobileViT块具有类似卷积的属性，同时允许全局处理。这种建模能力使我们能够设计浅而窄的MobileViT模型，而这些模型又是轻量级的。
架构设计： 结合MV2块和MobileVIT块。

3.2 MULTI-SCALE SAMPLER FOR TRAINING EFFICIENCY

翻译
在基于ViT的模型中，学习多尺度表示的标准方法是微调。例如，Touvron et al.（2021 a）对在224×224的空间分辨率下训练的DeIT模型进行了独立的微调。这种用于学习多尺度表示的方法对于ViT是优选的，因为位置嵌入需要基于输入大小进行插值，并且网络的性能受插值方法的影响。与CNN类似，MobileViT不需要任何位置嵌入，并且可以在训练期间受益于多尺度输入。

以前基于CNN的作品（例如，雷德蒙和Farhadi，2017年; Mehta等人，2021 b）已经表明多尺度训练是有效的。然而，大多数这些作品采样一个新的空间分辨率后，一个固定的迭代次数。例如，YOLOv 2（雷德蒙& Farhadi，2017）在每第10次迭代时从预定义集合中采样一个新的空间分辨率，并在训练期间在不同的GPU上使用相同的分辨率。这导致GPU利用率不足和训练速度较慢，因为在所有分辨率中使用相同的批量大小（使用预定义集合中的最大空间分辨率确定）。为了促进MobileViT学习多尺度表示而无需微调并进一步提高训练效率（即，更少的优化更新），我们将多尺度训练方法扩展到可变大小的批量大小。给定空间分辨率的排序集合S = {（H1，W1），· · ·，（Hn，Wn）}和最大空间分辨率（Hn，Wn）的批量大小b，我们在每个GPU上的第t次训练迭代处随机采样空间分辨率（Ht，Wt）∈ S，并将第t次迭代的批量大小计算为：bt = (H_nW_nb)/(H_tW_t)。因此，较大的批量大小用于较小的空间分辨率。这减少了每个epoch的优化器更新，并有助于更快的训练。
图5比较了标准和多尺度采样器。在这里，我们将PyTorch中的DistributedDataParallel称为标准采样器。总体而言，多尺度采样器 （i）减少了训练时间，因为它需要更少的优化器更新可变大小的批次（图5 b），（ii）将性能提高了约0.5%（图10; §B），以及（iii）迫使网络学习更好的多尺度表示（§B），即，与用标准采样器训练的网络相比，在不同空间分辨率下评估的相同网络产生更好的性能。在§B中，我们还表明多尺度采样器是通用的，并且提高了CNN的性能（例如，MobileNetv2）。

精读

主要内容
使用多尺度采样器 ：在每个GPU上的第t次训练迭代处随机采样空间分辨率（Ht，Wt）∈ S，并将第t次迭代的批量大小计算为：bt = (H_nW_nb)/(H_tW_t)

1）减少了训练时间
2）将性能提高了约0.5%
3）迫使网络学习更好的多尺度表示

4、EXPERIMENTAL RESULTS

翻译
在本节中，我们首先在ImageNet-1 k数据集上评估MobileViT的性能，并证明MobileViT比最先进的网络（第4.1节）提供更好的性能。在§4.2和§4.3中，我们分别展示了MobileViT是通用的和移动友好的。

4.1、IMAGENET-1 K数据集上的图象分类

实施细节。 我们在ImageNet-1 k分类数据集上从头开始训练MobileViT模型（Russakovsky等人，2015）。该数据集分别提供了128万和5万张图像用于训练和验证。MobileViT网络使用PyTorch在8个NVIDIA GPU上训练了300个epoch，有效批量大小为1024张图像，使用AdamW优化器（Loshchilov & Hutter，2019），标签平滑交叉熵损失（平滑=0.1）和多尺度采样器（S = {（160，160），（192，192），（256，256），（288，288），（320，320）}）。对于前3 k次迭代，学习率从0.0002增加到0.002，然后使用余弦退火到0.0002（Loshchilov & Hutter，2017）。我们使用0.01的L2权重衰减。我们使用基本数据增强（即，随机调整大小的裁剪和水平翻转），并使用单个裁剪top-1精度来评估性能。对于推断，使用模型权重的指数移动平均。

与CNN的比较。 图6a示出了MobileViT在不同网络大小上优于轻量级CNN（MobileNetv 1（霍华德et al.，2017）、MobileNetv 2（Sandler等人，2018）、ShuffleNetv 2（Ma等人，2018）、ESPNetv 2（Mehta等人，2019）和MobileNetv 3（霍华德等人，2019年））。例如，对于大约250万个参数的模型大小（图6 b），MobileViT在ImageNet 1 k验证集上的表现优于MobileNetv2 5%，ShuffleNetv2 5.4%，MobileNetv3 7.4%。图6c进一步示出了MobileViT提供比重量级CNN更好的性能（ResNet（He等人，2016）、DenseNet（Huang等人，2017）、ResNet-SE（Hu等人，2018）和EfficientNet（Tan & Le，2019a））。例如，对于类似数量的参数，MobileViT比EfficentNet准确2.1%。

对比vit。图7比较了MobileViT与在ImageNet-1 k数据集上从头开始训练而没有蒸馏的ViT变体（DeIT（Touvron等人，2021 a）、T2 T（Yuan等人，2021 b）、PVT（Wang等人，2021）、CAIT（Touvron等人，2021 b）、DeepViT（Zhou等人，2021）、CeiT（Yuan等人，2021 a）、CrossViT（Chen等人，2021 a）、LocalViT（Li等人，2021）、PiT（Heo等人，2021）、ConViT（d 'Ascoli等人，2021）、ViL（Zhang等人，2021）、BoTNet（Srinivas等人，2021）和Mobile-former（Chen等人，2021 b））。与从高级扩增中显著受益的ViT变体不同（例如，PiT w/ basic vs. advanced：72.4（R4）vs. 78.1（R17）;图7 b），MobileViT以较少的参数和基本增强实现了更好的性能。例如，MobileViT比DeIT小2.5倍，好2.6%（图7 b中的R3与R8）。

总的来说，这些结果表明，与CNN类似，MobileViTs很容易优化。因此，它们可以很容易地应用于新的任务和数据集。

精读

参数和训练技巧
1）epoch=300
2）batch=1024
3）优化器为AdamW
4）标签平滑交叉熵损失（平滑=0.1）
5）多尺度采样器（S = {（160，160），（192，192），（256，256），（288，288），（320，320）}）
6）前3 k次迭代，学习率从0.0002增加到0.002，然后使用余弦退火到0.0002
7）使用0.01的L2权重衰减
8）使用基本数据增强（即，随机调整大小的裁剪和水平翻转）
9）对于推断，使用模型权重的指数移动平均

与CNN和VIT对比
如上两个图所示，表现出了更小、更准确、更容易训练

4.2、MobileVIT作为通用backbone

为了评估MobileViT的通用性，我们在两个广泛研究的移动视觉任务上对MobileViT进行基准测试:(1)对象检测(§4.2.1)和(2)语义分割(§4.2.2)。

4.2.1、MOBILE OBJECT DETECTION

实现细节。 我们将MobileViT与one-shot目标检测主干(SSD;刘等，2016)。在轻量级的cnn(例如，mobilenet)之后，我们用可分离的卷积替换SSD头中的标准卷积，并将结果网络称为SSDLite。我们对MobileViT进行finetune，在ImageNet-1k数据集上进行预训练，在MS-COCO数据集(Lin et al.， 2014)上使用AdamW以320 × 320的输入分辨率进行训练(Lin et al.， 2014)，该数据集包含117k训练和5k验证图像。我们分别使用平滑L1和交叉熵损失进行目标定位和分类。使用mAP@IoU的0.50:0.05:0.95在验证集中评估性能。其他超参数见§D。

结果。 表1a显示，对于320 × 320的相同输入分辨率，使用MobileViT的SSDLite优于使用其他轻量级CNN模型(MobileNetv1/v2/v3、MNASNet和MixNet)的SSDLite。例如，当使用MobileViT而不是MNASNet作为骨干时，SSDLite的性能提高了1.8%，其模型尺寸减少了1.8×。此外，使用MobileViT的SSDLite在学习参数显著减少的情况下，性能优于使用重重量骨干的标准SSD-300(表1b)。此外，§F中的定性结果也证实了MobileViT检测各种物体的能力。

4.2.2、MOBILE OBJECT DETECTION

实现细节。 我们将MobileViT与DeepLabv3整合(Chen等人，2017)。我们在PASCAL VOC 2012数据集上使用带有交叉熵损失的AdamW对MobileViT进行微调(Everingham等人，2015)。通过标准的培训实践(例如，Chen等人，2017;Mehta et al.， 2019)，我们还分别使用了Hariharan et al.(2011)和Lin et al.(2014)的额外注释和数据。使用mIOU (mean intersection over union)在验证集上评估该算法的性能。其他超参数见§D。

结果。 表2显示带有MobileViT的DeepLabv3更小更好。当使用MobileViT而不是MobileNetv2作为骨干网时，DeepLabv3的性能提高了1.4%，其尺寸减小了1.6×。此外，MobileViT提供竞争性能模型与ResNet-101，而需要9×更少的参数;这表明MobileViT是一个强大的支柱。此外，§G的结果表明，MobileViT学习对象的泛化表示，并在一个不可见的数据集上表现良好。

精读

能够很好的扩展到目标检测和分割、并且展示模型又小又准。

4.3、PERFORMANCE ON MOBILE DEVICES

轻量和低延迟网络对于实现移动视觉应用非常重要。为了证明MobileViT在此类应用中的有效性，使用公开可用的CoreMLTools(2021)将预训练的全精度MobileViT模型转换为CoreML。然后在移动设备(如iPhone 12)上测量他们的推理时间(平均超过100次迭代)。

移动设备友好的。图8显示了在三个不同的任务上具有两个patch大小设置(Config-A: 2,2,2和Config-B: 8,4, 2)的MobileViT网络的推理时间。这里，ConfigX中的p1、p2、p3表示一个patch在output stride2分别为8、16和32时的高度h(宽度w = h)。与patch丁(Config-B)相比，patch尺寸较小的模型(Config-A)更准确。这是因为，与Config-A模型不同，Config-B模型不能对所有像素的信息进行编码(图13和§C)。另一方面，对于给定的参数预算，Config-B模型比Config-A模型更快，尽管两种配置下的自注意理论复杂性相同，即O(N²Pd)。对于较大的补丁大小(例如，P=82=64)，与较小的补丁大小(例如，P=22=4)相比，我们拥有较少的补丁数量N。因此，自注意的计算成本相对较低。此外，与Config-A相比，Config-B模型提供了更高程度的并行性，因为与较小的patch (P=4)相比，更大的patch (P=64)中的更多像素可以同时计算自我注意。因此，Config-B模型比Config-A模型快。为了进一步改善MobileViT的延迟，可以使用线性自我注意(Wang et al.， 2020)。无论如何，在两种配置下的所有模型都在移动设备上实时运行(推理速度≥30 FPS)，除了用于分割任务的MobileViT-S模型。这是预期的，因为与分类(256×256)和检测(320 × 320)网络相比，这些模型处理更大的输入(512×512)。

结论：patch小的慢但是准确率高，patch大的相反。

讨论

我们观察到，MobileViT和其他基于ViTbased的网络(例如，DeIT和PiT)在移动设备上比MobileNetv2慢(表3)。这一观察结果与之前的研究相矛盾，之前的研究表明，vit比cnn更具可伸缩性(Dosovitskiy等人，2021年)。这种差异主要有两个原因。首先，gpu上的transformer有专门的CUDA内核，在vit中使用，以提高其在gpu上的可伸缩性和效率(例如，Shoeybi等人，2019;Lepikhin等人，2021)。其次，cnn受益于几种设备级优化，包括与卷积层的批量归一化融合(Jacob等人，2018年)。这些优化改进了延迟和内存访问。然而，这种对transformer的专用和优化操作目前还不能用于移动设备。因此，移动设备的MobileViT和基于VIT的网络的推理结果图是次优的。我们相信，与cnn类似，未来通过专门的设备级操作，MobileViT和vit的推理速度将进一步提高。

你可能感兴趣的:(论文,transformer,深度学习,人工智能)

MotionLCM 部署优化踩坑解决bug AI算法网奇 aigc与数字人深度学习宝典文生motion
目录依赖项windowstorchok：渲染黑白图问题解决：humanml3d：sentence-t5-large下载数据：报错：Nomodulenamed'sentence_transformers'继续报错：fromtransformers.integrationsimportCodeCarbonCallback解决方法：推理相关转mesh：module‘matplotlib.cm‘hasno
互信息：理论框架、跨学科应用与前沿进展大千AI助手人工智能 Python #OTHER 人工智能深度学习算法互信息香农通信随机变量
1.起源与核心定义互信息（MutualInformation,MI）由克劳德·香农（ClaudeShannon）在1948年开创性论文《AMathematicalTheoryofCommunication》中首次提出，该论文奠定了现代信息论的基础。互信息用于量化两个随机变量之间的统计依赖关系，定义为：若已知一个随机变量的取值，能为另一个随机变量提供的信息量。数学上，对于离散随机变量XXX和YYY，
2023-01-26 胡喜平
我觉得《可见的学习》一书确实从底层逻辑说清楚了，教学的本质。可是太多术语和概念，一时间难以消化啊。而且知道和懂得有距离，运用就更不行了，需要高手和专家的指导。我需要多听听新课标的讲座了，来反复印证。读论文也有了一点点灵感，明天修改我的论文。
为了在未来的人工智能世界中取得成功，学生们必须学习人类写作的优点睿邸管家
澳大利亚各地的学生在新学年开始使用铅笔、钢笔和键盘学习写字。在工作场所，机器也在学习写作，如此有效，几年之内，它们可能会写得比人类更好。有时它们已经做到了，就像Grammarly这样的应用程序所展示的那样。当然，人类现在的日常写作可能很快就会由具有人工智能(AI)的机器来完成。手机和电子邮件软件常用的预测文本是无数人每天都在使用的一种人工智能写作形式。据AI行业研究机构称，到2022年，人工智能及
人工智能应用研究快讯 2021-11-30 峰谷皆平
[HTML]ArtificialIntelligenceforSkinCancerDetection:ScopingReviewATakiddin,JSchneider,YYang,AAbd-Alrazaq...JournalofMedicalInternet...,2021ABSTACT:Background:Skincanceristhemostcommoncancertypeaffectin
从振动信号到精准预警：AI 如何重塑工业设备健康管理？缘华工业智维人工智能计算机视觉边缘计算信息与通信
在智能制造浪潮席卷全球的当下，工业生产正经历着从传统模式向智能化、数字化转型的深刻变革。在这场变革中，AI驱动的振动分析技术犹如一颗璀璨新星，成为工业设备可靠运行的“健康卫士”。它通过在设备关键部位部署振动传感器，如同医生为患者听诊般实时采集设备运行时的振动信号，再借助强大的人工智能算法对这些“工业脉搏”进行深度解析，从而实现对工业设备从故障预警到寿命预测的全周期精准守护。一、AI振动分析：设备状
AI 生成虚拟宠物：24 小时陪你聊天解闷大力出奇迹985 人工智能宠物
本文围绕AI生成虚拟宠物展开，介绍这类依托人工智能技术诞生的虚拟伙伴，能实现24小时不间断陪伴聊天，为人们解闷。文中详细阐述其技术基础，包括自然语言处理、机器学习等；分析多样功能，如个性化互动、情绪回应等；探讨在独居人群、压力大者等不同群体中的应用场景，最后总结其为人们生活带来的积极影响及未来发展潜力，展现AI虚拟宠物在陪伴领域的独特价值。一、AI生成虚拟宠物的诞生背景与技术基石在快节奏的现代社会
GPT-4 在 AIGC 中的微调技巧：让模型更懂你的需求 AIGC应用创新大全 AI人工智能与大数据应用开发 MCP&Agent 云算力网络 AIGC ai
GPT-4在AIGC中的微调技巧：让模型更懂你的需求关键词：GPT-4、AIGC、模型微调、监督学习、指令优化、过拟合预防、个性化生成摘要：AIGC（人工智能生成内容）正在重塑内容创作行业，但通用的GPT-4模型可能无法精准匹配你的垂直需求——比如写电商爆款文案时总“跑题”，或生成技术文档时专业术语不够。本文将用“教小朋友学画画”的通俗类比，从微调的底层逻辑讲到实战技巧，带你掌握让GPT-4“更懂
AIGC内容生成实战：如何用ChatGPT+DALL·E打造高转化内容 AI大模型应用工坊 AI大模型开发实战 AIGC chatgpt ai
AIGC内容生成实战：如何用ChatGPT+DALL·E打造高转化内容关键词：AIGC、ChatGPT、DALL·E、内容生成、高转化营销、多模态协同、提示词工程摘要：随着AIGC（人工智能生成内容）技术的爆发式发展，ChatGPT（文本生成）与DALL·E（图像生成）的组合已成为内容创作领域的“黄金搭档”。本文将深度解析二者的协同原理，结合实战案例演示从需求分析到内容落地的全流程，并揭示提升内容
数据分析领域中AI人工智能的发展前景展望 AI大模型应用工坊 AI大模型开发实战数据分析人工智能数据挖掘 ai
数据分析领域中AI人工智能的发展前景展望关键词：数据分析、人工智能、机器学习、深度学习、数据挖掘、预测分析、自动化摘要：本文深入探讨了人工智能在数据分析领域的发展现状和未来趋势。我们将从核心技术原理出发，分析AI如何改变传统数据分析范式，详细讲解机器学习算法在数据分析中的应用，并通过实际案例展示AI驱动的数据分析解决方案。文章还将探讨行业应用场景、工具生态以及未来发展面临的挑战和机遇，为数据分析师
AI人工智能中的数据挖掘：提升智能决策能力
AI人工智能中的数据挖掘：提升智能决策能力关键词：数据挖掘、人工智能、机器学习、智能决策、数据分析、特征工程、模型优化摘要：本文深入探讨了数据挖掘在人工智能领域中的核心作用，重点分析了如何通过数据挖掘技术提升智能决策能力。文章从基础概念出发，详细介绍了数据挖掘的关键算法、数学模型和实际应用场景，并通过Python代码示例展示了数据挖掘的全流程。最后，文章展望了数据挖掘技术的未来发展趋势和面临的挑战
【三桥君】MCP中台，究竟如何实现多模型、多渠道、多环境的统一管控？如何以MCP为核心设计AI应用架构？三桥君《三桥君 MCP落地方法论》《三桥君 AI大模型落地方法论》#《三桥君 AI产品方法论》人工智能 AI产品经理 MCP API 三桥君系统架构 llama
你好，我是✨三桥君✨本文介绍>>一、引言随着人工智能技术的快速发展，越来越多的企业开始引入大语言模型（LLM）以提升用户体验和运营效率。然而，如何高效、稳定地将这些AI能力落地到生产环境呢？传统的系统架构往往难以应对AI应用的高并发、低延迟和灵活扩展需求，因此，从整体架构角度设计AI应用架构显得尤为重要。本文三桥君将深入探讨以MCP为核心的AI应用架构，并分析多种部署方式的优劣势，为企业在AI落地
深入理解卷积神经网络（CNN）与循环神经网络（RNN） CodeJourney. cnn rnn 人工智能
在当今的人工智能领域，神经网络无疑是最为璀璨的明珠之一。而卷积神经网络（ConvolutionalNeuralNetworks，CNN）和循环神经网络（RecurrentNeuralNetworks，RNN）作为神经网络家族中的重要成员，各自有着独特的架构和强大的功能，广泛应用于众多领域。本文将深入探讨这两种神经网络的原理、特点以及应用场景，为对深度学习感兴趣的读者提供全面的知识讲解。一、卷积神经
今年校招竞争真激烈 12_05
程序员满大街，都要找不到工作了。即使人工智能满大街，我也后悔当初没学机器学习，后悔当初没学Java。C++真难找工作。难道毕了业就失业吗？好担心！
时序预测 | MATLAB实现贝叶斯优化CNN-GRU时间序列预测(股票价格预测) Matlab机器学习之心 matlab cnn gru
✅作者简介：热爱数据处理、数学建模、仿真设计、论文复现、算法创新的Matlab仿真开发者。更多Matlab代码及仿真咨询内容点击主页：Matlab科研工作室个人信条：格物致知，期刊达人。内容介绍股票价格预测一直是金融领域一个极具挑战性的课题。其内在的非线性、随机性和复杂性使得传统的预测方法难以取得令人满意的效果。近年来，深度学习技术，特别是卷积神经网络(CNN)和门控循环单元(GRU)的结合，为时
时序预测 | MATLAB实现BO-CNN-GRU贝叶斯优化卷积门控循环单元时间序列预测 Matlab算法改进和仿真定制工程师 matlab cnn gru
✅作者简介：热爱数据处理、数学建模、算法创新的Matlab仿真开发者。更多Matlab代码及仿真咨询内容点击：Matlab科研工作室个人信条：格物致知。内容介绍时间序列预测在各个领域都具有重要的应用价值，例如金融市场预测、气象预报、交通流量预测等。准确地预测未来趋势对于决策制定至关重要。近年来，深度学习技术在时间序列预测领域取得了显著进展，其中卷积神经网络(CNN)和门控循环单元(GRU)由于其强
Python Gradio：实现交互式图像编辑 PythonAI编程架构实战家 Python编程之道 python 开发语言 ai
PythonGradio：实现交互式图像编辑关键词：Python,Gradio,交互式图像编辑,计算机视觉,深度学习,图像处理,Web应用摘要：本文将深入探讨如何使用Python的Gradio库构建交互式图像编辑应用。我们将从基础概念开始，逐步介绍Gradio的核心功能，并通过实际代码示例展示如何实现各种图像处理功能。文章将涵盖图像滤镜应用、对象检测、风格迁移等高级功能，同时提供完整的项目实战案例
如何运用深度学习打造高效AI人工智能系统 AI智能探索者 AI Agent 智能体开发实战人工智能深度学习 ai
如何运用深度学习打造高效AI人工智能系统关键词：深度学习、AI系统、神经网络、模型优化、实战开发摘要：本文将从深度学习的核心概念出发，结合生活实例和代码实战，系统讲解如何构建高效AI系统。我们会拆解数据准备、模型设计、训练优化、部署落地的全流程，揭秘“数据-模型-训练-推理”的协同机制，并通过具体案例演示从0到1开发AI系统的关键技巧，帮助开发者掌握打造高效AI系统的底层逻辑。背景介绍目的和范围在
非欧空间计算加速：图神经网络与微分几何计算的GPU优化（流形数据的内存布局优化策略）九章云极AladdinEdu 空间计算神经网络人工智能 gpu算力算法 java 开发语言
一、非欧空间计算的革命性意义与核心挑战在三维形状分析、社交网络建模、分子动力学模拟等领域，非欧几里得空间数据（流形数据）的处理正推动人工智能技术向更复杂的几何结构迈进。传统欧式空间优化方法在处理流形数据时面临根本性局限：黎曼度量导致距离计算失效、局部坐标系动态变化引发内存访问模式混乱、曲率变化影响并行计算效率。本文提出基于分块流形存储（BlockedManifoldStorage,BMS）与层次化
ChatGPT还不能写小说吗？刘若愚
最近，ChatGPT大热，据说可以写论文，编故事，好像无所不能。于是，我给它出了个题目：写一篇5万字的科幻小说。人物：刘若愚，化学家；刘子琪，大律师；仔仔，刘子琪的宠物猫；周金凝，医生；刘泽余，大侦探；赵政淇，程序猿；杰夫（Jeff）机器人它给我的回答是：我很抱歉，我是一个AI语言模型，无法写出如此长篇的小说。但我可以为您提供一些写作灵感和指导：确定故事背景和时间线：在科幻小说中，背景和时间线非常
响应式编程实践：Spring Boot WebFlux构建高性能非阻塞服务 fanxbl957 Web spring boot 后端 java
博主介绍：Java、Python、js全栈开发“多面手”，精通多种编程语言和技术，痴迷于人工智能领域。秉持着对技术的热爱与执着，持续探索创新，愿在此分享交流和学习，与大家共进步。全栈开发环境搭建运行攻略：多语言一站式指南(环境搭建+运行+调试+发布+保姆级详解)感兴趣的可以先收藏起来，希望帮助更多的人响应式编程实践：SpringBootWebFlux构建高性能非阻塞服务一、引言在当今数字化时代，互
论文阅读：《针对多目标优化和应用的 NSGA-II 综述》一些关于优化算法的简介行然梦实优化算法论文阅读算法数学建模
前言提醒：文章内容为方便作者自己后日复习与查阅而进行的书写与发布，其中引用内容都会使用链接表明出处（如有侵权问题，请及时联系）。其中内容多为一次书写，缺少检查与订正，如有问题或其他拓展及意见建议，欢迎评论区讨论交流。内容由AI辅助生成，仅经笔者审核整理，请甄别食用。文章目录前言一些关于优化算法的缩写优化算法Ma,Haiping&Zhang,Yajing&Sun,Shengyi&Liu,Ting&S
企业级RAG的数据方案选择 - 向量数据库、图数据库和知识图谱南七小僧 AI技术产品经理网站开发人工智能数据库知识图谱人工智能
如何为企业RAG选择合适的数据存储方式摘要:本文讨论了矢量数据库、图数据库和知识图谱在解决信息检索挑战方面的重要性，特别是针对企业规模的检索增强生成（RAG）。看看海外人工智能企业Writer是如何利用知识图谱增强企业级RAG。要点概要：矢量数据库高效存储数据，但缺乏上下文和关联信息。图数据库优先考虑数据点之间的关系，受益于关系结构。知识图谱在语义存储方面表现出色，由于其能够编码丰富的上下文信息，
【人工智能入门必看的最全Python编程实战（1）】 DFCED 人工智能 python 开发语言深度学习找工作就业
--------------------------------------------------------------------------------------------------------------------1.AIGC未来发展前景未完持续…1.1人工智能相关科研重要性拥有一篇人工智能科研论文及专利软著竞赛是保研考研留学深造以及找工作的关键门票！！！拥有一篇人工智能科研论文
基于深度学习的目标检测算法综述：从RCNN到YOLOv13，一文看懂十年演进！人工智能教程深度学习目标检测算法人工智能自动驾驶 YOLO 机器学习
一、引言：目标检测的十年巨变2012年AlexNet拉开深度学习序幕，2014年RCNN横空出世，目标检测从此进入“深度时代”。十年间，算法从两阶段到单阶段，从Anchor-base到Anchor-free，从CNN到Transformer，从2D到3D，从监督学习到自监督学习，迭代速度之快令人目不暇接。本文将系统梳理基于深度学习的目标检测算法，带你全面了解技术演进、核心思想、代表算法、工业落地与
Baumer工业相机堡盟工业相机如何通过YoloV8深度学习模型实现不同水果的检测识别（C#代码，UI界面版）
Baumer工业相机堡盟工业相机如何通过YoloV8深度学习模型实现不同水果的检测识别（C#代码，UI界面版））工业相机使用YoloV8模型实现不同水果的检测识别工业相机通过YoloV8模型实现不同水果的检测识别的技术背景在相机SDK中获取图像转换图像的代码分析工业相机图像转换Bitmap图像格式和Mat图像重要核心代码本地文件图像转换Bitmap图像格式和Mat图像重要核心代码Mat图像导入Yo
2025毫米波雷达技术白皮书：智能汽车与物联网的感知核心
随着人工智能、物联网（IoT）和智能汽车产业的迅猛发展，毫米波雷达技术正成为感知领域的核心驱动力。毫米波雷达凭借其高精度、全天候和强抗干扰能力，广泛应用于智能汽车的自动驾驶、物联网的环境感知以及工业自动化。2025年，毫米波雷达技术在性能、应用场景和市场规模上都达到了一个全新的高度。本白皮书将深入探讨毫米波雷达技术的核心优势、发展趋势及其在智能汽车与物联网中的应用前景，同时推荐各大品牌的领先产品方
从零开始构建深度学习环境：基于Pytorch、CUDA与cuDNN的虚拟环境搭建与实践（适合初学者）荣华富贵8 程序员的知识储备2 程序员的知识储备3 深度学习 pytorch 人工智能
摘要：深度学习正在引领人工智能技术的革新，而对于初学者来说，正确搭建深度学习环境是迈向AI研究与应用的第一步。本文将为读者提供一套详尽的教程，指导如何在本地环境中搭建Pytorch、CUDA与cuDNN，以及如何利用Anaconda和PyCharm进行高效开发。内容涵盖从环境配置、常见错误修正，到基础的深度学习模型构建及训练。我们旨在为深度学习零基础的入门者提供一个全面且易于理解的“保姆级”教程，
[0524]基于JAVA的农业科普宣传智慧管理系统的设计与实现阿鑫学长【毕设工场】 java 开发语言毕业设计课程设计
毕业设计（论文）开题报告表姓名学院专业班级题目基于JAVA的农业科普宣传智慧管理系统的设计与实现指导老师（一）选题的背景和意义开题报告背景与意义：随着我国农业现代化进程的不断推进，以及信息技术在各领域的广泛应用，构建基于Java的农业科普宣传智慧管理系统具有极其重要的理论价值和现实意义。当前，我国农业正面临转型升级的关键阶段，信息不对称、管理效率低下、科普宣传不足等问题制约了农业产业的健康发展。尤
人工智能概念之九：深度学习概述
文章目录相关文章一、深度学习的定位：AI时代的基石技术1.1技术生态全景图1.2技术革命的催化剂二、深度学习的双面性：性能优势与技术挑战2.1技术优势全景扫描2.2技术挑战深度剖析三、技术演进时间轴：70年的厚积薄发四、主流框架生态对比五、未来演进方向相关文章人工智能概念之二：人工智能核心概念：网页链接一、深度学习的定位：AI时代的基石技术1.1技术生态全景图深度学习处于人工智能（AI）技术金字塔
PHP，安卓，UI，java，linux视频教程合集 cocos2d-x小菜 java UI linux PHP android
╔-----------------------------------╗┆
zookeeper admin 笔记 braveCS zookeeper
Required Software 1) JDK>=1.6 2)推荐使用ensemble的ZooKeeper(至少3台)，并run on separate machines 3)在Yahoo!，zk配置在特定的RHEL boxes里，2个cpu，2G内存，80G硬盘数据和日志目录 1)数据目录里的文件是zk节点的持久化备份，包括快照和事务日
Spring配置多个连接池 easterfly spring
项目中需要同时连接多个数据库的时候，如何才能在需要用到哪个数据库就连接哪个数据库呢？ Spring中有关于dataSource的配置： <bean id="dataSource" class="com.mchange.v2.c3p0.ComboPooledDataSource" &nb
Mysql 171815164 mysql
例如，你想myuser使用mypassword从任何主机连接到mysql服务器的话。 GRANT ALL PRIVILEGES ON *.* TO 'myuser'@'%'IDENTIFIED BY 'mypassword' WI TH GRANT OPTION; 如果你想允许用户myuser从ip为192.168.1.6的主机连接到mysql服务器，并使用mypassword作
CommonDAO（公共/基础DAO） g21121 DAO
好久没有更新博客了，最近一段时间工作比较忙，所以请见谅，无论你是爱看呢还是爱看呢还是爱看呢，总之或许对你有些帮助。 DAO(Data Access Object)是一个数据访问（顾名思义就是与数据库打交道）接口，DAO一般在业
直言有讳永夜-极光感悟随笔
1.转载地址:http://blog.csdn.net/jasonblog/article/details/10813313 精华: “直言有讳”是阿里巴巴提倡的一种观念，而我在此之前并没有很深刻的认识。为什么呢？就好比是读书时候做阅读理解，我喜欢我自己的解读，并不喜欢老师给的意思。在这里也是。我自己坚持的原则是互相尊重，我觉得阿里巴巴很多价值观其实是基本的做人
安装CentOS 7 和Win 7后，Win7 引导丢失随便小屋 centos
一般安装双系统的顺序是先装Win7，然后在安装CentOS，这样CentOS可以引导WIN 7启动。但安装CentOS7后，却找不到Win7 的引导，稍微修改一点东西即可。一、首先具有root 的权限。即进入Terminal后输入命令su，然后输入密码即可二、利用vim编辑器打开/boot/grub2/grub.cfg文件进行修改 v
Oracle备份与恢复案例 aijuans oracle
Oracle备份与恢复案例一. 理解什么是数据库恢复当我们使用一个数据库时，总希望数据库的内容是可靠的、正确的，但由于计算机系统的故障（硬件故障、软件故障、网络故障、进程故障和系统故障）影响数据库系统的操作，影响数据库中数据的正确性，甚至破坏数据库，使数据库中全部或部分数据丢失。因此当发生上述故障后，希望能重构这个完整的数据库，该处理称为数据库恢复。恢复过程大致可以分为复原(Restore)与
JavaEE开源快速开发平台G4Studio v5.0发布無為子
我非常高兴地宣布,今天我们最新的JavaEE开源快速开发平台G4Studio_V5.0版本已经正式发布。访问G4Studio网站 http://www.g4it.org 2013-04-06 发布G4Studio_V5.0版本功能新增 (1). 新增了调用Oracle存储过程返回游标，并将游标映射为Java List集合对象的标
Oracle显示根据高考分数模拟录取百合不是茶 PL/SQL编程 oracle例子模拟高考录取学习交流
题目要求: 1,创建student表和result表 2,pl/sql对学生的成绩数据进行处理 3,处理的逻辑是根据每门专业课的最低分线和总分的最低分数线自动的将录取和落选 1,创建student表,和result表学生信息表; create table student( student_id number primary key,--学生id
优秀的领导与差劲的领导 bijian1013 领导管理团队
责任优秀的领导：优秀的领导总是对他所负责的项目担负起责任。如果项目不幸失败了，那么他知道该受责备的人是他自己，并且敢于承认错误。差劲的领导：差劲的领导觉得这不是他的问题，因此他会想方设法证明是他的团队不行，或是将责任归咎于团队中他不喜欢的那几个成员身上。努力工作优秀的领导：团队领导应该是团队成员的榜样。至少，他应该与团队中的其他成员一样努力工作。这仅仅因为他
js函数在浏览器下的兼容 Bill_chen jquery 浏览器 IE DWR ext
做前端开发的工程师，少不了要用FF进行测试，纯js函数在不同浏览器下，名称也可能不同。对于IE6和FF，取得下一结点的函数就不尽相同： IE6：node.nextSibling,对于FF是不能识别的； FF：node.nextElementSibling,对于IE是不能识别的；兼容解决方式：var Div = node.nextSibl
【JVM四】老年代垃圾回收：吞吐量垃圾收集器(Throughput GC) bit1129 垃圾回收
吞吐量与用户线程暂停时间衡量垃圾回收算法优劣的指标有两个：吞吐量越高，则算法越好暂停时间越短，则算法越好首先说明吞吐量和暂停时间的含义。垃圾回收时，JVM会启动几个特定的GC线程来完成垃圾回收的任务，这些GC线程与应用的用户线程产生竞争关系，共同竞争处理器资源以及CPU的执行时间。GC线程不会对用户带来的任何价值，因此，好的GC应该占
J2EE监听器和过滤器基础白糖_ J2EE
Servlet程序由Servlet，Filter和Listener组成，其中监听器用来监听Servlet容器上下文。监听器通常分三类：基于Servlet上下文的ServletContex监听，基于会话的HttpSession监听和基于请求的ServletRequest监听。 ServletContex监听器 ServletContex又叫application
博弈AngularJS讲义(16) - 提供者 boyitech js AngularJS api Angular Provider
Angular框架提供了强大的依赖注入机制，这一切都是有注入器(injector)完成. 注入器会自动实例化服务组件和符合Angular API规则的特殊对象，例如控制器，指令，过滤器动画等。那注入器怎么知道如何去创建这些特殊的对象呢？ Angular提供了5种方式让注入器创建对象，其中最基础的方式就是提供者(provider), 其余四种方式(Value, Fac
java-写一函数f(a,b)，它带有两个字符串参数并返回一串字符，该字符串只包含在两个串中都有的并按照在a中的顺序。 bylijinnan java
public class CommonSubSequence { /** * 题目：写一函数f(a,b)，它带有两个字符串参数并返回一串字符，该字符串只包含在两个串中都有的并按照在a中的顺序。 * 写一个版本算法复杂度O(N^2)和一个O(N) 。 * * O(N^2)：对于a中的每个字符，遍历b中的每个字符，如果相同，则拷贝到新字符串中。 * O(
sqlserver 2000 无法验证产品密钥 Chen.H sql windows SQL Server Microsoft
在 Service Pack 4 (SP 4), 是运行 Microsoft Windows Server 2003、 Microsoft Windows Storage Server 2003 或 Microsoft Windows 2000 服务器上您尝试安装 Microsoft SQL Server 2000 通过卷许可协议 (VLA) 媒体。这样做, 收到以下错误信息CD KEY的 SQ
[新概念武器]气象战争 comsci
气象战争的发动者必须是拥有发射深空航天器能力的国家或者组织.... 原因如下: 地球上的气候变化和大气层中的云层涡旋场有密切的关系,而维持一个在大气层某个层次
oracle 中 rollup、cube、grouping 使用详解 daizj oracle grouping rollup cube
oracle 中 rollup、cube、grouping 使用详解 -- 使用oracle 样例表演示转自namesliu -- 使用oracle 的样列库，演示 rollup, cube, grouping 的用法与使用场景 --- ROLLUP ，为了理解分组的成员数量，我增加了分组的计数 COUNT(SAL)
技术资料汇总分享 Dead_knight 技术资料汇总分享
本人汇总的技术资料，分享出来，希望对大家有用。 http://pan.baidu.com/s/1jGr56uE 资料主要包含： Workflow->工作流相关理论、框架(OSWorkflow、JBPM、Activiti、fireflow...) Security->java安全相关资料(SSL、SSO、SpringSecurity、Shiro、JAAS...) Ser
初一下学期难记忆单词背诵第一课 dcj3sjt126com english word
could 能够 minute 分钟 Tuesday 星期二 February 二月 eighteenth 第十八 listen 听 careful 小心的，仔细的 short 短的 heavy 重的 empty 空的 certainly 当然 carry 携带；搬运 tape 磁带 basket 蓝子 bottle 瓶 juice 汁，果汁 head 头；头部
截取视图的图片, 然后分享出去 dcj3sjt126com OS Objective-C
OS 7 has a new method that allows you to draw a view hierarchy into the current graphics context. This can be used to get an UIImage very fast. I implemented a category method on UIView to get the vi
MySql重置密码 fanxiaolong MySql重置密码
方法一: 在my.ini的[mysqld]字段加入： skip-grant-tables 重启mysql服务，这时的mysql不需要密码即可登录数据库然后进入mysql mysql>use mysql; mysql>更新 user set password=password('新密码') WHERE User='root'; mysq
Ehcache（03）——Ehcache中储存缓存的方式 234390216 ehcache MemoryStore DiskStore 存储驱除策略
Ehcache中储存缓存的方式目录 1 堆内存（MemoryStore） 1.1 指定可用内存 1.2 驱除策略 1.3 元素过期 2 &nbs
spring mvc中的@propertysource jackyrong spring mvc
在spring mvc中，在配置文件中的东西，可以在java代码中通过注解进行读取了： @PropertySource 在spring 3.1中开始引入比如有配置文件 config.properties mongodb.url=1.2.3.4 mongodb.db=hello 则代码中 @PropertySource(&
重学单例模式 lanqiu17 单例 Singleton 模式
最近在重新学习设计模式，感觉对模式理解更加深刻。觉得有必要记下来。第一个学的就是单例模式，单例模式估计是最好理解的模式了。它的作用就是防止外部创建实例，保证只有一个实例。单例模式的常用实现方式有两种，就人们熟知的饱汉式与饥汉式，具体就不多说了。这里说下其他的实现方式静态内部类方式: package test.pattern.singleton.statics; publ
.NET开源核心运行时，且行且珍惜 netcome java .net 开源
背景 2014年11月12日，ASP.NET之父、微软云计算与企业级产品工程部执行副总裁Scott Guthrie，在Connect全球开发者在线会议上宣布，微软将开源全部.NET核心运行时，并将.NET 扩展为可在 Linux 和 Mac OS 平台上运行。.NET核心运行时将基于MIT开源许可协议发布，其中将包括执行.NET代码所需的一切项目——CLR、JIT编译器、垃圾收集器（GC）和核心
使用oscahe缓存技术减少与数据库的频繁交互 Everyday都不同 Web 高并发 oscahe缓存
此前一直不知道缓存的具体实现，只知道是把数据存储在内存中，以便下次直接从内存中读取。对于缓存的使用也没有概念，觉得缓存技术是一个比较”神秘陌生“的领域。但最近要用到缓存技术，发现还是很有必要一探究竟的。缓存技术使用背景：一般来说，对于web项目，如果我们要什么数据直接jdbc查库好了，但是在遇到高并发的情形下，不可能每一次都是去查数据库，因为这样在高并发的情形下显得不太合理——
Spring+Mybatis 手动控制事务 toknowme mybatis
@Override public boolean testDelete(String jobCode) throws Exception { boolean flag = false; &nbs
菜鸟级的android程序员面试时候需要掌握的知识点 xp9802 android
熟悉Android开发架构和API调用掌握APP适应不同型号手机屏幕开发技巧熟悉Android下的数据存储熟练Android Debug Bridge Tool 熟练Eclipse/ADT及相关工具熟悉Android框架原理及Activity生命周期熟练进行Android UI布局熟练使用SQLite数据库；熟悉Android下网络通信机制，S