fisher-nuc

2021-07-02

基于TensorFlow搭建的几种经典的卷积神经网络

注：本文是本人一门课程的期末大作业，在学习曹建老师（人工智能实践：TensorFlow笔记）的课程时记录的笔记。在进行整理后写的一篇小文章，具体详解可以在B站或者MOOC上搜索相关课程。

课程网站：https://www.icourse163.org/learn/PKU-1002536002?tid=1003797005#/learn/announce

引言

一、卷积神经网络的搭建

1.1 全连接网络

1.2 卷积神经网络

1.2.1 卷积操作

1.2.2 感受野

1.2.3 全零填充

1.2.4 批标准化

1.2.5 池化

1.2.6 舍弃

1.2.7 卷积神经网络的总结

二、经典卷积神经网络的搭建

2.1 引入 cifar10 数据集

2.2 基础框架的搭建

2.3 LeNet 结构

2.4 AlexNet 结构

2.5 InceptionNet 结构

2.6 ResNet 结构

三、关于这几种网络的总结

引言

近几年来随着大数据技术的蓬勃发展，人工智能、机器学习也迎来了发展的高峰。作为深度学习的代表算法之一的卷积神经网络，也随着新的学习理论的提出和数据计算设备的革新得到了极大的发展，被广泛的应用于计算机视觉、自然语言处理等领域之中。而由 Google Brain 团队于 2015 年开发的 TensorFlow 为大众提供了一个由端到端的开源机器学习平台，使得我们能够在即刻执行的环境中使用Keras 等直观的高阶 API 更加轻松地构建和训练机器学习模型。因此我们可以通过它来简单的搭建几种经典卷积神经网络，以检验其实用性与简易性。

一、卷积神经网络的搭建

1.1 全连接网络

全连接神经网络(FC)中的每个神经元都会与前后相邻层中的每个神经元有连接关系。因此我们一般在整个网络中需要设置的参数个数为 ∑(前层 × 后层 +后层)，对于一张分辨率仅为 28×28 的黑白图像，它在一个全连接网络中的参数就有将近 40 万个。
在实际应用中，不仅图像的分辨率远高于这个数值，而且大多为彩色图像，如图 1-1 所示(RGB 三通道的彩色图像)。虽然全连接网络在分类预测的领域表现优异，但如果待优化参数过多会导致模型过拟合。在实际操作中，为了解决由于待优化参数过多而带来的模型过拟合问题，一般都会先对图像进行特征提取，然后再将提取得到的特征输入到全连接网络中去。如下图 1-2 所示，就是将一张彩色图像经过多次特征提取后再喂入全连接网络的过程。

1.2 卷积神经网络

1.2.1 卷积操作

卷积是将图像特征提取出来的一种有效方法。一般采用一个尺寸为 n×n 的卷积核(n为奇数)，然后按照指定的步长在输入特征图上滑动，并且遍历图像上的每一个像素点。每移动一个步长，卷积核就会与图像产生一个重合区域，将重合区域中的对应元素相乘、求和再加上偏置项，就可以得到输出特征中的一个像素点。如图1-3所示，采用一个尺寸为3×3×1的卷积核对一个尺寸为5×5×1的单通道图像进行采集。

其中卷积的计算过程是：(-1)×1+0×0+2×1+5×(-1)+4×0+2×1+3×(-1)+4×0+5×1+1=1
同理，对于彩色图像的卷积操作类似。但是彩色图像的卷积核的通道数应该与输入图像的通道数保持一致，如图1-4所示。

当我们使用多个卷积核对同一层输入的图像进行次数较多的特征提取时，输出层的通道数也就是输出特征图的深度将由卷积核的个数决定。

1.2.2 感受野

我们将卷积神经网络各输出层每个像素点在原始图像上对应的区域大小叫做感受野。当我们使用的卷积核尺寸大小不同时，每个像素点对应的感受野肯定也是不同的。因此我们经常使用多层小卷积核去代替单层大卷积核，希望可以在保证感受野不变的情况下减小计算量和计算量。
最常见的操作就是用两层3×3的卷积核来代替一层5×5的卷积核。这里可以简单的从计算量方面验证一下。假设这里有一个宽和高都是 x的特征图，如果规定卷积步长为1，那么两层3×3的卷积核就有9+9个参数。同时第一层输出特征图的像素点共有(x-3+1)^2个，每个像素点都会进行9次乘加运算。而第二层共有 (x-3+1-3+1)^2 个像素点，每个像素点同样需要进行9次乘加运算。那么总的计算量为：9×(x-3+1)^2 +9×(x-6+2)^2 =18x^2-108x+180。同理，尺寸为 5×5 的卷积核的总计算量为：25x^2-200x+400。计算可得当 22/7

1.2.3 全零填充

全零填充是保持输出图像与输入图像的尺寸一致的常用方法。一个5×5×1的灰度图像经过全零填充后，在通过3×3×1的卷积核进行步长为1的卷积计算，

1.2.4 批标准化

我们知道，神经网络对0附近的数据会更加敏感，但一般随着网络层数的增加，特征数据会出现偏离0均值的情况。标准化可以使数据符合以0为均值，1为标准差的标准正态分布。而批标准化就是对一小批数据进行标准化处理，是数据回归标准分布。通常用在卷积操作和激活操作之间。对于批标准化后的输出特征图可以用下面这个式子进行计算：

其中，H_i^{’k表示批标准化后第k个卷积核的输出特征图中的第i个像素点。H_i}k表示批标准化前第k个卷积核的输出特征图中的第i个像素点。μ_batch^k和σ_batchk表示批标转化之前，第k个卷积核，batch张输出特征图中所有像素点的平均值和标准差。可以表示如下：

批标准化操作将原本偏移的特征数据重新拉回到0均值，使进入激活函数的数据分布在激活函数的线性区，提升了激活函数对输入数据的区分力。但是批标准化也有其不足之处，它最大的缺点就是使得激活函数丧失了原有的非线性特性，为了缓解这一问题，我们通常在执行这一步操作时为每一个卷积核引入了两个可训练的参数,缩放因子γ_k、偏移因子β_k，使得x_i^k=γ_k H_i^'k+β_k。在反向传播时，这两个参数会和其他待训练参数一同被训练优化，使标准正态分布后的特征数据通过它们优化特征数据分布的宽窄和偏移量，保证网络的非线性表达力。

1.2.5 池化

池化操作通常用于减少卷积神经网络中特征数据量。主要方法有最大池化和均值池化。需要提取图片的纹理时采用最大池化，而为了保留背景特征则可以采用均值池化。池化过程如图1-5所示：

1.2.6 舍弃

为了缓解神经网络的过拟合问题，在训练过程中，常把隐藏层的部分神经元按一定的比例从神经网络中临时舍弃。当使用神经网络时再将将被舍弃的神经元恢复链接。如下图所示：

在实际的训练过程中舍弃神经元的比例也可以当作一种超参数，但是它不参与反向传播过程。一般凭借操作者的经验和实验来确定。

1.2.7 卷积神经网络的总结

综合前面提到的6点，我们可以对其本质进行简单的解释。卷积神经网络就是借助卷积核对输入特征进行特征提取，再将提取到的特征送入全连接网络进行识别预测的方法。其中提取特征的步骤包括卷积、批标准化、激活和池化四步。从中我们也可以知道，卷积其实就是一种特征提取器。卷积神经网络的主要流程如图：

二、经典卷积神经网络的搭建

2.1 引入 cifar10 数据集

cifar10数据集是由60000张32×32的彩色图像组成的一种用于10分类的数据集。每一类中含6000张图像。训练集由50000张图像组成，共分5个批次，每一批次10000张图像。每一类中随机抽取1000张构成测试集。其他图像随机组合构成训练集。
相较于MNIST数据集来说cifar10数据集更加复杂，训练难度也更大，但是图像尺寸较小，利用一些经典的CNN网络结构可以达到较高的识别率。验证Tensor Flow2.0的搭建效果是非常适用的。

2.2 基础框架的搭建

在搭建经典卷积神经网络之前，我们先用cifar10数据集来搭建一个基础框架。那么在后续搭建经典网络结构时就会方便很多。

1.	# import相关模块  
2.	import tensorflow as tf  
3.	import os  
4.	import numpy as np  
5.	from matplotlib import pyplot as plt  
6.	from tensorflow.keras.layers import Conv2D, BatchNormalization, Activation, MaxPool2D, Dropout, Flatten, Dense  
7.	from tensorflow.keras import Model  
8.	np.set_printoptions(threshold=np.inf)  
9.	# 读入cifar10数据集  
10.	cifar10 = tf.keras.datasets.cifar10  
11.	# 给训练集输入特征、训练集标签、测试集输入特征、测试集标签赋值  
12.	(x_train, y_train),(x_test, y_test) = cifar10.load_data()  
13.	  
14.	x_train, x_test = x_train / 255.0, x_test / 255.0  
15.	############
16.	可替换部分
17.	############
18.	# compile配置训练方法，选择哪种优化器，选择哪种损失函数，选择哪种评测指标  
19.	model.compile(optimizer='adam',  
20.	              loss = tf.keras.losses.SparseCategoricalCrossentropy(from_logits=False),  
21.	              metrics = ['sparse_categorical_accuracy'])  
22.	# 断点续训  
23.	checkpoint_save_path = "./checkpoint/Baseline.ckpt"  
24.	if os.path.exists(checkpoint_save_path + '.index'):  
25.	    print('---------------load the model---------------')  
26.	    model.load_weights(checkpoint_save_path)  
27.	cp_callback = tf.keras.callbacks.ModelCheckpoint(filepath=checkpoint_save_path,  
28.	                                                 save_weights_only=True,  
29.	                                                 save_best_only=True)  
30.	# 执行训练过程  
31.	# 包含训练集、训练集特征、每个batch的值、迭代次数、测试集、多少次训练验证一次准确率、回调函数实现断点续训  
32.	history = model.fit(x_train, y_train, batch_size=32, epochs=5, validation_data=(x_test, y_test), validation_freq=1,  
33.	                    callbacks=[cp_callback])  
34.	# 打印网络结构和参数  
35.	model.summary()  
36.	# 参数提取  
37.	file = open('./weights.txt', 'w')  
38.	for v in model.trainable_variables:  
39.	    file.write(str(v.name) + '\n')  
40.	    file.write(str(v.shape) + '\n')  
41.	    file.write(str(v.numpy()) + '\n')  
42.	file.close()  
43.	# acc/loss的可视化  
44.	acc = history.history['sparse_categorical_accuracy']  
45.	val_acc = history.history['val_sparse_categorical_accuracy']  
46.	loss = history.history['loss']  
47.	val_loss = history.history['val_loss']  
48.	plt.subplot(1,2,1)  
49.	plt.plot(acc, label='Training Accuracy')  
50.	plt.plot(val_acc, label='Validation Accuracy')  
51.	plt.title('Training and Validation Accuracy')  
52.	plt.legend()  
53.	plt.subplot(1,2,2)  
54.	plt.plot(loss, label='Training loss')  
55.	plt.plot(val_loss, label='Validation loss')  
56.	plt.title('Training and Validation loss')  
57.	plt.legend()  
58.	plt.show()

为了训练cifar10数据集本文搭建了一个使用一层卷积、两层全连接的基础网络。按照顺序经过6个5×5的卷积核、2×2的池化核(池化步长为2)，再经过128个神经元的全连接层，最后经过10个神经元的全连接层以实现10分类。模型结构如图所示：

1.	class Baseline(Model):  
2.	    def __init__(self):   # 在init()函数中搭建神经网络要用到的每一层结构  
3.	        super(Baseline, self).__init__()  
4.	        # 6个卷积核，尺寸为5*5，使用全零填充  
5.	        self.c1 = Conv2D(filters=6, kernel_size=(5, 5), padding='same')  
6.	        # 批标准化  
7.	        self.b1 = BatchNormalization()  
8.	        # 使用relu激活函数  
9.	        self.a1 = Activation('relu')  
10.	        # 最大池化，池化核尺寸2*2，池化步长为2，使用全零填充  
11.	        self.p1 = MaxPool2D(pool_size=(2, 2), strides=2, padding='same')  
12.	        # 按照20%的比例随机休眠神经元  
13.	        self.d1 = Dropout(0.2)  
14.	        # 拉直  
15.	        self.flatten = Flatten()  
16.	        # 送入128层的全连接，用relu激活函数  
17.	        self.f1 = Dense(128, activation='relu')  
18.	        # 休眠20%神经元  
19.	        self.d2 = Dropout(0.2)  
20.	        # 送入10个神经元的全连接，用softmax使输出符合概率分布  
21.	        self.f2 = Dense(10, activation='softmax')  
22.	    def call(self, x):   # 调用搭建好的每一层网络结构，走一遍前向传播  
23.	        x = self.c1(x)  
24.	        x = self.b1(x)  
25.	        x = self.a1(x)  
26.	        x = self.p1(x)  
27.	        x = self.d1(x)  
28.	        x = self.flatten(x)  
29.	        x = self.f1(x)  
30.	        x = self.d2(x)  
31.	        y = self.f2(x)  
32.	        return y # 返回推理结果y  
33.	model = Baseline()

2.3 LeNet 结构

LeNet卷积神经网络作为卷积神经网络的开篇之作，由LeCun于1998年提出。它的核心思想是通过共享卷积核来减少网络的参数。其网络结构如图所示：

因为在统计卷积神经网络层数时，一般只统计卷积计算层和全连接计算层，其余的可以当作卷积计算层的附属。所以LeNet可以认为一共有5层网络。其中C1和C3是两层卷积，C5、F6和Output是连续的三层全连接。
卷积层的第一层是卷积步长为1且不使用全零填充的6个5×5的卷积核。因为LeNet提出时还没有批标准化的操作，所以在TensorFlow中搭建网络时不选用BN操作。而激活函数则选用当时最为流行的sigm-oid函数。池化层采用池化步长为2、尺寸为2×2的池化核的最大池化。这里不使用Dropout层。而第二层的结构除了卷积核变成16个以外，其他结构与第一层一致。
在Flatten拉直后连续经过三层全连接网络，神经元个数分别为120、84和10。前两层采用sigmoid激活函数，最后一层采用softmax使输出符合概率分布。模型结构如图所示：

1.	class LeNet5(Model):  
2.	    def __init__(self):  
3.	        super(LeNet5, self).__init__()  
4.	        # 第一层(卷积)  
5.	        self.c1 = Conv2D(filters=6, kernel_size=(5, 5),  
6.	                         activation='sigmoid')  
7.	        self.p1 = MaxPool2D(pool_size=(2, 2), strides=2)  
8.	        # 第二层(卷积)  
9.	        self.c2 = Conv2D(filters=16, kernel_size=(5, 5),  
10.	                         activation='sigmoid')  
11.	        self.p2 = MaxPool2D(pool_size=(2, 2), strides=2)  
12.	        # 拉直  
13.	        self.flatten = Flatten()  
14.	        # 第三层(全连接)  
15.	        self.f1 = Dense(120, activation='sigmoid')  
16.	        # 第四层(全连接)  
17.	        self.f2 = Dense(84, activation='sigmoid')  
18.	        # 第五层(全连接)  
19.	        self.f3 = Dense(10, activation='softmax')  
20.	    def call(self, x):# 前向传播  
21.	        x = self.c1(x)  
22.	        x = self.p1(x)  
23.	        x = self.c2(x)  
24.	        x = self.p2(x)  
25.	        x = self.flatten(x)  
26.	        x = self.f1(x)  
27.	        x = self.f2(x)  
28.	        y = self.f3(x)  
29.	        return y  
30.	model = LeNet5()

TensorFlow2.0中搭建的网络训练结果如下图所示：

最高训练与验证集的准确率可以达到54%和53%。LeNet5最初的目的是训练手写数据集mnist的，用其训练彩色图像可以达到这样的准确率已经很高了。不过如果进一步优化网络结构中的超参数是可以将这一数值提高到60%以上的。

2.4 AlexNet 结构

作为Hinton的代表作之一，AlexNet网络诞生于2012年，作为当年的Image Net竞赛冠军，其Top5错误率为16.4%。
它的网络结构通过使用Relu函数提高了训练数据集的速度，而且因为Dro pout操作缓解了过拟合问题，所以准确率得到了较大的提高。其网络结构如图所示：

从图中可以看出AlexNet一共有八层。本文搭建的网络中，第一层使用了步长为1，不全零填充的96个3×3的卷积核。批标准化用BN操作来代替原论文中的局部相应标准化操作LRN。用3×3的池化核在步长为2的情况下做最大池化。第二层与第一层相比，仅仅只有卷积核个数变为256个。第三层与第四层均使用了384个3×3的卷积核、步长为1，但是这里使用全零填充。没有BN、池化以及舍弃操作，激活函数仍然选用relu。第五层使用256个3×3的卷积核、步长为1，使用全零填充。没有BN和舍弃操作。选用relu函数作为这一层的激活函数。池化操作与第一层一样。
AlexNet结构中的舍弃操作主要集中在全连接层中。在拉直后，使用2048个神经元、relu激活函数和50%的休眠率构建第六以及第七层。最后一层由10个神经元和softmax构成输出层。搭建好的模型结构如图所示：

1.	class AlexNet8(Model):  
2.	    def __init__(self):  
3.	        super(AlexNet8, self).__init__()  
4.	        # 第一层(卷积)  
5.	        self.c1 = Conv2D(filters=96, kernel_size=(3, 3))  
6.	        self.b1 = BatchNormalization()  
7.	        self.a1 = Activation('relu')  
8.	        self.p1 = MaxPool2D(pool_size=(3, 3), strides=2)  
9.	        # 第二层(卷积)  
10.	        self.c2 = Conv2D(filters=256, kernel_size=(3, 3))  
11.	        self.b2 = BatchNormalization()  
12.	        self.a2 = Activation('relu')  
13.	        self.p2 = MaxPool2D(pool_size=(3, 3), strides=2)  
14.	        # 第三层(卷积)  
15.	        self.c3 = Conv2D(filters=384, kernel_size=(3, 3), padding='same',  
16.	                         activation='relu')  
17.	        # 第四层(卷积)  
18.	        self.c4 = Conv2D(filters=384, kernel_size=(3, 3), padding='same',  
19.	                         activation='relu')  
20.	        # 第五层(卷积)  
21.	        self.c5 = Conv2D(filters=256, kernel_size=(3, 3), padding='same',  
22.	                         activation='relu')  
23.	        self.p3 = MaxPool2D(pool_size=(3, 3), strides=2)  
24.	        # 拉直  
25.	        self.flatten = Flatten()  
26.	        # 第六层(全连接)  
27.	        self.f1 = Dense(2048, activation='relu')  
28.	        self.d1 = Dropout(0.5)  
29.	        # 第七层(全连接)  
30.	        self.f2 = Dense(2048, activation='relu')  
31.	        self.d2 = Dropout(0.5)  
32.	        # 第八层(全连接)  
33.	        self.f3 = Dense(10, activation='softmax')  
34.	    def call(self, x): # 前向传播  
35.	        x = self.c1(x)  
36.	        x = self.b1(x)  
37.	        x = self.a1(x)  
38.	        x = self.p1(x)  
39.	  
40.	        x = self.c2(x)  
41.	        x = self.b2(x)  
42.	        x = self.a2(x)  
43.	        x = self.p2(x)  
44.	  
45.	        x = self.c3(x)  
46.	  
47.	        x = self.c4(x)  
48.	  
49.	        x = self.c5(x)  
50.	        x = self.p3(x)  
51.	  
52.	        x = self.flatten(x)  
53.	        x = self.f1(x)  
54.	        x = self.d1(x)  
55.	        x = self.f2(x)  
56.	        x = self.d2(x)  
57.	        y = self.f3(x)  
58.	        return y  
59.	model = AlexNet8()

TensorFlow2.0中搭建的网络训练结果如下图所示:

从图中可以看到在AlexNet结构下搭建的网络相较于LeNet的准确率有了一定的提升，达到63%和65%的准确率。

2.5 InceptionNet 结构

InceptionNet诞生于2014年的Image Net竞赛，作为当年的冠军，其Top5错误率为6.67%。它相较于其他结构引入了Inception结构块，他的核心思想就是在同一层网络内使用不同尺寸的卷积核，以此来提升模型的感知力，然后通过批标准化操作来缓解梯度消失。无论是GoogleNet(Inception v1)还是后续版本(v2、v3、v4)都是基于Inception结构块搭建的网络。
Inception结构块会在同一层网络中搭建多个尺寸的卷积核，所以可以提取不同尺寸的特征。而且通过1×1卷积核作用到输入特征图的每一个像素点，然后通过设定少于输入特征图深度的卷积核的个数来减少输出的特征图深度。从而降低了图片的维度，减少了参数量和计算量。结构块的具体形式如图所示：

一个完整的Inception结构块由4个分支构成。分别经过一个1×1的卷积核输出到卷积连接器；经过1×1的卷积核配合3×3或者5×5的卷积核输出的卷积连接器；经过3×3最大池化核配合1×1卷积核输出到卷积连接器。在结构块中要求送到卷积连接器的四路特征数据尺寸应该相同，然后将这些数据按深度方向拼接，即可得到结构块的输出。这里的每一个部分都可以同前面的模型中的每一层网络一样，通过图1-7的形式表示出来，这里不再赘述。
了解了Inception结构块的构成后，本文搭建了一个精简版本的InceptionNet网络(原网络有22层，训练难度过高)。网络一共有10层。第一层采用步长为1且全零填充的16个3×3的卷积核。选择BN操作和relu函数激活。然后是4个Inc eption结构块相连，每两个结构块组成一个block。而每个block中的第一个结构块的卷积步长为2，第二个结构块中的卷积步长为1。这使得第一个输出特征图的尺寸减半，因此我们需要将输出特征图的深度加深以保证特征抽取中的信息承载量尽可能一致。最后block中的结果会被送入平均池化以及10个分类的全连接。即如下图所示：

1.	class ConvBNRelu(Model):# 定义一个类，后面直接调用  
2.	    def __init__(self, ch, kernelsz=3, strides=1, padding='same'):  
3.	        # 默认卷积核边长是3，步长为1，全零填充  
4.	        super(ConvBNRelu, self).__init__()  
5.	        self.model = tf.keras.models.Sequential([  
6.	            Conv2D(ch, kernelsz, strides=strides, padding=padding),  
7.	            BatchNormalization(),  
8.	            Activation('relu')  
9.	        ])  
10.	    def call(self, x):  
11.	        x = self.model(x)  
12.	        return x  
13.	  
14.	class InceptionBIK(Model): # 定义一个类来实现一个结构块
15.	    def __init__(self, ch, strides=1):  
16.	        super(InceptionBIK, self).__init__()  
17.	        self.ch = ch  
18.	        self.strides = strides  
19.	        # Inception结构块的四个分支  
20.	        # 第一个分支  
21.	        self.c1 = ConvBNRelu(ch, kernelsz=1, strides=strides)  
22.	        # 第二个分支  
23.	        self.c2_1 = ConvBNRelu(ch, kernelsz=1, strides=strides)  
24.	        self.c2_2 = ConvBNRelu(ch, kernelsz=3, strides=1)  
25.	        # 第三个分支  
26.	        self.c3_1 = ConvBNRelu(ch,kernelsz=1, strides=strides)  
27.	        self.c3_2 = ConvBNRelu(ch, kernelsz=5, strides=1)  
28.	        # 第四个分支  
29.	        self.p4_1 = MaxPool2D(3, strides=1, padding='same')  
30.	        self.c4_2 = ConvBNRelu(ch, kernelsz=1, strides=strides)  
31.	  
32.	    def call(self, x):  
33.	        x1 = self.c1(x)  
34.	        x2_1 = self.c2_1(x)  
35.	        x2_2 = self.c2_2(x2_1)  
36.	        x3_1 = self.c3_1(x)  
37.	        x3_2 = self.c3_2(x3_1)  
38.	        x4_1 = self.p4_1(x)  
39.	        x4_2 = self.c4_2(x4_1)  
40.	        # 将四个分支的输出堆叠，方向沿深度方向  
41.	        x = tf.concat([x1, x2_2, x3_2, x4_2], axis=3)  
42.	        return x  
43.	class Inception10(Model): # 搭建的一个精简版本的Inception网络
44.	    def __init__(self, num_blocks, num_classes, init_ch=16, **kwargs):  
45.	        # 默认输出深度是16  
46.	        super(Inception10,self).__init__(**kwargs)  
47.	        self.in_channels = init_ch  
48.	        self.out_channels = init_ch  
49.	        self.num_blocks = num_blocks  
50.	        self.init_ch = init_ch  
51.	        self.c1 = ConvBNRelu(init_ch)  
52.	        self.blocks = tf.keras.models.Sequential()  
53.	        for block_id in range(num_blocks):  
54.	            for layer_id in range(2):  
55.	                if layer_id == 0:  
56.	                    # 第一个block结构块，卷积步长2(使得输出特征图尺寸减半)  
57.	                    block = InceptionBIK(self.out_channels, strides=2)  
58.	                else:  
59.	                    # 第二个block结构块，卷积步长1  
60.	                    block = InceptionBIK(self.out_channels, strides=1)  
61.	                self.blocks.add(block)  
62.	            # 输出特征图深度加深  
63.	            self.out_channels *= 2  
64.	        # 平均池化  
65.	        self.p1 = GlobalAveragePooling2D()  
66.	        self.f1 = Dense(num_classes, activation='softmax')  
67.	  
68.	    def call(self, x):  
69.	        x = self.c1(x)  
70.	        x = self.blocks(x)  
71.	        x = self.p1(x)  
72.	        y =self.f1(x)  
73.	        return y  
74.	# 实例化类，指定block数为2且网络是10分类  
75.	model = Inception10(num_blocks=2, num_classes=10)

TensorFlow2.0中搭建的网络训练结果如下图所示：

因为现在的网络规模较之前有较大提升，所以我们将每次喂入神经网络的数据调整到1024。以此充分发挥显卡的性能，提高训练的速度。这时的训练准确率已经达到70%左右。

2.6 ResNet 结构

2015年由何恺明及其团队提出，是当年的ImageNet竞赛冠军，其Top5错误率为3.57%。ResNet网络结构最大的改变就是提出了层间残差跳连，引入前方信息、缓解梯度消失，使神经网络的层数增加成为可能。
从前面几种经典网络结构中我们可以发现，随着时间的推移，卷积神经网络的层数越来越多，其训练准确率也同步提高。那是不是说神经网络的层数越多越好呢？显然不是的。
ResNet的作者曾经在cifar10数据集上做过一个实验。他发现56层卷积网络的错误率要高与20层卷积网络的错误率。如图所示：

因为单纯的堆叠神经网络的层数会使神经网络模型退化，导致后面的特征丢失了前面特征的原本模样。所以这里引入了ResNet块来解决这一问题。其结构如图所示：

它由一根跳连线将前边的特征直接连到后边，使输出结果H(x)包括堆叠卷积的非线性输出F(x)和跳过这两层堆叠卷积的恒等映射x。这样的操作有效的缓解了神经网络模型堆叠导致的退化，使得神经网络可以向着更深的层级发展。还要注意，这里的+与前面Inception块中的+有所不同。前面是沿深度方向的叠加，而这里是和矩阵加和类似的对应元素的+和。
实际上在ResNet块中有两种不同的情况，如下图所示：

其中，实线表示两层堆叠卷积没有改变特征图的维度，其高、宽和深度都相同，可以直接加和(即H(x)=F(x)+x)；虚线表示两层堆叠卷积改变了特征图的维度，需要1×1的卷积来调整x的维度，其中W就是1×1卷积操作，其加和为(H(x)=F(x) +W(x))。
我们使用ResNet块就可以在Tensor Flow中搭建Res Net18的网络结构，其第一层是个卷积，紧接着会有8个ResNet块，然后通过平均池化后进入一个全连接层。这个网络总共有18层，因为每一个ResNet块包含两层卷积。第一个ResNet块中两个跳连都是实线，而第二、三和第四个中则是先虚线后实线的跳连方式[9]。关于模型中的卷积核、池化核的尺寸在附录六的代码中有详细注释。其具体结构可以用下图表示：

1.	# 每调用一次ResnetBlock类会生成一个ResNet块  
2.	class ResnetBlock(Model):  
3.	    def __init__(self, filters, strides=1, residual_path=False):  
4.	        super(ResnetBlock, self).__init__()  
5.	        self.filters = filters  
6.	        self.strides = strides  
7.	        self.residual_path = residual_path  
8.	  
9.	        self.c1 = Conv2D(filters, (3, 3), strides=strides, padding='same', use_bias=False)  
10.	        self.b1 = BatchNormalization()  
11.	        self.a1 = Activation('relu')  
12.	  
13.	        self.c2 = Conv2D(filters, (3, 3), strides=1, padding='same', use_bias=False)  
14.	        self.b2 = BatchNormalization()  
15.	        # residual_path为True时，对输入进行下采样，即用1*1的卷积核做卷积，保证x与F(x)维度相同  
16.	        if residual_path:  
17.	            self.down_c1 = Conv2D(filters, (1, 1), strides=strides, padding='same', use_bias=False)  
18.	            self.down_b1 = BatchNormalization()  
19.	  
20.	        self.a2 = Activation('relu')  
21.	  
22.	    def call(self, inputs):  
23.	        # residual等于输入，即residual=x  
24.	        residual = inputs   
25.	        # 将输入通过卷积、BN层、激活层，计算F(x)  
26.	        x = self.c1(inputs)  
27.	        x = self.b1(x)  
28.	        x = self.a1(x)  
29.	        x = self.c2(x)  
30.	        y = self.b2(x)  
31.	        # 当堆叠卷积层前后维度相同，不执行IF  
32.	        if self.residual_path:  
33.	            residual = self.down_c1(inputs)  
34.	            residual = self.down_b1(residual)  
35.	        # 最后输出的是两部分的和，即F(x)+x或F(x)+W(x)  
36.	        # 再经过激活函数  
37.	        out = self.a2(y + residual)  
38.	        return out  
39.	  
40.	class ResNet18(Model):  
41.	    # block_list表示每个block有几个卷积层  
42.	    def __init__(self, block_list, initial_filters=64):  
43.	        super(ResNet18, self).__init__()  
44.	        self.num_blocks = len(block_list) # block的总数  
45.	        self.block_list = block_list  
46.	        self.out_filters = initial_filters  
47.	        self.c1 = Conv2D(self.out_filters, (3, 3), strides=1, padding='same', use_bias=False)  
48.	        self.b1 = BatchNormalization()  
49.	        self.a1 = Activation('relu')  
50.	        self.blocks = tf.keras.models.Sequential()  
51.	        # 构建ResNet网络结构(*4)  
52.	        # 当前是第几个resnet block  
53.	        for block_id in range(len(block_list)):  
54.	            # 当前是哪一个卷积层  
55.	            for layer_id in range(block_list[block_id]):   
56.	                # 对除第一个block以外的每个block的输入进行下采样  
57.	                if block_id != 0 and layer_id == 0:  
58.	                    block = ResnetBlock(self.out_filters, strides=2, residual_path=True)  
59.	                else:  
60.	                    block = ResnetBlock(self.out_filters, residual_path=False)  
61.	                # 将构建好的block加入resnet  
62.	                self.blocks.add(block)  
63.	            # 下一个block的卷积核是上一个的两倍  
64.	            self.out_filters *= 2  
65.	        self.p1 = tf.keras.layers.GlobalAveragePooling2D()  
66.	        self.f1 = tf.keras.layers.Dense(10, activation='softmax', kernel_regularizer=tf.keras.regularizers.l2())  
67.	  
68.	    def call(self, inputs):  
69.	        x = self.c1(inputs)  
70.	        x = self.b1(x)  
71.	        x = self.a1(x)  
72.	        x = self.blocks(x)  
73.	        x = self.p1(x)  
74.	        y = self.f1(x)  
75.	        return y  
76.	  
77.	model = ResNet18([2, 2, 2, 2])

TensorFlow2.0中搭建的网络训练结果如下图所示：

可以看出相较于前面三种网络结构，ResNet网络对于cifar10数据集的的训练效果是最好的，最大值接近90%。

三、关于这几种网络的总结

从2.3到2.6中可以看到，随着网络复杂程度的提高，以及Relu、Dropout、BN等操作的使用，cifar10数据集的准确率基本上是逐步提高的。四个网络中，InceptionNet的训练效果是最不理想的。可能是因为其本身的设计理念是采用不同尺寸的卷积核，提供不同的感受野。但是cifar10只是一个单一的分类任务，所以二者的契合度并不高。还要指出的是，本文所搭建的网络极其超参数的设定都是可以改变的。而大多数时候这些变量的改变会使整个网络的效果有显著的提高，所以如何选择合适的模型极其训练的方式也是一个值得探究的问题。
最后，本文虽然利用TensorFlow中的Keras库搭建了卷积神经网络中较为经典的四种网络结构。通过已经编写好的程序包，简化了网络的搭建过程，切实感受到了TensorFlow对于神经网络构建的便利性。但是最终的训练结果看起来没有特别突出的地方。但这不影响本文中提及的搭建网络的思路的正确性与泛化性，可以作为我们以后搭建其他的网络的一个很好的示例。

这是本人第一篇博文，其中许多公式并未专门编辑，阅读体验可能较差，后面有机会会改。如果文章中有什么不妥的地方欢迎大家指正（如有指正，非常感谢）。最后希望这篇文章可以给需要的朋友一点点帮助。

你可能感兴趣的:(tensorflow,神经网络)

VGG16滤镜可视化和类激活图 LIjin_1006 人工智能神经网络深度学习 cnn
这个用keras2.2.4+tensorflow1.15.0importkeraskeras.__version__fromkeras.applicationsimportVGG16fromkerasimportbackendasKimportnumpyasnpfromkerasimportmodelsimportmatplotlib.pyplotaspltimporttensorflowastf
PaperWeekly sapienst Papers PaperwithCode General ML
1.Python软件包解决DL在未见过的数据分布下性能差的问题：（1）神经网络和损失分离的模块化设计（2）强大便捷的基准测试能力（3）易于使用但难以修改（4）github:https://github.com/marrlab/domainlabTrainer和Models之间是什么关系Trainer和Models是DomainLab中的两个核心概念。Trainer是一个用于指导数据流向模型并计算S
DCGAN中的生成器和识别器代码详解 YYLin-AI DCGAN 深度学习 celeba tensorflow
#DCGAN中的生成器我自己写的有一个封装好的用于生成器和识别器的卷积操作但是在这个代码中我没有使用我自己的代码#原因想绍一下tensorflow自带的函数所以找了一个以前在书上的代码申明一下这个不是原创但是原来代码中有几处不符合DCGAN的要求所以就做了一些修改转载链接没有就直接写成原创建议看代码之前先看看DCGAN的特点，然后再看代码中如何实这些特点的这样会更有帮助DCGAN（深度卷积的对抗生
ChatGPT技巧大揭秘：AI写代码新境界 2401_83550420 chatgpt4.0 chatgpt chatgpt 人工智能 AI写作
ChatGPT无限次数:点击直达ChatGPT技巧大揭秘：AI写代码新境界随着人工智能技术的不断进步，开发人员现在有了更多有趣的工具来提高他们的工作效率。其中，ChatGPT作为一种基于深度学习的自然语言处理模型，已经成为许多开发者的新宠。在本文中，我们将揭秘使用ChatGPT来帮助编写代码的技巧，探索AI在编程领域的新境界。ChatGPT简介ChatGPT是一种基于大型神经网络的对话生成模型，它
AI大模型学习：开启智能时代的新篇章游向大厂的咸鱼人工智能学习
随着人工智能技术的不断发展，AI大模型已经成为当今领先的技术之一，引领着智能时代的发展。这些大型神经网络模型，如OpenAI的GPT系列、Google的BERT等，在自然语言处理、图像识别、智能推荐等领域展现出了令人瞩目的能力。然而，这些模型的背后是一系列复杂的学习过程，深度学习技术的不断演进推动了AI大模型学习的发展。首先，AI大模型学习的基础是深度学习技术。深度学习是一种模仿人类大脑结构的机器
【循环神经网络rnn】一篇文章讲透 CX330的烟花 rnn 人工智能深度学习算法 python 机器学习数据结构
目录引言二、RNN的基本原理代码事例三、RNN的优化方法1长短期记忆网络（LSTM）2门控循环单元（GRU）四、更多优化方法1选择合适的RNN结构2使用并行化技术3优化超参数4使用梯度裁剪5使用混合精度训练6利用分布式训练7使用预训练模型五、RNN的应用场景1自然语言处理2语音识别3时间序列预测六、RNN的未来发展七、结论引言众所周知，CNN与循环神经网络（RNN）或生成对抗网络（GAN）等算法结
深度学习与（复杂系统）事物的属性科学禅道深度学习模型专栏深度学习人工智能
深度学习与复杂系统中事物属性的关系体现在：特征学习与表示:深度学习通过多层神经网络结构，能够自动从原始输入数据中学习和提取出丰富的特征表示。每一层神经网络都可能对应着事物属性的不同抽象层次，底层可能对应简单直观的属性，而随着网络深度的增加，顶层可以学习到更抽象、复杂的属性及其相互关系。非线性关系建模:深度学习特别擅长处理非线性关系，而在复杂系统中，事物属性间的相互作用往往表现为非线性，例如，某些属
神经网络（深度学习，计算机视觉，得分函数，损失函数，前向传播，反向传播，激活函数） MarkHD 深度学习神经网络计算机视觉
神经网络，特别是深度学习，在计算机视觉等领域有着广泛的应用。以下是关于你提到的几个关键概念的详细解释：神经网络：神经网络是一种模拟人脑神经元结构的计算模型，用于处理复杂的数据和模式识别任务。它由多个神经元（或称为节点）组成，这些神经元通过权重和偏置进行连接，并可以学习调整这些参数以优化性能。深度学习：深度学习是神经网络的一个子领域，主要关注于构建和训练深度神经网络（即具有多个隐藏层的神经网络）。通
Android 实现照片抠出人像。 No Promises﹉ android
谢谢阅览、关注！！一、各平台的实现方式：1.Android实现方式：使用图像处理库（如OpenCV）：集成OpenCV库，利用其图像处理功能进行边缘检测和图像分割；使用机器学习模型（如TensorFlowLite）：集成TensorFlowLite和预训练的人像分割模型；使用第三方API服务：利用如百度AI、腾讯AI等提供的在线API进行图像处理。步骤：集成必要的库或API、加载和处理图像、应用抠
飞桨科学计算套件PaddleScience skywalk8163 人工智能 paddlepaddle 人工智能飞桨
PaddleScience是一个基于深度学习框架PaddlePaddle开发的科学计算套件，利用深度神经网络的学习能力和PaddlePaddle框架的自动(高阶)微分机制，解决物理、化学、气象等领域的问题。支持物理机理驱动、数据驱动、数理融合三种求解方式，并提供了基础API和详尽文档供用户使用与二次开发。安装当然要先安装好飞桨PaddlePaddle，再安装PaddleSciencepipinst
训练时损失出现负数，正常吗？为什么苏苏大大机器学习深度学习人工智能
在训练神经网络时，通常期望损失函数的值是非负的，因为损失函数是用来度量模型预测与真实值之间的差异的。然而，有时候在训练过程中，损失函数可能会出现负数的情况，这可能是正常的，也可能是因为某些原因导致了不寻常的行为。出现损失函数为负数的情况可能有以下几种原因：1.数值不稳定性：如果在计算损失函数时使用了数值不稳定的操作，比如过大或过小的数值，可能会导致损失函数出现负数。这可能是由于数值计算中的舍入误差
神经网络量化小厂程序猿人工智能
神经网络量化（NeuralNetworkQuantization）是一种技术，旨在减少神经网络模型的计算和存储资源需求，同时保持其性能。在深度学习中，神经网络模型通常使用高精度的参数（例如32位浮点数）来表示权重和激活值。然而，这种表示方式可能会占用大量的内存和计算资源，特别是在部署到资源受限的设备（如移动设备或嵌入式系统）时会受到限制。神经网络量化通过将模型参数和激活值从高精度表示（例如32位浮
神奇的微积分科学的N次方人工智能人工智能 ai
微积分在人工智能（AI）领域扮演着至关重要的角色，以下是其主要作用：优化算法：•梯度下降法：微积分中的导数被用来计算损失函数相对于模型参数的梯度，这是许多机器学习和深度学习优化算法的核心。梯度指出了函数值增加最快的方向，通过沿着负梯度方向更新权重，可以最小化损失函数并优化模型。•反向传播：在神经网络训练中，微积分的链式法则用于计算整个网络中每个参数对于最终损失函数的影响（偏导数），这一过程就是反向
看见光，追逐光，成为光~ 默涵在当下
高屋建瓴的人，散发着高贵气质，周遭牛人很多，咬紧他们~杜总，从看网知网背景出发，讲到发现流量痛点，讲到站点布局，讲到下一步机会，从而又契合到自动驾驶网络。从如何构建五级驾驶，到如何结合现状落地~研究字节跳动对神经网络的改造，注入人的干预分类，优化再到聚类，让算法匹配人的干预能力~基础操作效能提升达到90%，告警防护率达到90%，两者交叉防护有效率达到多少？99%一切皆可AI~一切皆可AI~优秀自觉
线性代数在卷积神经网络（CNN）中的体现科学的N次方人工智能线性代数 cnn 人工智能
案例：深度学习中的卷积神经网络（CNN）在图像识别领域，卷积神经网络（ConvolutionalNeuralNetworks,CNN）是一个广泛应用深度学习模型，它在人脸识别、物体识别、医学图像分析等方面取得了显著成效。CNN中的核心操作——卷积，就是一个直接体现线性代数应用的例子。假设我们正在训练一个用于识别猫和狗的图像分类器，原始输入是一幅RGB彩色图片，可以将其视为一个高度、宽度和通道数（R
Arduino使用TinyML实现水果识别亚图跨际物联网编程 Arduino tensorflow arduino tinyml
在本文中，板载手势传感器将用于收集对象识别数据，这些数据将用于创建TensorFlowLite模型，该模型可用于识别特定对象。电路板的接近传感器功能将用于识别物体何时靠近电路板，而RGB传感器用于首先收集物体的颜色数据，然后正确识别物体。这是一个简单的示例，但确实显示了在小型设备上运行TinyML的潜力以及传感器丰富的Arduino蓝牙传感器的强大功能。硬件水果ArduinoIDE准备安装库文件捕
机器学习常用框架碧落&凡尘机器学习人工智能
机器学习是人工智能的一个重要分支，它通过让计算机系统利用数据自我学习来改进任务执行的能力。在机器学习领域，有许多成熟的框架被广泛使用，这些框架提供了构建和训练机器学习模型的工具。以下是一些常用的机器学习框架：TensorFlow：由Google开发，是一个开源的软件库，用于数据流编程，广泛应用于各类机器学习任务。它支持分布式计算，能够在大规模数据集上训练复杂的模型。PyTorch：由Faceboo
TensorFlow的介绍和简单案例科学的N次方人工智能 tensorflow 人工智能 python
TensorFlow是一个开源的机器学习框架，由Google开发和维护。它旨在使构建和训练机器学习模型变得更加容易，同时提供高度灵活性和可扩展性。TensorFlow基于数据流图的概念。数据流图是一个由节点和边组成的有向图，其中节点表示操作，边表示数据的流动。TensorFlow通过在数据流图中定义操作和变量来表示机器学习模型，并使用图的计算能力进行训练和推理。TensorFlow支持多种机器学习
Pytorch nn.Module 霖大侠 pytorch 人工智能 python 深度学习 cnn 神经网络卷积神经网络
一、torch.nn简介torch.nn是PyTorch中用于构建神经网络的模块。它提供了一系列的类和函数，用于定义神经网络的各种层、损失函数、优化器等。torch.nn提供的类：Module:所有神经网络模型的基类，用于定义自定义神经网络模型。Linear:线性层，进行线性变换。Conv2d:二维卷积层。RNN,LSTM,GRU:循环神经网络层，分别对应简单RNN、长短时记忆网络（LSTM）、门
计算机设计大赛题目：基于卷积神经网络的手写字符识别 - 深度学习 iuerfee python
文章目录0前言1简介2LeNet-5模型的介绍2.1结构解析2.2C1层2.3S2层S2层和C3层连接2.4F6与C5层3写数字识别算法模型的构建3.1输入层设计3.2激活函数的选取3.3卷积层设计3.4降采样层3.5输出层设计4网络模型的总体结构5部分实现代码6在线手写识别7最后0前言优质竞赛项目系列，今天要分享的是基于卷积神经网络的手写字符识别该项目较为新颖，适合作为竞赛课题方向，学长非常推荐
神经网络模型的保存和读取 tiny_PIkid 基于pytorch的深度学习 pytorch 神经网络深度学习
保存神经网络的两种方法:(还是以我之前自建的神经网络模型Gu为例，保存这个神经网络)gu=Gu()1.torch.save(gu,"gu_module.pth")2.torch.save(gu.state_dict(),"gu_module.pth")importtorchfromtorchimportnnfromtorch.nnimportSequential,Conv2d,MaxPool2d,
基于Python和OpenCV的产品码识别与验证案例 GT开发算法工程师 python opencv 开发语言人工智能计算机视觉
引言：本案例展示了如何使用Python结合OpenCV库来实现产品码的识别与验证。首先，通过图像预处理技术（如灰度化、二值化、降噪等）优化产品码图像，然后利用OpenCV中的模板匹配或机器学习算法（如SVM、神经网络等）来定位并识别产品码。目录原理：代码部分：注意：原理：产品码识别与验证的核心在于图像处理与模式识别技术。首先，通过图像处理技术提取出产品码区域，去除背景干扰，增强产品码的可识别性。然
图像算法实习生--面经1 小豆包的小朋友0217 算法
系列文章目录文章目录系列文章目录前言一、为什么torch里面要用optimizer.zero_grad()进行梯度置0二、Unet神经网络为什么会在医学图像分割表现好？三、transformer相关问题四、介绍一下胶囊网络的动态路由五、yolo系列出到v9了，介绍一下你最熟悉的yolo算法六、一阶段目标检测算法和二阶段目标检测算法有什么区别？七、讲一下剪枝八、讲一下PTQandQAT量化的区别九、
TypeError: parse() got an unexpected keyword argument 'transport_encoding' 凌川江雪
有点尴尬，自安装了ANACONDA和TensorFlow之后，首次在ANACONDAPrompt中用pip命令安装第三方库，然而一大片刺眼的红字就扑面而来，在ANACONDAPrompt中没法用pip命令安装第三方库了？搞了一会儿，没得搞定，最后在CSDN上找到一个简单粗暴而效果拔群的办法：直接在ANACONDAPrompt中安装pip，解决问题！即：condainstallpip
深度学习——梯度消失、梯度爆炸小羊头发长深度学习机器学习人工智能
本文参考：深度学习之3——梯度爆炸与梯度消失梯度消失和梯度爆炸的根源：深度神经网络结构、反向传播算法目前优化神经网络的方法都是基于反向传播的思想，即根据损失函数计算的误差通过反向传播的方式，指导深度网络权值的更新。为什么神经网络优化用到梯度下降的优化方法？深度网络是由许多非线性层(带有激活函数)堆叠而成，每一层非线性层可以视为一个非线性函数f(x)，因此整个深度网络可以视为一个复合的非线性多元函数
阿里云分布式深度学习训练架构Whale qwfys200 Reading 阿里云分布式深度学习
阿里云分布式深度学习训练架构Whale阿里云分布式深度学习训练架构Whale参考文献Whale基于Tensorflow深度学习分布式训练框架|学习笔记Whale:EfficientGiantModelTrainingoverHeterogeneousGPUs阿里云机器学习平台PAI论文高效大模型训练框架Whale入选USENIXATC’22
深度学习如何入门？ nanshaws yolov5 深度学习
深度学习是机器学习的一个子领域，它基于人工神经网络的研究。入门深度学习可以分为以下几个步骤：基础知识准备：（1）掌握基础数学知识，特别是线性代数、概率论和统计学、微积分。（2）学习编程语言，Python是目前最流行的深度学习语言，因其简洁易学且有大量的库支持。（3）了解机器学习基础，包括监督学习和非监督学习的概念、模型评估与选择等。学习深度学习理论：（1）理解神经网络的基本组成，如神经元、激活函数
从零使用Python 实现对抗神经网络GAN 算法channel 神经网络 python 生成对抗网络开发语言人工智能
你好，我是郭震这篇从零使用Python，实现生成对抗网络（GAN）的基本版本。GAN使用两套网络，分别是判别器（D)网络和生成器（G)网络，最重要的是弄清楚每套网络的输入和输出分别是什么，两套网络如何结合在一起，及优化的目标即costfunction如何定义。通俗来讲，两套网络结合的方法，就是G会从D的判分中不断提升生成能力，要知道G最开始的输入全部是噪点，这个思想也是文生图，文生视频的基石。下面
PyTorch 实现图像卷积和反卷积操作及代码算法channel pytorch 人工智能 python 深度学习机器学习
你好，我是郭震在深度学习中，尤其是在处理图像相关任务时，卷积和反卷积（转置卷积）都是非常核心的概念。它们在神经网络中扮演着重要的角色，但用途和工作原理有所不同。以下是对传统卷积和反卷积的介绍，以及它们在PyTorch中的应用示例。传统卷积(nn.Conv2d)用途传统卷积通常用于特征提取。在处理图像时，通过应用卷积核（也称为滤波器）来扫描输入图像或特征映射，可以有效地识别图像中的局部特征（如边缘、
【深度学习模型】6_3 语言模型数据集 RIKI_1 深度学习深度学习语言模型人工智能
注：本文为《动手学深度学习》开源内容，部分标注了个人理解，仅为个人学习记录，无抄袭搬运意图6.3语言模型数据集（周杰伦专辑歌词）本节将介绍如何预处理一个语言模型数据集，并将其转换成字符级循环神经网络所需要的输入格式。为此，我们收集了周杰伦从第一张专辑《Jay》到第十张专辑《跨时代》中的歌词，并在后面几节里应用循环神经网络来训练一个语言模型。当模型训练好后，我们就可以用这个模型来创作歌词。6.3.1
Java实现的基于模板的网页结构化信息精准抽取组件：HtmlExtractor yangshangchuan 信息抽取 HtmlExtractor 精准抽取信息采集
HtmlExtractor是一个Java实现的基于模板的网页结构化信息精准抽取组件，本身并不包含爬虫功能，但可被爬虫或其他程序调用以便更精准地对网页结构化信息进行抽取。 HtmlExtractor是为大规模分布式环境设计的，采用主从架构，主节点负责维护抽取规则，从节点向主节点请求抽取规则，当抽取规则发生变化，主节点主动通知从节点，从而能实现抽取规则变化之后的实时动态生效。如
java编程思想 -- 多态百合不是茶 java 多态详解
一: 向上转型和向下转型面向对象中的转型只会发生在有继承关系的子类和父类中（接口的实现也包括在这里）。父类：人子类：男人向上转型： Person p = new Man() ; //向上转型不需要强制类型转化向下转型： Man man =
[自动数据处理]稳扎稳打,逐步形成自有ADP系统体系 comsci dp
对于国内的IT行业来讲,虽然我们已经有了"两弹一星",在局部领域形成了自己独有的技术特征,并初步摆脱了国外的控制...但是前面的路还很长.... 首先是我们的自动数据处理系统还无法处理很多高级工程...中等规模的拓扑分析系统也没有完成,更加复杂的
storm 自定义日志文件商人shang storm cluster logback
Storm中的日志级级别默认为INFO，并且，日志文件是根据worker号来进行区分的，这样，同一个log文件中的信息不一定是一个业务的，这样就会有以下两个需求出现： 1. 想要进行一些调试信息的输出 2. 调试信息或者业务日志信息想要输出到一些固定的文件中不要怕，不要烦恼，其实Storm已经提供了这样的支持，可以通过自定义logback 下的 cluster.xml 来输
Extjs3 SpringMVC使用 @RequestBody 标签问题记录 21jhf
springMVC使用 @RequestBody(required = false) UserVO userInfo 传递json对象数据，往往会出现http 415，400,500等错误，总结一下需要使用ajax提交json数据才行，ajax提交使用proxy，参数为jsonData，不能为params；另外，需要设置Content-type属性为json，代码如下：（由于使用了父类aaa
一些排错方法文强chu 方法
1、java.lang.IllegalStateException: Class invariant violation at org.apache.log4j.LogManager.getLoggerRepository(LogManager.java:199)at org.apache.log4j.LogManager.getLogger(LogManager.java:228) at o
Swing中文件恢复我觉得很难小桔子 swing
我那个草了！老大怎么回事，怎么做项目评估的？只会说相信你可以做的，试一下，有的是时间！用java开发一个图文处理工具，类似word，任意位置插入、拖动、删除图片以及文本等。文本框、流程图等，数据保存数据库，其余可保存pdf格式。ok,姐姐千辛万苦，
php 文件操作 aichenglong PHP 读取文件写入文件
1 写入文件 @$fp=fopen("$DOCUMENT_ROOT/order.txt", "ab"); if(!$fp){ echo "open file error" ; exit; } $outputstring="date:"." \t tire:".$tire."
MySQL的btree索引和hash索引的区别 AILIKES 数据结构 mysql 算法
Hash 索引结构的特殊性，其检索效率非常高，索引的检索可以一次定位，不像B-Tree 索引需要从根节点到枝节点，最后才能访问到页节点这样多次的IO访问，所以 Hash 索引的查询效率要远高于 B-Tree 索引。可能很多人又有疑问了，既然 Hash 索引的效率要比 B-Tree 高很多，为什么大家不都用 Hash 索引而还要使用 B-Tree 索引呢
JAVA的抽象--- 接口 --实现百合不是茶
抽象接口实现接口 //抽象类 ,方法 //定义一个公共抽象的类 ,并在类中定义一个抽象的方法体抽象的定义使用abstract abstract class A 定义一个抽象类例如： //定义一个基类 public abstract class A{ //抽象类不能用来实例化，只能用来继承 //
JS变量作用域实例 bijian1013 作用域
<script> var scope='hello'; function a(){ console.log(scope); //undefined var scope='world'; console.log(scope); //world console.log(b);
TDD实践（二） bijian1013 java TDD
实践题目：分解质因数 Step1：单元测试： package com.bijian.study.factor.test; import java.util.Arrays; import junit.framework.Assert; import org.junit.Before; import org.junit.Test; import com.bijian.
[MongoDB学习笔记一]MongoDB主从复制 bit1129 mongodb
MongoDB称为分布式数据库，主要原因是1.基于副本集的数据备份， 2.基于切片的数据扩容。副本集解决数据的读写性能问题，切片解决了MongoDB的数据扩容问题。事实上，MongoDB提供了主从复制和副本复制两种备份方式，在MongoDB的主从复制和副本复制集群环境中，只有一台作为主服务器，另外一台或者多台服务器作为从服务器。本文介绍MongoDB的主从复制模式，需要指明
【HBase五】Java API操作HBase bit1129 hbase
import java.io.IOException; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.hbase.HBaseConfiguration; import org.apache.hadoop.hbase.HColumnDescriptor; import org.apache.ha
python调用zabbix api接口实时展示数据 ronin47
zabbix api接口来进行展示。经过思考之后，计划获取如下内容： 1、获得认证密钥 2、获取zabbix所有的主机组 3、获取单个组下的所有主机 4、获取某个主机下的所有监控项
jsp取得绝对路径 byalias 绝对路径
在JavaWeb开发中，常使用绝对路径的方式来引入JavaScript和CSS文件，这样可以避免因为目录变动导致引入文件找不到的情况，常用的做法如下：一、使用${pageContext.request.contextPath} 　　代码” ${pageContext.request.contextPath}”的作用是取出部署的应用程序名，这样不管如何部署，所用路径都是正确的。
Java定时任务调度：用ExecutorService取代Timer bylijinnan java
《Java并发编程实战》一书提到的用ExecutorService取代Java Timer有几个理由，我认为其中最重要的理由是：如果TimerTask抛出未检查的异常，Timer将会产生无法预料的行为。Timer线程并不捕获异常，所以 TimerTask抛出的未检查的异常会终止timer线程。这种情况下，Timer也不会再重新恢复线程的执行了;它错误的认为整个Timer都被取消了。此时，已经被
SQL 优化原则 chicony sql
一、问题的提出　在应用系统开发初期，由于开发数据库数据比较少，对于查询SQL语句，复杂视图的的编写等体会不出SQL语句各种写法的性能优劣，但是如果将应用系统提交实际应用后，随着数据库中数据的增加，系统的响应速度就成为目前系统需要解决的最主要的问题之一。系统优化中一个很重要的方面就是SQL语句的优化。对于海量数据，劣质SQL语句和优质SQL语句之间的速度差别可以达到上百倍，可见对于一个系统
java 线程弹球小游戏 CrazyMizzz java 游戏
最近java学到线程，于是做了一个线程弹球的小游戏，不过还没完善这里是提纲 1.线程弹球游戏实现 1.实现界面需要使用哪些API类 JFrame JPanel JButton FlowLayout Graphics2D Thread Color ActionListener ActionEvent MouseListener Mouse
hadoop jps出现process information unavailable提示解决办法 daizj hadoop jps
hadoop jps出现process information unavailable提示解决办法 jps时出现如下信息： 3019 -- process information unavailable3053 -- process information unavailable2985 -- process information unavailable2917 --
PHP图片水印缩放类实现 dcj3sjt126com PHP
<?php class Image{ private $path; function __construct($path='./'){ $this->path=rtrim($path,'/').'/'; } //水印函数，参数：背景图，水印图，位置，前缀,TMD透明度 public function water($b,$l,$pos
IOS控件学习：UILabel常用属性与用法 dcj3sjt126com ios UILabel
参考网站： http://shijue.me/show_text/521c396a8ddf876566000007 http://www.tuicool.com/articles/zquENb http://blog.csdn.net/a451493485/article/details/9454695 http://wiki.eoe.cn/page/iOS_pptl_artile_281
完全手动建立maven骨架 eksliang java eclipse Web
建一个 JAVA 项目： mvn archetype:create -DgroupId=com.demo -DartifactId=App [-Dversion=0.0.1-SNAPSHOT] [-Dpackaging=jar] 建一个 web 项目： mvn archetype:create -DgroupId=com.demo -DartifactId=web-a
配置清单 gengzg 配置
1、修改grub启动的内核版本 vi /boot/grub/grub.conf 将default 0改为1 拷贝mt7601Usta.ko到/lib文件夹拷贝RT2870STA.dat到 /etc/Wireless/RT2870STA/文件夹拷贝wifiscan到bin文件夹，chmod 775 /bin/wifiscan 拷贝wifiget.sh到bin文件夹，chm
Windows端口被占用处理方法 huqiji windows
以下文章主要以80端口号为例，如果想知道其他的端口号也可以使用该方法..........................1、在windows下如何查看80端口占用情况?是被哪个进程占用?如何终止等. 这里主要是用到windows下的DOS工具,点击"开始"--"运行",输入&
开源ckplayer 网页播放器，跨平台(html5, mobile)，flv, f4v, mp4, rtmp协议. webm, ogg, m3u8 ！天梯梦 mobile
CKplayer，其全称为超酷flv播放器，它是一款用于网页上播放视频的软件，支持的格式有：http协议上的flv,f4v,mp4格式，同时支持rtmp视频流格式播放，此播放器的特点在于用户可以自己定义播放器的风格，诸如播放/暂停按钮，静音按钮，全屏按钮都是以外部图片接口形式调用，用户根据自己的需要制作出播放器风格所需要使用的各个按钮图片然后替换掉原始风格里相应的图片就可以制作出自己的风格了，
简单工厂设计模式 hm4123660 java 工厂设计模式简单工厂模式
简单工厂模式（Simple Factory Pattern）属于类的创新型模式，又叫静态工厂方法模式。是通过专门定义一个类来负责创建其他类的实例，被创建的实例通常都具有共同的父类。简单工厂模式是由一个工厂对象决定创建出哪一种产品类的实例。简单工厂模式是工厂模式家族中最简单实用的模式，可以理解为是不同工厂模式的一个特殊实现。
maven笔记 zhb8015 maven
跳过测试阶段： mvn package -DskipTests 临时性跳过测试代码的编译： mvn package -Dmaven.test.skip=true maven.test.skip同时控制maven-compiler-plugin和maven-surefire-plugin两个插件的行为，即跳过编译，又跳过测试。指定测试类 mvn test
非mapreduce生成Hfile，然后导入hbase当中 Stark_Summer map hbase reduce Hfile path实例
最近一个群友的boss让研究hbase，让hbase的入库速度达到5w+/s，这可愁死了，4台个人电脑组成的集群，多线程入库调了好久，速度也才1w左右，都没有达到理想的那种速度，然后就想到了这种方式，但是网上多是用mapreduce来实现入库，而现在的需求是实时入库，不生成文件了，所以就只能自己用代码实现了，但是网上查了很多资料都没有查到，最后在一个网友的指引下，看了源码，最后找到了生成Hfile
jsp web tomcat 编码问题王新春 tomcat jsp pageEncode
今天配置jsp项目在tomcat上，windows上正常，而linux上显示乱码，最后定位原因为tomcat 的server.xml 文件的配置，添加 URIEncoding 属性： <Connector port="8080" protocol="HTTP/1.1" connectionTi

2021-07-02

基于TensorFlow搭建的几种经典的卷积神经网络

引言

一、 卷积神经网络的搭建

1.1 全连接网络

1.2 卷积神经网络

1.2.1 卷积操作

1.2.2 感受野

1.2.3 全零填充

1.2.4 批标准化

1.2.5 池化

1.2.6 舍弃

1.2.7 卷积神经网络的总结

二、 经典卷积神经网络的搭建

2.1 引入 cifar10 数据集

2.2 基础框架的搭建

2.3 LeNet 结构

2.4 AlexNet 结构

2.5 InceptionNet 结构

2.6 ResNet 结构

三、 关于这几种网络的总结

引言

一、 卷积神经网络的搭建

1.1 全连接网络

1.2 卷积神经网络

1.2.1 卷积操作

1.2.2 感受野

1.2.3 全零填充

1.2.4 批标准化

1.2.5 池化

1.2.6 舍弃

1.2.7 卷积神经网络的总结

二、 经典卷积神经网络的搭建

2.1 引入 cifar10 数据集

2.2 基础框架的搭建

2.3 LeNet 结构

2.4 AlexNet 结构

2.5 InceptionNet 结构

2.6 ResNet 结构

三、 关于这几种网络的总结

你可能感兴趣的:(tensorflow,神经网络)

一、卷积神经网络的搭建

二、经典卷积神经网络的搭建

三、关于这几种网络的总结

一、卷积神经网络的搭建

二、经典卷积神经网络的搭建

三、关于这几种网络的总结