精英的英

【PyTorch】记一次卷积神经网络优化过程

记一次卷积神经网络优化过程

前言

在深度学习的世界中，图像分类任务是一个经典的问题，它涉及到识别给定图像中的对象类别。CIFAR-10数据集是一个常用的基准数据集，包含了10个类别的60000张32x32彩色图像。在上一篇博客中，我们已经探讨如何使用PyTorch框架创建一个简单的卷积神经网络（CNN）来对CIFAR-10数据集中的图像进行分类。

引用

关于卷积神经网络的原理，感兴趣的请参阅我的另一篇博客，里面只使用numpy和基础函数组建了一个卷积神经网络模型，并完成训练和测试
【手搓深度学习算法】从头创建卷积神经网络

在这片文章中，我们将使用上一篇博客里面组建的模型和参数作为基线，一步一步检查问题和优化点，尝试提高准确率和性能。

背景

卷积神经网络是深度学习中用于图像识别和分类的一种强大工具。它们能够自动从图像中提取特征，并通过一系列卷积层、池化层和全连接层来学习图像的复杂模式。

CIFAR-10数据集包含了飞机、汽车、鸟类、猫、鹿、狗、青蛙、马、船和卡车等10个类别的图像。每个类别有6000张图像，其中50000张用于训练，10000张用于测试。

基线主要模块

数据预处理

我们首先定义了unpickle函数来加载CIFAR-10数据集的批次文件。read_data函数用于读取数据，将其转换为适合卷积网络输入的格式，并进行归一化处理。我们还提供了一个选项来将图像转换为灰度。

def unpickle(file):
    import pickle
    with open(file, 'rb') as fo:
        dict = pickle.load(fo, encoding='bytes')
    return dict

def read_data(file_path, gray = False, percent = 0, normalize = True):
    data_src = unpickle(file_path)
    np_data = np.array(data_src["data".encode()]).astype("float32")
    np_labels = np.array(data_src["labels".encode()]).astype("float32").reshape(-1,1)
    single_data_length = 32*32 
    image_ret = None
    if (gray):
        np_data = (np_data[:, :single_data_length] + np_data[:, single_data_length:(2*single_data_length)] + np_data[:, 2*single_data_length : 3*single_data_length])/3
        image_ret = np_data.reshape(len(np_data),32,32)
    else:
        image_ret = np_data.reshape(len(np_data),32,32,3)
    
    if(normalize):
        mean = np.mean(np_data)
        std = np.std(np_data)
        np_data = (np_data - mean) / std
    
    if (percent != 0):
        np_data = np_data[:int(len(np_data)*percent)]
        np_labels = np_labels[:int(len(np_labels)*percent)]
        image_ret = image_ret[:int(len(image_ret)*percent)]
    num_classes = len(np.unique(np_labels))
    np_data, np_labels = convert_to_conv_input(np_data, np_labels)
    return np_data, np_labels, num_classes, image_ret

网络结构

Conv类定义了我们的CNN模型，它包含一个卷积层、一个最大池化层、一个ReLU激活函数和一个全连接层。在forward方法中，我们指定了数据通过网络的流程。

class Conv(th.nn.Module):
    def __init__(self, *args, **kwargs) -> None:
        super(Conv, self).__init__()
        self.conv = th.nn.Conv2d(in_channels=3, out_channels=16, kernel_size=3)
        self.pool = th.nn.MaxPool2d(kernel_size=2,stride=2)#.
        self.relu = th.nn.ReLU()
        self.linear = th.nn.Linear(16*15*15, 10)
        self.softmax = th.nn.Softmax(dim=1)
        
    def forward(self, x):
        x = self.conv(x) #32，16，30，30
        x = self.pool(x) #32，16，15，15
        x = self.relu(x)
        x = x.view(x.size(0), -1)
        x = self.linear(x)
        return x
    
    def predict(self,x):
        x = self.forward(x)
        x = self.softmax(x)
        return x

损失函数和优化器

交叉熵损失函数

交叉熵损失函数（Cross Entropy Loss）是一种常用的损失函数，特别是在多分类问题中。它的主要目标是最小化真实标签和模型预测的概率分布之间的差异。

交叉熵损失函数的基本思想是：对于每个样本，计算其真实标签和模型预测的概率分布之间的交叉熵。交叉熵是信息论中的一个概念，表示两个概率分布之间的差异。在这个情况下，我们希望模型的预测概率分布与真实的标签分布越接近，所以我们希望交叉熵越小。

具体来说，对于一个多分类问题，我们有 K 个类别，每个样本属于其中一个类别。模型会对每个类别都预测一个概率，形成一个 K 维的向量。真实的标签也是一个 K 维的向量，只不过真实的标签向量中，对应正确类别的位置为 1，其他位置为 0。

那么，对于一个样本，其交叉熵损失就是真实标签向量和模型预测向量之间的交叉熵。对于所有样本，我们取平均，得到整个数据集的交叉熵损失。

在 PyTorch 中，可以使用 torch.nn.CrossEntropyLoss() 来创建一个交叉熵损失函数。

随机梯度下降优化函数

SGD，即随机梯度下降（Stochastic Gradient Descent），是一种广泛使用的优化算法，用于求解机器学习模型的参数。

SGD的基本原理是：在每次迭代时，只使用当前批次的数据来计算梯度，然后根据这个梯度来更新模型的参数。这种方法的优点是计算速度快，因为它只需要处理一部分数据；缺点是可能会震荡，因为每次迭代的梯度都是基于一部分数据的，可能会导致模型在最优解附近震荡而无法收敛。

SGD的主要步骤如下：

初始化模型的参数。
对于每个批次的数据：
- 计算梯度：使用反向传播算法计算损失函数关于模型参数的梯度。
- 更新参数：根据计算出的梯度和学习率，更新模型的参数。
重复第二步，直到满足停止条件（例如，达到最大迭代次数或者损失值变化非常小）。

在 PyTorch 中，可以使用 torch.optim.SGD() 来创建一个 SGD 优化器。

loss_function = th.nn.CrossEntropyLoss()
optimizer = th.optim.SGD(conv_model.parameters(), lr = lr)

超参数

学习率(lr) = 0.01
批量大小(batch_size) = 32
最大训练轮次(max_epoch) = 1000

在这里，我们使用了早停机制，在训练过程中不断去检查测试集的准确率指标，当发现测试集准确率连续N个epoch出现上升，将会提前停止测试

test_acc_turn_to_bad_count = 0

    start loop
    if (acc > best_test_acc):
        best_test_acc = acc
        test_acc_turn_to_bad_count = 0
    else:
        test_acc_turn_to_bad_count += 1
    if (test_acc_turn_to_bad_count > 50):
        break

    ...

运行结果

准确率=52% （当前图上没有显示，后面我会加上显示）

第一次实验：增大batch_size减少震荡

在基线版本的测试中，发现一个问题，损失值震荡较大

于是便考虑损失震荡的原因和可能的解决方法

为什么训练过程中损失值曲线出现震荡可能是batch_size太小的原因，以及为什么增大batch_size可能会减少损失值震荡

在深度学习的训练过程中，损失值曲线出现震荡可能是由于批次大小（batch size）太小引起的。这是因为当批次大小较小时，每次迭代的梯度更新都是基于一小部分数据的，这可能会导致模型在最优解附近震荡而无法收敛。

增大批次大小可能会减少损失值震荡的原因是，当批次大小增大时，每次迭代的梯度更新都是基于更多的数据的，这可以帮助模型更准确地估计梯度，从而更有效地朝着最优解的方向移动。

解决方法

因为CIFAR-10数据集单个图片都比较小（32*32），所以大胆选用了512的batch_size

超参数

学习率(lr) = 0.01

批量大小(batch_size) = 32 -> 512

最大训练轮次(max_epoch) = 1000

模型不变

运行结果

可以看到震荡减小了很多，准确率也略有上升，非常nice
准确率变化 52% -> 53%

第二次实验，通过减小学习率尝试提高准确率

虽然经过上一轮实验，损失值震荡减小了，准确率也略有上升，但是53%的准确率还是太低了，于是就考虑进一步增加准确率的方法

为什么调节学习率有可能提高准确率

学习率（learning rate）是一个非常重要的超参数，它决定了模型在每次迭代时，如何更新参数以减少损失函数的值
如果学习率设置得过大，模型可能会在最优解附近震荡，无法收敛到最优解。这是因为每次迭代的梯度更新都会使模型的参数跳跃较大的距离，可能会错过最优解。

相反，如果学习率设置得过小，模型可能会收敛得过慢，甚至可能陷入局部最优解。这是因为每次迭代的梯度更新都会使模型的参数移动较小的距离，可能会在最优解附近震荡，无法找到更好的解。

因此，选择合适的学习率是一个需要权衡的问题。一般来说，学习率设置得过大可能会导致模型收敛得过快，而学习率设置得过小可能会导致模型收敛得过慢。在实践中，我们通常会通过实验来调整学习率，以找到最优的学习率值。

解决方法

因为基线版本的学习率是0.01，中规中矩，但还可以更小，所以大胆改成0.001

超参数

学习率(lr) = 0.01 -> 0.001

批量大小(batch_size) = 512

最大训练轮次(max_epoch) = 1000

模型不变

运行结果

果然损失曲线变得更平滑了，准确率也得到了显著提升，但是收敛轮次从 35 涨到了 160，果然有利也有弊
准确率变化 53% -> 62%

第三次实验，增加网络层数

经过上一次实验，感觉超参数已经折腾的差不多了，于是便打起了模型的注意

为什么对简单的网络增加层数有可能提高准确率

对于简单的网络，增加层数可能会提高准确率的原因主要有以下几点：

更多的参数：增加网络的层数意味着增加了更多的参数。更多的参数可以使模型更好地拟合训练数据，从而提高准确率。
更复杂的模型：增加网络的层数意味着模型变得更复杂。复杂的模型可以学习到更复杂的模式，从而提高准确率。
更好的泛化能力：增加网络的层数可以使模型更好地泛化到未见过的数据。这是因为复杂的模型可以学习到更多的特征，从而更好地区分不同的类别。

解决方法

因为基线版本的网络结构是1层卷积层加上一层全连接层，也太简单了，所以这次同时添加两个卷积层和两个全连接层

超参数

学习率(lr) = 0.01

批量大小(batch_size) = 128

最大训练轮次(max_epoch) = 1000

模型

class Conv(th.nn.Module):
    def __init__(self, *args, **kwargs) -> None:
        super(Conv, self).__init__()
        self.conv1 = th.nn.Conv2d(in_channels=3, out_channels=16, kernel_size=3)
        self.conv2 = th.nn.Conv2d(in_channels=16, out_channels=32, kernel_size=3)
        self.conv3 = th.nn.Conv2d(in_channels=32, out_channels=64, kernel_size=3)
        self.pool = th.nn.MaxPool2d(kernel_size=2,stride=2)#.
        self.relu = th.nn.ReLU()
        self.linear1 = th.nn.Linear(256, 128)
        self.linear2 = th.nn.Linear(128, 64)
        self.linear3 = th.nn.Linear(64, 10)
        self.softmax = th.nn.Softmax(dim=1)
        self.drop = th.nn.Dropout(0.2)
        
    def forward(self, x):
        x = self.conv1(x) #32，16，30，30
        x = self.pool(x) #32，16，15，15
        x = self.relu(x)
        x = self.conv2(x)
        x = self.pool(x)
        x = self.relu(x)
        x = self.conv3(x)
        x = self.pool(x)
        x = self.relu(x)
        x = x.reshape(x.size(0), -1)
        x = self.linear1(x)
        x = self.relu(x)
        x = self.linear2(x)
        x = self.relu(x)
        x = self.linear3(x)
        return x
    
    def predict(self,x):
        x = self.forward(x)
        x = self.softmax(x)
        return x

运行结果

果然更多的层数带来了更高的准确率，非常的nice
准确率 62% -> 69%

第四次实验，数据随机和数据增强

前面的实验已经得到了不错的成果，但是我发现我的数据没有做任何处理，老话说：数据决定上限，模型只是逼近上限，那么，数据随机和数据增强是必须的

为什么数据随机和数据增强可能提高准确率

数据随机和数据增强是两种常用的数据增强技术，它们可以提高模型的泛化能力，从而提高准确率。

数据随机：在训练过程中，我们通常会随机打乱数据集，然后按照一定的批次大小进行批次训练。这样做的目的是为了使模型在每次迭代时都能看到不同的数据样本，从而避免模型在训练过程中过拟合到某些特定的数据样本。
数据增强：数据增强是一种通过对原始数据进行一些随机变换（例如旋转、缩放、平移、翻转等）来生成新的数据样本的技术。这样做的目的是为了增加数据集的多样性，使模型能够学习到更多的特征，从而提高模型的泛化能力。

解决方法

因为我们的数据是从文件中读取的，所以我们新增两个函数分别执行数据随机和数据增强

超参数

学习率(lr) = 0.001

批量大小(batch_size) = 512

最大训练轮次(max_epoch) = 1000

网络不变

数据增强代码

其实pytorch中有现成的transform类可以更简单的执行数据增强，这里手动处理只是为了更直观
def transform_data(data, is_test = False):
    # 将NumPy数组转换为PIL Image
    mean = [0.4914, 0.4822, 0.4465]
    std = [0.247, 0.243, 0.261]
    data_ret = []
    for image in data:
        image = Image.fromarray((image).astype(np.uint8))
        _rand = random.randint(1,100)
        if (_rand > 0): #支持部分随机增强
            # 应用每个单独的变换
            #image = transforms.ToPILImage()(image)
            if not (is_test):#测试集不做处理
                image = transforms.RandomRotation(10)(image)#随机旋转+-10度
                image = transforms.RandomAutocontrast(0.5)(image)#随机自动对比度调整，概率为50%
                image = transforms.RandomHorizontalFlip(0.5)(image)#随机水平翻转，概率为50%
        image = transforms.ToTensor()(image)
        image = transforms.Normalize(mean=mean, std=std)(image)
        
        data_ret.append(image)
                
    data_ret = th.stack(data_ret)
    return data_ret

def convert_to_conv_input(data : np.ndarray, labels : np.ndarray, is_test = False, batch_size = 32):
    if not (is_test):
        random_permutation = th.randperm(data.size(0))  
        data = data[random_permutation]  
        labels = labels[random_permutation]  
    _3d_data_list = split_into_batches(data, batch_size)
    labels = split_into_batches(labels, batch_size)
    return _3d_data_list, labels

运行结果

可以看到准确率再一次得到提升，而且可以清楚的看到随着每次数据随机和数据增强（每50个epoch），损失值出现正常波动
准确率变化：69% -> 73%

第五次实验，使用残差特征提取

残差特征提取是深度学习中的一个概念，它源自残差网络（Residual Networks，简称ResNets）的设计。残差网络通过引入残差模块（residual blocks）来解决深度神经网络训练中的退化问题，即随着网络层数的增加，网络的性能往往会饱和甚至下降。

作用：
残差特征提取的主要作用是允许训练更深的神经网络，同时避免梯度消失或梯度爆炸的问题。这使得网络能够学习到更复杂的特征表示，从而提高模型的准确率和泛化能力。

原理：
残差网络的核心思想是引入一个“跳跃连接”（skip connection），它允许输入直接跳过一个或多个层次连接到后面的层。这样，网络不是学习完整的输出特征，而是学习输入与输出之间的残差（即差异）。如果输入和输出相同，理想的残差就是零。

数学上，如果我们将 ( H(x) ) 定义为一个层（或一系列层）的期望输出，而 ( x ) 是输入，那么残差就是 ( H(x) - x )。残差网络通过优化 ( F(x) = H(x) - x ) 来学习这个残差，然后输出 ( H(x) = F(x) + x )，其中 ( F(x) ) 是网络层的学习目标。

这种设计允许梯度在训练过程中直接通过跳跃连接传播，从而减轻了梯度消失的问题，并使得网络能够有效地训练更深的层次。

解决方法

创建一个残差块，然后在每次卷积之后附加这个残差层，就达到了增加网络层数，同时避免网络退化的目的

超参数

学习率(lr) = 0.001

批量大小(batch_size) = 512

最大训练轮次(max_epoch) = 1000

网络

#残差块
class ResidualBlock(th.nn.Module):
    def __init__(self, channels) -> None:
        super(ResidualBlock, self).__init__()
        self.channels = channels
        self.conv1 = th.nn.Conv2d(channels, channels, kernel_size=3, padding=1)
        self.conv2 = th.nn.Conv2d(channels, channels, kernel_size=3, padding=1)
        self.relu = th.nn.ReLU()
        
    def forward(self, x):
        y = self.relu(self.conv1(x))
        y = self.conv2(x)
        return self.relu(x + y)

#网络模型
class Conv(th.nn.Module):
    def __init__(self, *args, **kwargs) -> None:
        super(Conv, self).__init__()
        self.conv1 = th.nn.Conv2d(in_channels=3, out_channels=10, kernel_size=5)
        self.conv2 = th.nn.Conv2d(in_channels=88, out_channels=20, kernel_size=3)
        
        self.incep1 = InceptionA(in_channels = 10)
        self.incep2 = InceptionA(in_channels=20)
        #output_features = ((input_features - filter_size + 2*padding) / stride) + 1
        self.pool1 = th.nn.MaxPool2d(kernel_size=2,stride=2)#.
        self.relu = th.nn.ReLU()
        self.linear1 = th.nn.Linear(3168, 1280)
        self.linear2 = th.nn.Linear(1280, 128)
        self.linear3 = th.nn.Linear(128, 10)
        self.softmax = th.nn.Softmax(dim=1)
        self.drop = th.nn.Dropout(0.2)
        self.res_block1 = ResidualBlock(10)
        self.res_block2 = ResidualBlock(20)
    
    def forward(self, x):
        x = self.conv1(x) #32，16，30，30
        x = self.pool1(x) #32，16，15，15
        x = self.relu(x)
        x = self.res_block1(x)
        x = self.incep1(x)#512,88,14,14
        x = self.conv2(x)
        x = self.pool1(x)
        x = self.relu(x)#512,20,6,6
        x = self.res_block2(x)
        x = self.incep2(x)
        x = x.reshape(x.size(0), -1)#512,88,6,6
        x = self.linear1(x)
        x = self.relu(x)
        x = self.drop(x)
        x = self.linear2(x)
        x = self.relu(x)
        x = self.linear3(x)
        return x

    def predict(self,x):
        x = self.forward(x)
        x = self.softmax(x)
        return x

运行结果

残差块果然不负众望，再次取得了+3分的好成绩
准确率变化：73% -> 76%

结论

通过本博客，我们尝试了在基线模型上进行模型微调，实现了测试集准确率 从52% 到 76% 的显著提升，虽然和成熟分类网络的成绩还存在较大差距，但实际工作中很少会有重新造轮子的机会，重要的是学习模型调优的方法和思想。

完整代码（数据集在绑定资源里，也可以自己下载）

import torch as th
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import torchvision as tv


data_buffer = {}
def unpickle(file_list):
    import pickle
    np_data = np.array([])
    np_labels = np.array([])
    for file in file_list:
        if (data_buffer.get(file) != None):
            np_data_tmp = data_buffer[file]["data"]
            np_labels_tmp = data_buffer[file]["labels"]
        else:
            single_file_data = {}
            with open(file, 'rb') as fo:
                np_data_tmp = np.array([])
                np_labels_tmp = np.array([])
                dict = pickle.load(fo, encoding='bytes')
                np_data_tmp = np.array(dict["data".encode()]).astype("float32")
                np_labels_tmp = np.array(dict["labels".encode()]).astype("float32").reshape(-1,1)
                single_file_data["data"]= np_data_tmp
                single_file_data["labels"]= np_labels_tmp
                data_buffer[file]=single_file_data
        if (np_data.size == 0):
            np_data = np_data_tmp
            np_labels = np_labels_tmp
        else:
            np_data = np.concatenate((np_data, np_data_tmp), axis=0)
            np_labels = np.concatenate((np_labels, np_labels_tmp), axis=0)
    return np_data, np_labels


from PIL import Image
import torchvision.transforms as transforms
import random
def transform_data(data, is_test = False):
    # 将NumPy数组转换为PIL Image
    mean = [0.4914, 0.4822, 0.4465]
    std = [0.247, 0.243, 0.261]
    data_ret = []
    for image in data:
        image = Image.fromarray((image).astype(np.uint8))
        _rand = random.randint(1,100)
        if (_rand > 0):
            # 应用每个单独的变换
            #image = transforms.ToPILImage()(image)
            if not (is_test):
                image = transforms.RandomRotation(10)(image)
                image = transforms.RandomAutocontrast(0.5)(image)
                image = transforms.RandomHorizontalFlip(0.5)(image)
        image = transforms.ToTensor()(image)
        image = transforms.Normalize(mean=mean, std=std)(image)
        
        data_ret.append(image)
                
    data_ret = th.stack(data_ret)
    return data_ret
    
def read_data(file_path, batch_size = 32, is_test = False, gray = False, percent = 0, normalize = True):
    np_data, np_labels = unpickle(file_path)
    num_samples = len(np_data)
    single_data_length = 32*32 
    image_ret = None
    if (gray):
        np_data = (np_data[:, :single_data_length] + np_data[:, single_data_length:(2*single_data_length)] + np_data[:, 2*single_data_length : 3*single_data_length])/3
        image_ret = np_data.reshape(len(np_data),32,32)
    else:
        #image_ret = np_data.reshape(len(np_data),32,32,3)
        r_data = np_data[:, :single_data_length].reshape(num_samples,32,32)
        g_data = np_data[:, single_data_length:(2*single_data_length)].reshape(num_samples,32,32)
        b_data = np_data[:, 2*single_data_length : 3*single_data_length].reshape(num_samples,32,32)
        rgb_data = np.stack((r_data, g_data, b_data), axis = -1)
        image_ret = rgb_data
    np_data = image_ret
        
    #np_data = np_data.permute(0,2,3,1)
    np_data = transform_data(np_data, is_test = is_test)
    
    if (percent != 0):
        np_data = np_data[:int(len(np_data)*percent)]
        np_labels = np_labels[:int(len(np_labels)*percent)]
        image_ret = image_ret[:int(len(image_ret)*percent)]
        
    num_classes = len(np.unique(np_labels))
    return np_data, np_labels, num_classes, image_ret 

def split_into_batches(original_array, n):
    sub_array_size = n
    batches_count = int(len(original_array) / n)
    sub_arrays = []
    last_pos = 0
    for i in range(batches_count):
        start = i * sub_array_size
        end = start + sub_array_size
        sub_array = original_array[start:end]
        sub_arrays.append(sub_array)
        last_pos = end
    sub_arrays.append(original_array[last_pos:])
    return sub_arrays

def convert_to_conv_input(data : np.ndarray, labels : np.ndarray, is_test = False, batch_size = 32):
    if not (is_test):
        random_permutation = th.randperm(data.size(0))  
        data = data[random_permutation]  
        labels = labels[random_permutation]  
    _3d_data_list = split_into_batches(data, batch_size)
    labels = split_into_batches(labels, batch_size)
    return _3d_data_list, labels
    
    
    
        
        
    





class Conv(th.nn.Module):
    def __init__(self, *args, **kwargs) -> None:
        super(Conv, self).__init__()
        self.conv = th.nn.Conv2d(in_channels=3, out_channels=16, kernel_size=3)
        self.pool = th.nn.MaxPool2d(kernel_size=2,stride=2)#.
        self.relu = th.nn.ReLU()
        self.linear1 = th.nn.Linear(16*15*15, 512)
        self.linear2 = th.nn.Linear(512, 10)
        self.softmax = th.nn.Softmax(dim=1)
        self.res_block1 = ResidualBlock(16)
        
    def forward(self, x):
        x = self.conv(x) #32，16，30，30
        x = self.pool(x) #32，16，15，15
        x = self.relu(x)
        x = self.res_block1(x)
        x = x.reshape(x.size(0), -1)
        x = self.linear1(x)
        x = self.relu(x)
        x = self.linear2(x)
        return x
    
    def predict(self,x):
        x = self.forward(x)
        x = self.softmax(x)
        return x

'''
class Conv(th.nn.Module):
    def __init__(self, *args, **kwargs) -> None:
        super(Conv, self).__init__()
        self.conv1 = th.nn.Conv2d(in_channels=3, out_channels=16, kernel_size=3)
        self.conv2 = th.nn.Conv2d(in_channels=16, out_channels=32, kernel_size=3)
        self.conv3 = th.nn.Conv2d(in_channels=32, out_channels=64, kernel_size=3)
        
        #output_features = ((input_features - filter_size + 2*padding) / stride) + 1
        self.pool1 = th.nn.MaxPool2d(kernel_size=2,stride=2)#.
        self.relu = th.nn.ReLU()
        self.linear1 = th.nn.Linear(256, 128)
        self.linear2 = th.nn.Linear(128, 64)
        self.linear3 = th.nn.Linear(64, 10)
        self.softmax = th.nn.Softmax(dim=1)
        self.drop = th.nn.Dropout(0.1)
        
    def forward(self, x):
        x = self.conv1(x) #32，16，30，30
        x = self.pool1(x) #32，16，15，15
        x = self.relu(x)
        x = self.conv2(x)
        x = self.pool1(x)
        x = self.relu(x)
        x = self.conv3(x)
        x = self.pool1(x)
        x = self.relu(x)
        x = x.reshape(x.size(0), -1)
        x = self.linear1(x)
        x = self.relu(x)
        x = self.drop(x)
        x = self.linear2(x)
        x = self.relu(x)
        x = self.linear3(x)
        return x
    
    def predict(self,x):
        x = self.forward(x)
        x = self.softmax(x)
        return x
'''
class ResidualBlock(th.nn.Module):
    def __init__(self, channels) -> None:
        super(ResidualBlock, self).__init__()
        self.channels = channels
        self.conv1 = th.nn.Conv2d(channels, channels, kernel_size=3, padding=1)
        self.conv2 = th.nn.Conv2d(channels, channels, kernel_size=3, padding=1)
        self.relu = th.nn.ReLU()
        
    def forward(self, x):
        y = self.relu(self.conv1(x))
        y = self.conv2(x)
        return self.relu(x + y)
    
class InceptionA(th.nn.Module):
    def __init__(self, in_channels) -> None:
        super(InceptionA, self).__init__()
        self.branch1x1 = th.nn.Conv2d(in_channels, 16, kernel_size=1)
        
        self.branch5x5_1 = th.nn.Conv2d(in_channels, 16, kernel_size=1)
        self.branch5x5_2 = th.nn.Conv2d(16, 24, kernel_size=5, padding=2)
        
        self.branch3x3_1 = th.nn.Conv2d(in_channels, 16, kernel_size=1)
        self.branch3x3_2 = th.nn.Conv2d(16,24,kernel_size=3, padding=1)
        self.branch3x3_3 = th.nn.Conv2d(24,24,kernel_size=3,padding=1)
        
        self.branch_pool = th.nn.Conv2d(in_channels, 24, kernel_size=1)
        self.avg_pool = th.nn.AvgPool2d(kernel_size=3, stride=1, padding=1)
    def forward(self,x):
        branch1x1 = self.branch1x1(x)
        
        branch5x5 = self.branch5x5_1(x)
        branch5x5 = self.branch5x5_2(branch5x5)
        
        branch3x3 = self.branch3x3_1(x)
        branch3x3 = self.branch3x3_2(branch3x3)
        branch3x3 = self.branch3x3_3(branch3x3)
        
        branch_pool = self.avg_pool(x)
        branch_pool = self.branch_pool(branch_pool)
        
        outputs = [branch1x1, branch5x5, branch3x3, branch_pool]
        return th.cat(outputs, dim=1)

''' 
class Conv(th.nn.Module):
    def __init__(self, *args, **kwargs) -> None:
        super(Conv, self).__init__()
        self.conv1 = th.nn.Conv2d(in_channels=3, out_channels=10, kernel_size=5)
        self.conv2 = th.nn.Conv2d(in_channels=88, out_channels=20, kernel_size=3)
        
        self.incep1 = InceptionA(in_channels = 10)
        self.incep2 = InceptionA(in_channels=20)
        #output_features = ((input_features - filter_size + 2*padding) / stride) + 1
        self.pool1 = th.nn.MaxPool2d(kernel_size=2,stride=2)#.
        self.relu = th.nn.ReLU()
        self.linear1 = th.nn.Linear(3168, 1280)
        self.linear2 = th.nn.Linear(1280, 128)
        self.linear3 = th.nn.Linear(128, 10)
        self.softmax = th.nn.Softmax(dim=1)
        self.drop = th.nn.Dropout(0.2)
        self.res_block1 = ResidualBlock(10)
        self.res_block2 = ResidualBlock(20)
    
    def forward(self, x):
        x = self.conv1(x) #32，16，30，30
        x = self.pool1(x) #32，16，15，15
        x = self.relu(x)
        x = self.res_block1(x)
        x = self.incep1(x)#512,88,14,14
        x = self.conv2(x)
        x = self.pool1(x)
        x = self.relu(x)#512,20,6,6
        x = self.res_block2(x)
        x = self.incep2(x)
        x = x.reshape(x.size(0), -1)#512,88,6,6
        x = self.linear1(x)
        x = self.relu(x)
        x = self.drop(x)
        x = self.linear2(x)
        x = self.relu(x)
        x = self.linear3(x)
        return x

    def predict(self,x):
        x = self.forward(x)
        x = self.softmax(x)
        return x
'''
'''
class Conv(th.nn.Module):
    def __init__(self, *args, **kwargs) -> None:
        super(Conv, self).__init__()
        self.conv1 = th.nn.Conv2d(in_channels=3, out_channels=16, kernel_size=3)
        self.conv2 = th.nn.Conv2d(in_channels=16, out_channels=32, kernel_size=3)
        self.conv3 = th.nn.Conv2d(in_channels=32, out_channels=64, kernel_size=3)
        
        self.res_block1 = ResidualBlock(16)
        self.res_block2 = ResidualBlock(32)
        self.res_block3 = ResidualBlock(64)
        
        #output_features = ((input_features - filter_size + 2*padding) / stride) + 1
        self.pool1 = th.nn.MaxPool2d(kernel_size=2,stride=2)#.
        self.relu = th.nn.ReLU()
        self.linear1 = th.nn.Linear(256, 128)
        self.linear2 = th.nn.Linear(128, 64)
        self.linear3 = th.nn.Linear(64, 10)
        self.softmax = th.nn.Softmax(dim=1)
        self.drop = th.nn.Dropout(0.2)
        
    def forward(self, x):
        x = self.conv1(x) #32，16，30，30
        x = self.pool1(x) #32，16，15，15
        x = self.relu(x)
        x = self.res_block1(x)
        x = self.conv2(x)
        x = self.pool1(x)
        x = self.relu(x)
        x = self.res_block2(x)
        x = self.conv3(x)
        x = self.pool1(x)
        x = self.relu(x)
        x = self.res_block3(x)
        x = x.reshape(x.size(0), -1)
        x = self.linear1(x)
        x = self.relu(x)
        x = self.drop(x)
        x = self.linear2(x)
        x = self.relu(x)
        x = self.linear3(x)
        return x
    
    def predict(self,x):
        x = self.forward(x)
        x = self.softmax(x)
        return x
'''

    

def main():
    batch_size = 512
    cuda_valid = th.cuda.is_available()
    print("CUDA avaliable: {}".format(cuda_valid))

    '''
    transform_train = tv.transforms.Compose([
        tv.transforms.ToPILImage(),
        tv.transforms.RandomRotation(10),
        tv.transforms.RandomAutocontrast(0.5),
        tv.transforms.RandomHorizontalFlip(0.5),
        tv.transforms.ToTensor(),
        tv.transforms.Normalize(mean, std)
    ])
    transform_test = tv.transforms.Compose([
        tv.transforms.ToPILImage(),
        tv.transforms.ToTensor(),
        tv.transforms.Normalize(mean, std)
    ])
    '''
    '''
    train_file_path = [
        "J:\\MachineLearning\\数据集\\cifar-10-batches-py\\data_batch_1",
        "J:\\MachineLearning\\数据集\\cifar-10-batches-py\\data_batch_2",
        "J:\\MachineLearning\\数据集\\cifar-10-batches-py\\data_batch_3",
        "J:\\MachineLearning\\数据集\\cifar-10-batches-py\\data_batch_4",
        "J:\\MachineLearning\\数据集\\cifar-10-batches-py\\data_batch_5",
    ]
    '''
    
    
    train_file_path = [
        "ubuntu/data/data_batch_1",
        "ubuntu/data/data_batch_2",
        "ubuntu/data/data_batch_3",
        "ubuntu/data/data_batch_4",
        "ubuntu/data/data_batch_5",
    ]
    
    train_data=train_labels=None
    num_classes = 10
    '''train_data, train_labels, num_classes, image_data = read_data(train_file_path, batch_size)
    train_data, train_labels = convert_to_conv_input(train_data, train_labels, batch_size)
    print(type(train_data))
    print(type(train_labels))
    print(train_data[0].shape)
    print(train_labels[0].shape)
    print(image_data.shape)

    # 随机选择9张图片
    indices = np.random.choice(image_data.shape[0], size=9, replace=False)
    selected_images = image_data[indices]

    plt.imshow(image_data[0]/255)
    plt.show()
    # 创建一个3x3的子图
    fig, axes = plt.subplots(3, 3)

    # 在每个子图中显示一张图片
    for i, ax in enumerate(axes.flat):
        img = selected_images[i]
        # 由于imshow期望输入的数据在0-1之间，我们需要将图像数据归一化
        img = img / 255.0
        ax.imshow(img)
        ax.axis('off') # 关闭坐标轴

    plt.show()
    
    
    int_labels = train_labels[0].flatten()
    print(int_labels[:10])
    

    print (train_data[0].shape)
    print (train_data[0][:2])
    '''
    epochs = 1000
    best_loss = 100
    lr = 0.001
    
    conv_model = Conv(num_classes)
    
    device = th.device("cuda" if cuda_valid else "cpu")
    conv_model = conv_model.to(device)
    
    loss_function = th.nn.CrossEntropyLoss()
    #optimizer = th.optim.SGD(conv_model.parameters(), lr = lr, weight_decay=0.01)
    optimizer = th.optim.Adam(params=conv_model.parameters(), lr = lr, weight_decay=0.01)
    
    
    turn_to_bad_loss_count = 0
    loss_history = []
    test_acc_history = []
    train_acc_history = []

    #test_file_path = ["J:\\MachineLearning\\数据集\\cifar-10-batches-py\\test_batch"]
    test_file_path = ["ubuntu/data/test_batch"]
    
    test_buffer = {}
    
    def test(file_path):
        test_data = None
        test_labels = None
        if (test_buffer.get(file_path[0]) == None):
            test_data_src, test_labels_src, num_classes, image_data = read_data(file_path, batch_size, is_test = True)
            test_data, test_labels = convert_to_conv_input(test_data_src, test_labels_src, is_test=True, batch_size=batch_size)
            test_buffer[file_path[0]] = {"data":test_data, "labels":test_labels}
        else:
            test_data = test_buffer[file_path[0]]["data"]
            test_labels = test_buffer[file_path[0]]["labels"]

        with th.no_grad():
            test_accuracies = []
            for index,batch_test_data in enumerate(test_data):
                #batch_test_data = th.from_numpy(batch_test_data).type(th.float32)
                batch_test_data = batch_test_data.to(device)
                test_result = conv_model.predict(batch_test_data)
                #print(test_result[:10])
                result_index = test_result.argmax(dim=1)
                accuracy=(result_index.cpu().numpy().reshape(-1,1) == test_labels[index].reshape(-1,1)).sum() / len(test_labels[index])
                test_accuracies.append(accuracy)
                
            return np.mean(test_accuracies)
    
    best_test_acc = 0
    test_acc_turn_to_bad_count = 0
    for epoch in range(epochs):
        if (epoch % 50 == 0):
            train_data_src, train_labels_src, num_classes, image_data = read_data(train_file_path, batch_size)  
        train_data, train_labels = convert_to_conv_input(train_data_src, train_labels_src, is_test=False, batch_size=batch_size)

        batch_loss = []
        for index, batch_data in enumerate(train_data):
            batch_data = batch_data.to(device)

            int_labels = train_labels[index].flatten()
            tensor_labels = th.from_numpy(int_labels).type(th.long) 
            tensor_labels = tensor_labels.to(device)
            #batch_train_data = th.from_numpy(batch_data)
            optimizer.zero_grad()
            y_pred = conv_model(batch_data)
            #print(y_pred)
            #print(y_pred.shape)
            loss = loss_function(y_pred, tensor_labels)
            batch_loss.append(loss.item())
            if (float(loss.item()) > best_loss):
                turn_to_bad_loss_count += 1
            else:
                best_loss = float(loss.item())
            #if (turn_to_bad_loss_count > 10000):
                #break
            if (index % 10 == 9):
                ten_batch_loss = np.mean(batch_loss)
                print("epoch {} batch iter {} / {} 10 batch mean loss is {}".format(epoch, index, len(train_data), ten_batch_loss))
                loss_history.append(float(ten_batch_loss))
            loss.backward()
            optimizer.step()
        if (epoch % 2 == 1):
            acc = test(train_file_path)
            print("epoch {} train accuracy is {}".format(epoch, acc))
            train_acc_history.append(acc)
            acc = test(test_file_path)
            print("epoch {} test accuracy is {}".format(epoch, acc))
            test_acc_history.append(acc)
            if (acc > best_test_acc):
                best_test_acc = acc
                test_acc_turn_to_bad_count = 0
            else:
                test_acc_turn_to_bad_count += 1
            if (test_acc_turn_to_bad_count > 50):
                break
            
    
    # 创建一个2x1的子图网格，并选择第(0,0)位置的子图绘制第一个折线图  
    fig, ax1 = plt.subplots(2, 1, figsize=(10, 8), sharey=True)  # 1行2列的子图网格  
    ax1[0].plot(loss_history)  
    ax1[0].set_title('Loss trend epoch = {} lr = {} batch_size = {} test_acc = {} best_test_acc = {}'.format(epoch, lr, batch_size, round(test_acc_history[-1],2), best_test_acc))  # 设置标题  
    ax1[0].label_outer()  # 显示y轴标签  
    
    # 在同一张图上并排显示第二个折线图，选择第(1,0)位置的子图绘制第二个折线图  
    ax1[1].plot(train_acc_history, label = "train")
    ax1[1].legend()  
    ax1[1].set_title('Train and test acc trend epoch = {} lr = {} batch_size = {} test_acc = {}'.format(epoch, lr, batch_size, round(test_acc_history[-1],2)))  # 设置标题  
    ax1[1].label_outer()  # 显示y轴标签  
    
        
    ax1[1].plot(test_acc_history, label = "test")
    ax1[1].legend()  
 
    
    plt.show()
    
    from datetime import datetime  
  
    # 获取当前时间  
    # 获取当前时间  
    current_time = datetime.now()  
  
    # 将当前时间格式化为 YYYY_MM_DD_HH_MM_SS 格式  
    formatted_time = current_time.strftime("%Y_%m_%d_%H_%M_%S")

    plt.savefig("test.png")
    file_name = "result_lr_{}_batch_size_{}_time_{}.png".format(lr, batch_size, formatted_time)
    plt.savefig("result_pic/{}".format(file_name))
    
    
    
    
if (__name__ == "__main__"):
    main()

你可能感兴趣的:(天网计划,pytorch,cnn,人工智能)

《玉骨遥》：大司命为什么不杀朱颜？原因没那么简单 windy天意晚晴
《玉骨遥》里，朱颜就是时影的命劫之人。重明与时影早就知道，他们一直瞒着大司命，如今大司命也知道了真相。可是大司命却没有杀朱颜，而是给朱颜下了诛心咒，还说时影的命劫已经破了，真的如此吗？1、计划总是赶不上变化的大司命从目前剧情来说，大司命还不如时影，他信心十足的事情总会有纰漏。他不让时影见命劫之女，结果时影还是遇上了。他想让时影走火入魔，一心复仇，结果时影在朱颜的劝说下放下了仇恨。大司命让时影开山收
EasyPlayer播放器系列开发计划2025 xiejiashu EasyPlayer EasyPlayer EasyPlayer播放器 RTSP播放器 js播放器 Web播放器
EasyPlayer系列产品发展至今，已经超过10年，从最早的EasyPlayerRTSP播放器，到如今维护的3条线：EasyPlayer-RTSP播放器：Windows、Android、iOS；EasyPlayerPro播放器：Windows、Android、iOS；EasyPlayer.js播放器：H5；这3个播放器各有各的应用场景，用户量也是巨大，像RTSP版本的播放器，到今天依然还有很多低
践行8.0~第六周11.25-12.02 初队长
突破后的喜悦最可怕的不是自己不清楚，而是自己清楚了，却依然不心动，我想这就是我们每个人的惰性存在，在这一周的践行，我发现自己依然是停留在自己的模式当中，不断的恶性的轮回，虽然的话，那再晨间日记方面是纸质的填写，但是对一天的工作没有起到应有的计划和推动的作用而我自己呢，也有些时候的话会处于一个相对来讲放松的一个状态，时间的把控的话也有一些点的消极，所以在这周的间隙，重点是关注自己的三大目标为目标来进
为了在未来的人工智能世界中取得成功，学生们必须学习人类写作的优点睿邸管家
澳大利亚各地的学生在新学年开始使用铅笔、钢笔和键盘学习写字。在工作场所，机器也在学习写作，如此有效，几年之内，它们可能会写得比人类更好。有时它们已经做到了，就像Grammarly这样的应用程序所展示的那样。当然，人类现在的日常写作可能很快就会由具有人工智能(AI)的机器来完成。手机和电子邮件软件常用的预测文本是无数人每天都在使用的一种人工智能写作形式。据AI行业研究机构称，到2022年，人工智能及
处于停机等非正常状态_设备非正常停机管理指导办法
设备非正常停机管理指导办法一、设备非正常停机的范围：1、维护、维修不良：未遵守设备维护及维修规程，导致维护、维修质量无法满足设备运行的技术、环境要求而造成的设备停机，例如：未按维护保养计划保养、维护质量不到位、违章检修，故障维修不彻底，润滑缺油或变质等。2、违章操作：未按照设备操作规程及作业文件等操作而造成的设备停机。3、设备点检缺失：是指设备操作者及维修人员未严格按照点检标准有效地对设备各部位进
坚持53天断更重新开始静安梨子
因为种种原因，原本计划好不管怎样每天坚持更新一篇的，但计划赶不上变化，在更完53天后终于还是断更了。但是也不算后悔，之前的状态确实不好，每天的输出大多数都感觉自己在凑字数，内容连自己都感觉看不下去了。调整好状态以后重新开始，给自己一个鼓励，虽然断更了，但能重新开始也很好，至少没有选择永远放弃。加油！
人工智能应用研究快讯 2021-11-30 峰谷皆平
[HTML]ArtificialIntelligenceforSkinCancerDetection:ScopingReviewATakiddin,JSchneider,YYang,AAbd-Alrazaq...JournalofMedicalInternet...,2021ABSTACT:Background:Skincanceristhemostcommoncancertypeaffectin
从振动信号到精准预警：AI 如何重塑工业设备健康管理？缘华工业智维人工智能计算机视觉边缘计算信息与通信
在智能制造浪潮席卷全球的当下，工业生产正经历着从传统模式向智能化、数字化转型的深刻变革。在这场变革中，AI驱动的振动分析技术犹如一颗璀璨新星，成为工业设备可靠运行的“健康卫士”。它通过在设备关键部位部署振动传感器，如同医生为患者听诊般实时采集设备运行时的振动信号，再借助强大的人工智能算法对这些“工业脉搏”进行深度解析，从而实现对工业设备从故障预警到寿命预测的全周期精准守护。一、AI振动分析：设备状
AI 生成虚拟宠物：24 小时陪你聊天解闷大力出奇迹985 人工智能宠物
本文围绕AI生成虚拟宠物展开，介绍这类依托人工智能技术诞生的虚拟伙伴，能实现24小时不间断陪伴聊天，为人们解闷。文中详细阐述其技术基础，包括自然语言处理、机器学习等；分析多样功能，如个性化互动、情绪回应等；探讨在独居人群、压力大者等不同群体中的应用场景，最后总结其为人们生活带来的积极影响及未来发展潜力，展现AI虚拟宠物在陪伴领域的独特价值。一、AI生成虚拟宠物的诞生背景与技术基石在快节奏的现代社会
GPT-4 在 AIGC 中的微调技巧：让模型更懂你的需求 AIGC应用创新大全 AI人工智能与大数据应用开发 MCP&Agent 云算力网络 AIGC ai
GPT-4在AIGC中的微调技巧：让模型更懂你的需求关键词：GPT-4、AIGC、模型微调、监督学习、指令优化、过拟合预防、个性化生成摘要：AIGC（人工智能生成内容）正在重塑内容创作行业，但通用的GPT-4模型可能无法精准匹配你的垂直需求——比如写电商爆款文案时总“跑题”，或生成技术文档时专业术语不够。本文将用“教小朋友学画画”的通俗类比，从微调的底层逻辑讲到实战技巧，带你掌握让GPT-4“更懂
AIGC内容生成实战：如何用ChatGPT+DALL·E打造高转化内容 AI大模型应用工坊 AI大模型开发实战 AIGC chatgpt ai
AIGC内容生成实战：如何用ChatGPT+DALL·E打造高转化内容关键词：AIGC、ChatGPT、DALL·E、内容生成、高转化营销、多模态协同、提示词工程摘要：随着AIGC（人工智能生成内容）技术的爆发式发展，ChatGPT（文本生成）与DALL·E（图像生成）的组合已成为内容创作领域的“黄金搭档”。本文将深度解析二者的协同原理，结合实战案例演示从需求分析到内容落地的全流程，并揭示提升内容
数据分析领域中AI人工智能的发展前景展望 AI大模型应用工坊 AI大模型开发实战数据分析人工智能数据挖掘 ai
数据分析领域中AI人工智能的发展前景展望关键词：数据分析、人工智能、机器学习、深度学习、数据挖掘、预测分析、自动化摘要：本文深入探讨了人工智能在数据分析领域的发展现状和未来趋势。我们将从核心技术原理出发，分析AI如何改变传统数据分析范式，详细讲解机器学习算法在数据分析中的应用，并通过实际案例展示AI驱动的数据分析解决方案。文章还将探讨行业应用场景、工具生态以及未来发展面临的挑战和机遇，为数据分析师
AI人工智能中的数据挖掘：提升智能决策能力
AI人工智能中的数据挖掘：提升智能决策能力关键词：数据挖掘、人工智能、机器学习、智能决策、数据分析、特征工程、模型优化摘要：本文深入探讨了数据挖掘在人工智能领域中的核心作用，重点分析了如何通过数据挖掘技术提升智能决策能力。文章从基础概念出发，详细介绍了数据挖掘的关键算法、数学模型和实际应用场景，并通过Python代码示例展示了数据挖掘的全流程。最后，文章展望了数据挖掘技术的未来发展趋势和面临的挑战
Spark SQL架构及高级用法 Aurora_NeAr spark sql 架构
SparkSQL架构概述架构核心组件API层（用户接口）输入方式：SQL查询；DataFrame/DatasetAPI。统一性：所有接口最终转换为逻辑计划树（LogicalPlan），进入优化流程。编译器层（Catalyst优化器）核心引擎：基于规则的优化器（Rule-BasedOptimizer,RBO）与成本优化器（Cost-BasedOptimizer,CBO）。处理流程：阶段输入输出关键动
【剽悍读书营成长记录】十天，稍纵即逝慢慢存钱
又一个十天过去了，又一个主题营结束了。回顾这十天的时间，如过眼云烟，稍纵即逝。1.买书得知这次主题营要读的书必须是纸质版，我就有点慌神儿了。记得上次去书店，还是学生时代，已经多少年没去过书店了。即便一直没去过，还想着这次终于有机会再去书店逛逛了。第二天，带我妈去医院看望住院的小舅妈，本打算抽出些时间，去书店逛一圈。但计划没有变化快，也因为这个医院附近没有书店，我要么去知道的新华书店，要么就得再附近
【三桥君】MCP中台，究竟如何实现多模型、多渠道、多环境的统一管控？如何以MCP为核心设计AI应用架构？三桥君《三桥君 MCP落地方法论》《三桥君 AI大模型落地方法论》#《三桥君 AI产品方法论》人工智能 AI产品经理 MCP API 三桥君系统架构 llama
你好，我是✨三桥君✨本文介绍>>一、引言随着人工智能技术的快速发展，越来越多的企业开始引入大语言模型（LLM）以提升用户体验和运营效率。然而，如何高效、稳定地将这些AI能力落地到生产环境呢？传统的系统架构往往难以应对AI应用的高并发、低延迟和灵活扩展需求，因此，从整体架构角度设计AI应用架构显得尤为重要。本文三桥君将深入探讨以MCP为核心的AI应用架构，并分析多种部署方式的优劣势，为企业在AI落地
时间看得见（第71天/3650天）瓜小西呀
【第71天/3650天】时间管理：2019.04.24今天雨竟然下了一整天，晚上计划好的搬家计划也被迫搁浅了，原来热闹的宿舍只剩下空荡荡的床位，如果不是大雨，这个房子今晚已经没有人了，没想到行动最早的我和玉米竟站了宿舍最后一班岗。想我的小伙伴们啊~虽然有时会觉得有点吵，但吵吵闹闹的不才是生活吗？这样一下子突然安安静静的，还真是一点都不习惯呢！不过还好我们都会保持联系:-)还没分开，我们就已经开始约
深入理解卷积神经网络（CNN）与循环神经网络（RNN） CodeJourney. cnn rnn 人工智能
在当今的人工智能领域，神经网络无疑是最为璀璨的明珠之一。而卷积神经网络（ConvolutionalNeuralNetworks，CNN）和循环神经网络（RecurrentNeuralNetworks，RNN）作为神经网络家族中的重要成员，各自有着独特的架构和强大的功能，广泛应用于众多领域。本文将深入探讨这两种神经网络的原理、特点以及应用场景，为对深度学习感兴趣的读者提供全面的知识讲解。一、卷积神经
今年校招竞争真激烈 12_05
程序员满大街，都要找不到工作了。即使人工智能满大街，我也后悔当初没学机器学习，后悔当初没学Java。C++真难找工作。难道毕了业就失业吗？好担心！
时序预测 | MATLAB实现贝叶斯优化CNN-GRU时间序列预测(股票价格预测) Matlab机器学习之心 matlab cnn gru
✅作者简介：热爱数据处理、数学建模、仿真设计、论文复现、算法创新的Matlab仿真开发者。更多Matlab代码及仿真咨询内容点击主页：Matlab科研工作室个人信条：格物致知，期刊达人。内容介绍股票价格预测一直是金融领域一个极具挑战性的课题。其内在的非线性、随机性和复杂性使得传统的预测方法难以取得令人满意的效果。近年来，深度学习技术，特别是卷积神经网络(CNN)和门控循环单元(GRU)的结合，为时
时序预测 | MATLAB实现BO-CNN-GRU贝叶斯优化卷积门控循环单元时间序列预测 Matlab算法改进和仿真定制工程师 matlab cnn gru
✅作者简介：热爱数据处理、数学建模、算法创新的Matlab仿真开发者。更多Matlab代码及仿真咨询内容点击：Matlab科研工作室个人信条：格物致知。内容介绍时间序列预测在各个领域都具有重要的应用价值，例如金融市场预测、气象预报、交通流量预测等。准确地预测未来趋势对于决策制定至关重要。近年来，深度学习技术在时间序列预测领域取得了显著进展，其中卷积神经网络(CNN)和门控循环单元(GRU)由于其强
08.学习闭环三部曲：预习、实时学习、复习 0058b195f4dc
人生就是一本效率手册，你怎样对待时间，时间就会给你同比例的回馈。单点突破法。预习，实时学习，复习。1、预习：凡事提前【计划】（1）前一晚设置三个当日目标。每周起始于每周日。（2）提前学习。预习法进行思考。预不预习效果相差20％，预习法学会提问。（3）《学会提问》。听电子书。2.实时学习（1）（10％）相应场景，思维导图，快速笔记。灵感笔记。（2）大纲，基本记录，总结篇。3.复习法则，（70％），最
苹果第二代基于ARM处理器的M1X发行日期和功能点点凌阁
人们普遍认为是下一代苹果Mac处理器的基准已经出现。预计M1X将跟随2020年11月推出的M1，并在MacBookPro和iMac的下一版本中使用。这是苹果M1芯片后继产品的全部信息。什么是M1X？M1X芯片被认为是下一代AppleSilicon的名称。这将是苹果第二款针对Mac的基于ARM的处理器。苹果似乎并没有直接跳到M2，而是计划推出具有更多处理器核心和更多图形核心的相同基本处理器的更快版本
如何运用深度学习打造高效AI人工智能系统 AI智能探索者 AI Agent 智能体开发实战人工智能深度学习 ai
如何运用深度学习打造高效AI人工智能系统关键词：深度学习、AI系统、神经网络、模型优化、实战开发摘要：本文将从深度学习的核心概念出发，结合生活实例和代码实战，系统讲解如何构建高效AI系统。我们会拆解数据准备、模型设计、训练优化、部署落地的全流程，揭秘“数据-模型-训练-推理”的协同机制，并通过具体案例演示从0到1开发AI系统的关键技巧，帮助开发者掌握打造高效AI系统的底层逻辑。背景介绍目的和范围在
顺丰快递员为了和同事聚会延迟取件：每位努力生活的人都值得被温柔以待！作家维忆
01昨天，我计划要把送给希望少儿之家的书和衣服快递出去。我选择提前预约了顺丰的上门取件服务。预约的取件时间大概是7点左右，结果我很快就收到了快递员的电话，他说，他等下要和同事聚会，所以能不能明天来取件。我第一个反应就是不行，毕竟这个事情是我昨天一定要完成的，何况你还是要去和同事聚会，又不是什么极大的事。但我转念一想，也是，元旦快递员还在上班本身就很辛苦，而且以前我上班的时候，也很期待聚会。于是我问
非欧空间计算加速：图神经网络与微分几何计算的GPU优化（流形数据的内存布局优化策略）九章云极AladdinEdu 空间计算神经网络人工智能 gpu算力算法 java 开发语言
一、非欧空间计算的革命性意义与核心挑战在三维形状分析、社交网络建模、分子动力学模拟等领域，非欧几里得空间数据（流形数据）的处理正推动人工智能技术向更复杂的几何结构迈进。传统欧式空间优化方法在处理流形数据时面临根本性局限：黎曼度量导致距离计算失效、局部坐标系动态变化引发内存访问模式混乱、曲率变化影响并行计算效率。本文提出基于分块流形存储（BlockedManifoldStorage,BMS）与层次化
脚步不停，学习不止沅陵536田林静
非常有幸能够参与这次的青椒计划线下活动，此次讲座活动于2018.11.26号上午八点准时在沅陵县凤鸣小学召开。有机会可以接触到并且了解青椒计划的项目对它也有了更深刻的理解。真心的对讲座的领导老师们表示深深的感谢，青椒计划让我们这些乡村老师学习了更多的教育教学知识，给我们提供丰富的网络听课资源，让我们这些乡村老师也能和世界教育接轨，了解学习更多的教育教学资源，对自身的教学能力和师德教育有大大的提升，
读书计划之第一本书终结潇潇渄渄
终于在周末的下午读完《人际交往心理学》这本书，虽然是本鸡汤书，读书中有几点体会比较深，远离有思想毒素的人、克服猜疑、不要让嫉妒阻碍交际、运用讽喻增加辩论的说服力，自己本身就有这些问题所以才会有感悟。远离有思想毒素的人，前面单独拿出来写了一篇。因为不自信因为自卑，有些猜疑、嫉妒，自己能够意识到问题的存在，也在尝试着去改善，很多时候事情的起因都是自己，让自己的内心强大富裕起来，也会减少很多问题。讽喻，
10月|11月时间日志复盘 90000Tank
转眼已经进入了今年的最后一个月，今天回顾整理了一下10月和11月的时间记录，发现这2个月的问题着实不少，也有些感慨自己真是有些“计划一套但另做一套”……不过，自黑伤感之余，每月总结还是要做，下面就来分析下这两个月的问题所在。问题暴露10、11月时间饼状图对比，这两月都有点不妙…月份按天聚合事件时长柱状图对比从上面的月份事件时长占比饼状图，以及月份按天聚合事件时长柱状图，可以看出如下问题：刻意学习时
Spring AI与机器学习：智能应用开发新范式 tmjpz04412 人工智能 spring 机器学习
SpringAI与机器学习的整合SpringAI是一个基于Spring生态的AI开发框架，旨在简化智能应用的开发流程。通过SpringAI，开发者可以快速集成机器学习模型，构建高效的智能应用。SpringAI支持多种机器学习库和框架，如TensorFlow、PyTorch和Scikit-learn，提供统一的API接口。SpringAI的核心优势在于其模块化设计和自动化配置。开发者无需关心复杂的依
ASM系列四利用Method 组件动态注入方法逻辑 lijingyao8206 字节码技术 jvm AOP 动态代理 ASM
这篇继续结合例子来深入了解下Method组件动态变更方法字节码的实现。通过前面一篇，知道ClassVisitor 的visitMethod()方法可以返回一个MethodVisitor的实例。那么我们也基本可以知道，同ClassVisitor改变类成员一样，MethodVIsistor如果需要改变方法成员，注入逻辑，也可以
java编程思想 --内部类百合不是茶 java 内部类匿名内部类
内部类;了解外部类并能与之通信内部类写出来的代码更加整洁与优雅 1,内部类的创建内部类是创建在类中的 package com.wj.InsideClass; /* * 内部类的创建 */ public class CreateInsideClass { public CreateInsideClass(
web.xml报错 crabdave web.xml
web.xml报错 The content of element type "web-app" must match "(icon?,display- name?,description?,distributable?,context-param*,filter*,filter-mapping*,listener*,servlet*,s
泛型类的自定义麦田的设计者 java android 泛型
为什么要定义泛型类，当类中要操作的引用数据类型不确定的时候。采用泛型类，完成扩展。例如有一个学生类 Student{ Student(){ System.out.println("I'm a student....."); } } 有一个老师类
CSS清除浮动的4中方法 IT独行者 JavaScript UI css
清除浮动这个问题，做前端的应该再熟悉不过了，咱是个新人，所以还是记个笔记，做个积累，努力学习向大神靠近。CSS清除浮动的方法网上一搜，大概有N多种，用过几种，说下个人感受。 1、结尾处加空div标签 clear:both 1 2 3 4 .div 1 { background : #000080 ; border : 1px s
Cygwin使用windows的jdk 配置方法 _wy_ jdk windows cygwin
1.[vim /etc/profile] JAVA_HOME="/cgydrive/d/Java/jdk1.6.0_43" (windows下jdk路径为D:\Java\jdk1.6.0_43) PATH="$JAVA_HOME/bin:${PATH}" CLAS
linux下安装maven 无量 maven linux 安装
Linux下安装maven(转) 1.首先到Maven官网下载安装文件，目前最新版本为3.0.3，下载文件为 apache-maven-3.0.3-bin.tar.gz，下载可以使用wget命令； 2.进入下载文件夹，找到下载的文件，运行如下命令解压 tar -xvf apache-maven-2.2.1-bin.tar.gz 解压后的文件夹
tomcat的https 配置,syslog-ng配置 aichenglong tomcat http跳转到https syslong-ng配置 syslog配置
1) tomcat配置https,以及http自动跳转到https的配置 1)TOMCAT_HOME目录下生成密钥(keytool是jdk中的命令) keytool -genkey -alias tomcat -keyalg RSA -keypass changeit -storepass changeit
关于领号活动总结 alafqq 活动
关于某彩票活动的总结具体需求，每个用户进活动页面，领取一个号码，1000中的一个；活动要求 1，随机性，一定要有随机性； 2，最少中奖概率，如果注数为3200注，则最多中4注 3，效率问题，（不能每个人来都产生一个随机数，这样效率不高）； 4，支持断电（仍然从下一个开始），重启服务；（存数据库有点大材小用，因此不能存放在数据库）解决方案 1，事先产生随机数1000个，并打
java数据结构冒泡排序的遍历与排序百合不是茶 java
java的冒泡排序是一种简单的排序规则冒泡排序的原理：比较两个相邻的数，首先将最大的排在第一个，第二次比较第二个，此后一样；针对所有的元素重复以上的步骤，除了最后一个例题；将int array[]
JS检查输入框输入的是否是数字的一种校验方法 bijian1013 js
如下是JS检查输入框输入的是否是数字的一种校验方法： <form method=post target="_blank"> 数字：<input type="text" name=num onkeypress="checkNum(this.form)"><br> </form>
Test注解的两个属性：expected和timeout bijian1013 java JUnit expected timeout
JUnit4：Test文档中的解释：　　The Test annotation supports two optional parameters. 　　The first, expected, declares that a test method should throw an exception. 　　If it doesn't throw an exception or if it
[Gson二]继承关系的POJO的反序列化 bit1129 POJO
父类 package inheritance.test2; import java.util.Map; public class Model { private String field1; private String field2; private Map<String, String> infoMap
【Spark八十四】Spark零碎知识点记录 bit1129 spark
1. ShuffleMapTask的shuffle数据在什么地方记录到MapOutputTracker中的 ShuffleMapTask的runTask方法负责写数据到shuffle map文件中。当任务执行完成成功，DAGScheduler会收到通知，在DAGScheduler的handleTaskCompletion方法中完成记录到MapOutputTracker中
WAS各种脚本作用大全 ronin47 WAS 脚本
　　　http://www.ibm.com/developerworks/cn/websphere/library/samples/SampleScripts.html 　　　无意中，在WAS官网上发现的各种脚本作用，感觉很有作用，先与各位分享一下　　　获取下载这些示例 jacl 和 Jython 脚本可用于在 WebSphere Application Server 的不同版本中自
java-12.求 1+2+3+..n不能使用乘除法、 for 、 while 、 if 、 else 、 switch 、 case 等关键字以及条件判断语句 bylijinnan switch
借鉴网上的思路，用java实现： public class NoIfWhile { /** * @param args * * find x=1+2+3+....n */ public static void main(String[] args) { int n=10; int re=find(n); System.o
Netty源码学习-ObjectEncoder和ObjectDecoder bylijinnan java netty
Netty中传递对象的思路很直观： Netty中数据的传递是基于ChannelBuffer（也就是byte[]）；那把对象序列化为字节流，就可以在Netty中传递对象了相应的从ChannelBuffer恢复对象，就是反序列化的过程 Netty已经封装好ObjectEncoder和ObjectDecoder 先看ObjectEncoder ObjectEncoder是往外发送
spring 定时任务中cronExpression表达式含义 chicony cronExpression
一个cron表达式有6个必选的元素和一个可选的元素，各个元素之间是以空格分隔的，从左至右，这些元素的含义如下表所示：代表含义是否必须允许的取值范围 &nb
Nutz配置Jndi ctrain JNDI
1、使用JNDI获取指定资源： var ioc = { dao : { type :"org.nutz.dao.impl.NutDao", args : [ {jndi :"jdbc/dataSource"} ] } } 以上方法,仅需要在容器中配置好数据源,注入到NutDao即可.
解决 /bin/sh^M: bad interpreter: No such file or directory daizj shell
在Linux中执行.sh脚本，异常/bin/sh^M: bad interpreter: No such file or directory。分析：这是不同系统编码格式引起的：在windows系统中编辑的.sh文件可能有不可见字符，所以在Linux系统下执行会报以上异常信息。解决： 1）在windows下转换：利用一些编辑器如UltraEdit或EditPlus等工具
[转]for 循环为何可恨？ dcj3sjt126com 程序员读书
Java的闭包(Closure)特征最近成为了一个热门话题。一些精英正在起草一份议案，要在Java将来的版本中加入闭包特征。然而，提议中的闭包语法以及语言上的这种扩充受到了众多Java程序员的猛烈抨击。不久前，出版过数十本编程书籍的大作家Elliotte Rusty Harold发表了对Java中闭包的价值的质疑。尤其是他问道“for 循环为何可恨？”[http://ju
Android实用小技巧 dcj3sjt126com android
1、去掉所有Activity界面的标题栏　　修改AndroidManifest.xml 　　在application 标签中添加android:theme="@android:style/Theme.NoTitleBar" 2、去掉所有Activity界面的TitleBar 和StatusBar 　　修改AndroidManifes
Oracle 复习笔记之序列 eksliang Oracle 序列 sequence Oracle sequence
转载请出自出处：http://eksliang.iteye.com/blog/2098859 1.序列的作用序列是用于生成唯一、连续序号的对象一般用序列来充当数据库表的主键值 2.创建序列语法如下： create sequence s_emp start with 1 --开始值 increment by 1 --増长值 maxval
有“品”的程序员 gongmeitao 工作
完美程序员的10种品质　　完美程序员的每种品质都有一个范围，这个范围取决于具体的问题和背景。没有能解决所有问题的完美程序员（至少在我们这个星球上），并且对于特定问题，完美程序员应该具有以下品质：　　1. 才智非凡- 能够理解问题、能够用清晰可读的代码翻译并表达想法、善于分析并且逻辑思维能力强（范围：用简单方式解决复杂问题）　　
使用KeleyiSQLHelper类进行分页查询 hvt sql .net C#asp.net hovertree
本文适用于sql server单主键表或者视图进行分页查询，支持多字段排序。KeleyiSQLHelper类的最新代码请到http://hovertree.codeplex.com/SourceControl/latest下载整个解决方案源代码查看。或者直接在线查看类的代码：http://hovertree.codeplex.com/SourceControl/latest#HoverTree.D
SVG 教程（三）圆形，椭圆，直线天梯梦 svg
SVG <circle> SVG 圆形 - <circle> <circle> 标签可用来创建一个圆：下面是SVG代码： <svg xmlns="http://www.w3.org/2000/svg" version="1.1"> <circle cx="100" c
链表栈 luyulong java 数据结构
public class Node { private Object object; private Node next; public Node() { this.next = null; this.object = null; } public Object getObject() { return object; } public
基础数据结构和算法十：2-3 search tree sunwinner Algorithm 2-3 search tree
Binary search tree works well for a wide variety of applications, but they have poor worst-case performance. Now we introduce a type of binary search tree where costs are guaranteed to be loga
spring配置定时任务 stunizhengjia spring timer
最近因工作的需要，用到了spring的定时任务的功能,觉得spring还是很智能化的,只需要配置一下配置文件就可以了,在此记录一下，以便以后用到： //------------------------定时任务调用的方法------------------------------ /** * 存储过程定时器 */ publi
ITeye 8月技术图书有奖试读获奖名单公布 ITeye管理员活动
ITeye携手博文视点举办的8月技术图书有奖试读活动已圆满结束，非常感谢广大用户对本次活动的关注与参与。 8月试读活动回顾： http://webmaster.iteye.com/blog/2102830 本次技术图书试读活动的优秀奖获奖名单及相应作品如下（优秀文章有很多，但名额有限，没获奖并不代表不优秀）：《跨终端Web》 gleams：http

【PyTorch】记一次卷积神经网络优化过程

记一次卷积神经网络优化过程

前言

引用

背景

基线主要模块

数据预处理

网络结构

损失函数和优化器

交叉熵损失函数

随机梯度下降优化函数

超参数

运行结果

第一次实验：增大batch_size减少震荡

为什么训练过程中损失值曲线出现震荡可能是batch_size太小的原因，以及为什么增大batch_size可能会减少损失值震荡

解决方法

超参数

模型 不变

运行结果

第二次实验，通过减小学习率尝试提高准确率

为什么调节学习率有可能提高准确率

解决方法

超参数

模型 不变

运行结果

第三次实验，增加网络层数

为什么对简单的网络增加层数有可能提高准确率

解决方法

超参数

模型

运行结果

第四次实验，数据随机和数据增强

为什么数据随机和数据增强可能提高准确率

解决方法

超参数

运行结果

第五次实验，使用残差特征提取

解决方法

超参数

运行结果

结论

完整代码（数据集在绑定资源里，也可以自己下载）

你可能感兴趣的:(天网计划,pytorch,cnn,人工智能)

模型不变

模型不变