洛杉矶县牛肉板面

[23-24 秋学期] NNDL 作业4 前馈神经网络 HBU

作业内容:

1. 过程推导，了解BP原理

BP算法是一种有监督的模式识别方法，包括学习和识别两部分。它的工作原理由信号的正向传播与误差的反向传播两个过程组成。

在正向传播过程中，输入模式从输入层经过隐含层处理，然后传递到输出层，每一层神经元状态只影响下一层神经元状态。这个过程的目标是计算输出值，这个输出值通常与期望值存在一定的误差。

当误差无法接受时，就会启动误差反向传播过程。这个过程实际上是计算模式的各层神经元权值的变化量，也就是根据输出值与期望值之间的误差，反向更新网络中各种神经元的权值。这个过程不断重复，直至完成对该模式集所有模式的计算，产生这一轮训练值的变化量。

在权值修正后，网络重新按照正向传播方式得到输出。实际输出值与期望值之间的误差可以导致新一轮的权值修正。正向传播与反向传播过程循环往复，直到网络收敛，得到网络收敛后的互联权值和阈值。

以下是推导过程(手写)：

模型：

参数说明：

前向传播过程：(字写错了 "项"应该改为"向")

链式求导，反向传播：

参数修正：

2.数值计算-手动计算，掌握细节

将所有变量的值对应正确，进行计算，得到w5更新一次后的结果，与numpy代码进行比对，稍有差距，可能是小数点精度和保留小数点位数不同带来的偏差。而对比pytorch代码，则相似度极高，偏差非常非常小。

下面的截图是torch代码更新一次权值后显示出w5的权值：

3. 代码实现 numpy手推+pytorch实现

1.)对比【numpy】和【pytorch】程序，总结并陈述。

numpy代码：

import numpy as np

#根据老师给出的权值，设置八个权重w(weight)的值
w1,w2,w3,w4 = 0.2,-0.4,0.5,0.6
w5,w6,w7,w8 = 0.1,-0.5,-0.3,0.8

#输入值，输出值
x1,x2 = 0.5,0.3
y1,y2 = 0.23,-0.07
print('输入值x1,x2:',x1,x2)
print('输出值y1,y2:',y1,y2)

def sigmoid(z):
    return 1/(1+np.exp(-z))

#前向传播算法
def forward_propagate(x1,x2,y1,y2,w1,w2,w3,w4,w5,w6,w7,w8):
    #第一层
    in_h1 = w1*x1 + w3*x2
    out_h1 = sigmoid(in_h1)
    in_h2 = w2*x1 + w4*x2
    out_h2 = sigmoid(in_h2)

    #第二层
    in_o1 = w5*out_h1 + w7+out_h2
    out_o1 = sigmoid(in_o1)
    in_o2 = w6*out_h1 + w8*out_h2
    out_o2 = sigmoid(in_o2)

    #均方误差error
    error = (1/2)*(out_o1 - y1)**2 + (1/2)*(out_o2 - y2)**2

    #输出每一层的输出值和均方误差值
    print('正向计算，隐藏层h1,h2:',round(out_h1,5),round(out_h2,5))
    print('正向计算，预测值o1,o2:',round(out_o1,5),round(out_o2,5))
    print('均方误差(损失函数):',round(error,5))

    return out_o1,out_o2,out_h1,out_h2

#反向传播
def back_propagate(out_o1,out_o2,out_h1,out_h2):
    #均方误差
    d_o1 = out_o1 - y1
    d_o2 = out_o2 - y2

    #权重更新  第二层
    d_w5 = d_o1 * out_o1 * (1-out_o1) * out_h1
    d_w6 = d_o2 * out_o2 * (1-out_o2) * out_h1
    d_w7 = d_o1 * out_o1 * (1-out_o1) * out_h2
    d_w8 = d_o2 * out_o2 * (1-out_o2) * out_h2

    #权重更新 第一层
    d_w1 = (d_o1*out_o1*(1-out_o1)*w5 + d_o2*out_o2*(1-out_o2)*w6)*out_h1*(1-out_h1)*x1
    d_w2 = (d_o1*out_o1*(1-out_o1)*w7 + d_o2*out_o2*(1-out_o2)*w8)*out_h2*(1-out_h2)*x1
    d_w3 = (d_o1*out_o1*(1-out_o1)*w5 + d_o2*out_o2*(1-out_o2)*w6)*out_h1*(1-out_h1)*x2
    d_w4 = (d_o1*out_o1*(1-out_o1)*w7 + d_o2*out_o2*(1-out_o2)*w8)*out_h2*(1-out_h2)*x2

    print('w的梯度:',round(d_w1,3),round(d_w2,3),round(d_w3,3),round(d_w4,3),round(d_w5,3)
          ,round(d_w6,3),round(d_w7,3),round(d_w8,3))
    return d_w1,d_w2,d_w3,d_w4,d_w5,d_w6,d_w7,d_w8

#步长
def update_w(w1,w2,w3,w4,w5,w6,w7,w8,d_w1,d_w2,d_w3,d_w4,d_w5,d_w6,d_w7,d_w8):
    step = 1
    w1 = w1 - step * d_w1
    w2 = w2 - step * d_w2
    w3 = w3 - step * d_w3
    w4 = w4 - step * d_w4
    w5 = w5 - step * d_w5
    w6 = w6 - step * d_w6
    w7 = w7 - step * d_w7
    w8 = w8 - step * d_w8

    return w1,w2,w3,w4,w5,w6,w7,w8

if __name__=='__main__':
    print('权值w1-w8为:',round(w1,3),round(w2,3),round(w3,3),round(w4,3),round(w5,3),
          round(w6,3),round(w7,3),round(w8,3))

    for i in range(1000):
        print('==第'+str(i+1)+'轮==')
        #前向传播
        out_o1,out_o2,out_h1,out_h2 = forward_propagate(x1,x2,y1,y2,w1,w2,w3,w4,w5,w6,w7,w8)
        #反向传播
        d_w1,d_w2,d_w3,d_w4,d_w5,d_w6,d_w7,d_w8 =back_propagate(out_o1,out_o2,out_h1,out_h2)

        #更新步长
        w1,w2,w3,w4,w5,w6,w7,w8 = update_w(w1,w2, w3, w4, w5, w6, w7, w8,
                                           d_w1, d_w2, d_w3, d_w4, d_w5, d_w6, d_w7, d_w8)

        print('更新后的权值w:',round(w1,3),round(w2,3),round(w3,3),round(w4,3),round(w5,3),
              round(w6,3),round(w7,3),round(w8,3))

通过调节步长，训练次数，可以查看w最终的更新值。在这段代码里，我设置反向传播的步长step=1。

训练结果：

第5轮：

第100轮：

第500轮：

第1000轮：

第1194轮：

通过不断地微调，我发现在运行到第1194轮时，w的梯度刚好全部达到0，并且损失函数值loss都相等。此时达到最优解。

第1200轮：

疑问：但是即使在w的梯度全部更新为0且损失函数的值不变后，我又增加了200次训练次数，发现更新后的w竟然还在产生微小的变化？按理论来讲，达到最优解时(w的梯度达到0)，权值w应该不再更新，那么为何w还会继续更新下去？和sigmoid函数的性质有关？

pytorch自动实现代码：

import torch

x=[0.5,0.3]
y=[0.23,-0.07]
print('输入值x0,x1:',x[0],x[1])
print('输出值y0,y1:',y[0],y[1])

w=[torch.Tensor([0.2]),torch.Tensor([-0.4]),torch.Tensor([0.5]),torch.Tensor([0.6]),
   torch.Tensor([0.1]),torch.Tensor([-0.5]),torch.Tensor([-0.3]),torch.Tensor([0.8])]

for i in range(0,8):
    #设置张量的属性为True，意味着这个张量在反向传播时需要计算其梯度
    w[i].requires_grad = True

print('权重w0-w7:')
for i in range(0,8):
    print(w[i].data,end=' ')

#前向传播
def forward_propagate(x):
    in_h1 = w[0] * x[0] + w[2] * x[1]
    out_h1 = torch.sigmoid(in_h1)
    in_h2 = w[1] * x[0] + w[3] * x[1]
    out_h2 = torch.sigmoid(in_h2)

    in_o1 = w[4] * out_h1 + w[6] * out_h2
    out_o1 = torch.sigmoid(in_o1)
    in_o2 = w[5] * out_h1 + w[7] * out_h2
    out_o2 = torch.sigmoid(in_o2)

    print("正向计算，隐藏层h1 ,h2：", end="")
    print(out_h1.data, out_h2.data)
    print("正向计算，预测值o1 ,o2：", end="")
    print(out_o1.data, out_o2.data)

    return out_o1, out_o2

#损失函数
def loss(x,y):
    y_pre = forward_propagate(x)
    loss_mse = (1/2)*(y_pre[0]-y[0])**2 + (1/2)*(y_pre[1]-y[1])**2
    print("损失函数(均方误差)：", loss_mse.item())
    return loss_mse

if __name__ == "__main__":
    for k in range(5):
        print("\n==第" + str(k+1) + "轮==")
        l = loss(x, y)  #求Loss+前向传播
        l.backward()  # 反向传播，求出计算图中所有梯度存入w中. 自动求梯度，不需要人工编程实现。
        print("w的梯度: ", end="  ")
        for i in range(0, 8):
            print(round(w[i].grad.item(), 2), end="  ")  # 查看梯度
        step = 1  # 步长
        for i in range(0, 8):
            w[i].data = w[i].data - step * w[i].grad.data  # 更新权值
            w[i].grad.data.zero_()  # 注意：将w中所有梯度清零
        print("\n更新后的权值w:")
        for i in range(0, 8):
            print(w[i].data, end="  ")

结果：

训练5轮：

训练100轮：

训练1000轮：

训练次数与numpy代码实现的结果做对比，发现两种方式做出的模型结果相差不大。其中pytorch调用了反向传播函数backward()，大大减少了代码的复杂程度。

2）激活函数Sigmoid用PyTorch自带函数torch.sigmoid()，观察、总结并陈述

主要区别在于：PyTorch版本的sigmoid函数可以处理任意类型的输入（例如，也可以是cuda上的张量），并且它可以直接作用在张量上，而不需要显式地写出循环。此外，如果输入的张量包含多个元素，PyTorch的sigmoid函数会对每个元素单独应用sigmoid函数。

由于浮点数精度的限制，对于非常大的或非常小的输入值，手写版本和PyTorch版本的sigmoid函数可能会产生轻微的差异。但是这种差异通常不会对神经网络的训练产生明显的影响。观察上一小节中的训练结果，torch.sigmoid()的精度会略高一些。

* torch.sigmoid(), torch.nn.Sigmoid, torch.nn.functional.sigmoid()的区别：

torch.nn.Sigmoid() :是一个类。在定义模型的初始化方法中使用，需要在__init__中定义。

torch.nn.functional.sigmoid():是一个方法，可直接在正向传播中使用，不需要初始化；在训练模型的过程中也可以直接使用。

具体细节请查询官方文档：Pytorch官方文档。

3）激活函数Sigmoid改编为Relu，观察、总结并陈述。

Relu函数公式：

$ReLU(X)=(X)^{+}=MAX(0,X)$

ReLU函数图像：

将sigmoid激活函数修改为ReLU激活函数：

代码:

import torch
import torch.nn as nn

x=[0.5,0.3]
y=[0.23,-0.07]
print('输入值x0,x1:',x[0],x[1])
print('输出值y0,y1:',y[0],y[1])

#创建ReLU对象
relu = nn.ReLU()

w=[torch.Tensor([0.2]),torch.Tensor([-0.4]),torch.Tensor([0.5]),torch.Tensor([0.6]),
   torch.Tensor([0.1]),torch.Tensor([-0.5]),torch.Tensor([-0.3]),torch.Tensor([0.8])]

for i in range(0,8):
    #设置张量的属性为True，意味着这个张量在反向传播时需要计算其梯度
    w[i].requires_grad = True

print('权重w0-w7:')
for i in range(0,8):
    print(w[i].data,end=' ')

#前向传播
def forward_propagate(x):
    in_h1 = w[0] * x[0] + w[2] * x[1]
    #out_h1 = torch.sigmoid(in_h1)
    out_h1 = relu(in_h1)
    in_h2 = w[1] * x[0] + w[3] * x[1]
    out_h2 = relu(in_h2)

    in_o1 = w[4] * out_h1 + w[6] * out_h2
    #out_o1 = torch.sigmoid(in_o1)
    out_o1 = relu(in_o1)
    in_o2 = w[5] * out_h1 + w[7] * out_h2
    out_o2 = relu(in_o2)

    print("正向计算，隐藏层h1 ,h2：", end="")
    print(out_h1.data, out_h2.data)
    print("正向计算，预测值o1 ,o2：", end="")
    print(out_o1.data, out_o2.data)

    return out_o1, out_o2

#损失函数
def loss(x,y):
    y_pre = forward_propagate(x)
    loss_mse = (1/2)*(y_pre[0]-y[0])**2 + (1/2)*(y_pre[1]-y[1])**2
    print("损失函数(均方误差)：", loss_mse.item())
    return loss_mse

if __name__ == "__main__":
    for k in range(5):
        print("\n==第" + str(k+1) + "轮==")
        l = loss(x, y)  #求Loss+前向传播
        l.backward()  # 反向传播，求出计算图中所有梯度存入w中. 自动求梯度，不需要人工编程实现。
        print("w的梯度: ", end="  ")
        for i in range(0, 8):
            print(round(w[i].grad.item(), 2), end="  ")  # 查看梯度
        step = 1  # 步长
        for i in range(0, 8):
            w[i].data = w[i].data - step * w[i].grad.data  # 更新权值
            w[i].grad.data.zero_()  # 注意：将w中所有梯度清零
        print("\n更新后的权值w:")
        for i in range(0, 8):
            print(w[i].data, end="  ")

步长设置为1。

运行结果：
运行第1轮

运行第5轮：

运行第100轮：

运行第1000轮：

对比sigmoid激活函数训练出的模型,在步长相同且训练次数相同的情况下，ReLU函数在经过训练后得到的权重值要小，损失函数的值也要小。

均方误差在进行1轮、5轮训练就能迅速降下来，这很能说明使用Relu激活函数模型收敛速度是要优于使用sigmoid激活函数。并且Relu()函数有一个特性，使一部分神经元(即X轴副半区)的输出为0，这样就造成了网络的稀疏性，并且减少了参数的相互依存关系，缓解了过拟合问题的发生，这大概就是Relu()是目前主流激活函数的原因。

sigmoid激活函数涉及到指数运算，计算量大，并且反向传播求误差梯度时，求导涉及除法，所以运算量的不同会导致上述训练收敛速度的不同。

4.损失函数MSE用PyTorch自带函数 t.nn.MSELoss()替代，观察、总结并陈述。

在原有代码的基础上我进行了修改，因为参照学长的博客，所以我解决了损失函数没有backwrad()函数操作的问题(感谢学长的博客，博客链接置于后方)：

点击： AttributeError: ‘MSELoss‘ object has no attribute ‘backward‘解决方案

接下来遇到了很棘手的问题，如下图：为什么数据类型为tensor的量都变为了nan(Not a Number)，造成这种情况的可能原因通常是因为某些计算结果为无穷大或者无法定义（如0/0或者负数的平方根等），这时PyTorch会返回NaN。数值不稳定、初始化不正确等也会造成NaN的出现如果这种情况发生，需要检查你的计算过程或者模型的初始化。

解决NaN的方法：

在梯度下降的函数中将每个更新后的w值清零。(具体原因我不清楚，先留下一个疑问)

代码：

import torch

x1, x2 = torch.Tensor([0.5]), torch.Tensor([0.3])
y1, y2 = torch.Tensor([0.23]), torch.Tensor([-0.07])
print("输入值：x1, x2:",x1,x2)
print("真实输出值：y1, y2:",y1,y2)

w1, w2, w3, w4, w5, w6, w7, w8 = torch.Tensor([0.2]), torch.Tensor([-0.4]), torch.Tensor([0.5]), torch.Tensor(
    [0.6]), torch.Tensor([0.1]), torch.Tensor([-0.5]), torch.Tensor([-0.3]), torch.Tensor([0.8])  # 权重初始值
w1.requires_grad = True
w2.requires_grad = True
w3.requires_grad = True
w4.requires_grad = True
w5.requires_grad = True
w6.requires_grad = True
w7.requires_grad = True
w8.requires_grad = True


def sigmoid(z):
    return 1 / (1 + torch.exp(-z))

def forward_propagate(x1, x2):
    in_h1 = w1 * x1 + w3 * x2
    out_h1 = sigmoid(in_h1)
    # out_h1 = torch.sigmoid(in_h1)
    in_h2 = w2 * x1 + w4 * x2
    out_h2 = sigmoid(in_h2)
    # out_h2 = torch.sigmoid(in_h2)

    in_o1 = w5 * out_h1 + w7 * out_h2
    out_o1 = sigmoid(in_o1)
    # out_o1 = torch.sigmoid(in_o1)
    in_o2 = w6 * out_h1 + w8 * out_h2
    out_o2 = sigmoid(in_o2)
    # out_o2 = torch.sigmoid(in_o2)

    print("正向计算：o1 ,o2")
    print(out_o1.data, out_o2.data)

    return out_o1, out_o2

def loss_fuction(x1, x2, y1, y2):
    y1_pred, y2_pred = forward_propagate(x1, x2)
    t = torch.nn.MSELoss() #调用torch自带的MSE损失函数
    loss = t(y1_pred,y1) + t(y2_pred,y2)
    print("损失函数（均方误差）：", loss.item())
    return loss

def update_w(w1, w2, w3, w4, w5, w6, w7, w8):
    # 步长
    step = 1
    w1.data = w1.data - step * w1.grad.data
    w2.data = w2.data - step * w2.grad.data
    w3.data = w3.data - step * w3.grad.data
    w4.data = w4.data - step * w4.grad.data
    w5.data = w5.data - step * w5.grad.data
    w6.data = w6.data - step * w6.grad.data
    w7.data = w7.data - step * w7.grad.data
    w8.data = w8.data - step * w8.grad.data

    # 注意：将w中所有梯度清零
    w1.grad.data.zero_()
    w2.grad.data.zero_()
    w3.grad.data.zero_()
    w4.grad.data.zero_()
    w5.grad.data.zero_()
    w6.grad.data.zero_()
    w7.grad.data.zero_()
    w8.grad.data.zero_()

    return w1, w2, w3, w4, w5, w6, w7, w8


if __name__ == "__main__":

    print("==更新前的权值:==")
    print(w1.data, w2.data, w3.data, w4.data, w5.data, w6.data, w7.data, w8.data)

    for i in range(1):
        print("==第" + str(i+1) + "轮==")
        L = loss_fuction(x1, x2, y1, y2)  # 前向传播，求 Loss，构建计算图
        L.backward()  # 自动求梯度，不需要人工编程实现。反向传播，求出计算图中所有梯度存入w中
        print("\tgrad W: ", round(w1.grad.item(), 2), round(w2.grad.item(), 2), round(w3.grad.item(), 2),
              round(w4.grad.item(), 2), round(w5.grad.item(), 2), round(w6.grad.item(), 2), round(w7.grad.item(), 2),
              round(w8.grad.item(), 2))
        w1, w2, w3, w4, w5, w6, w7, w8 = update_w(w1, w2, w3, w4, w5, w6, w7, w8)

    print("更新后的权值:")
    print(w1.data, w2.data, w3.data, w4.data, w5.data, w6.data, w7.data, w8.data)

结果：

更新1轮：

更新10轮：

更新100轮：

更新1000轮：

对比可见，t.nn.MSELoss()损失函数的收敛性质没有手写损失函数的好。梯度下降速度也一般。

5.损失函数MSE改变为交叉熵，观察、总结并陈述。

损失函数部分修改为：

def loss_fuction(x1, x2, y1, y2):
    y1_pred, y2_pred = forward_propagate(x1, x2)
    loss_func = torch.nn.CrossEntropyLoss() #使用函数创建交叉熵损失函数

    #dim维度设置为1  torch.stack()将张量在特定维度上堆叠
    y_pred = torch.stack([y1_pred, y2_pred], dim=1)
    y = torch.stack([y1, y2], dim=1)
    
    loss = loss_func(y_pred, y) # 计算
    print("损失函数（交叉熵损失）：", loss.item())
    return loss

运行结果：

第1轮：

第10轮：

第100轮：

第1000轮：

当我训练至1000次时，竟然又出现了NaN的情况，由于上一问出现过此类问题，所以我决定再加上清零w梯度值的代码。再来重新看看生成结果：

更新1轮：

更新10轮：

更新100轮：

更新1000轮：

由此可见，交叉熵损失函数用来处理非分类问题的效果是非常差的，损失函数的值不仅大小不定，甚至出现了负数。输出值o1,o2的值相对于之前模型生成的值结果相差很大。再次印证了交叉熵损失函数不适合解决非分类问题，均方误差损失函数适合解决回归问题。

原因：交叉熵公式：

$H(p,q)=-\sum_{i=1}^{n}p(x_{i})log(q(x_{i}))$

当网络输出的概率为0-1时，表达式得正数；当网络输出大于1，就可能变为负值。

6.改变步长，训练次数，观察、总结并陈述。

对反向传播过程的步长step进行改变。

numpy可视化代码：

import numpy as np
import matplotlib.pyplot as plt

#根据老师给出的权值，设置八个权重w(weight)的值
w1,w2,w3,w4 = 0.2,-0.4,0.5,0.6
w5,w6,w7,w8 = 0.1,-0.5,-0.3,0.8

#输入值，输出值
x1,x2 = 0.5,0.3
y1,y2 = 0.23,-0.07
print('输入值x1,x2:',x1,x2)
print('输出值y1,y2:',y1,y2)

def sigmoid(z):
    return 1/(1+np.exp(-z))

def Loss(out_o1,out_o2,y1,y2):
    #均方误差error
    error = (1/2)*(out_o1 - y1)**2 + (1/2)*(out_o2 - y2)**2
    return error

#前向传播算法
def forward_propagate(x1,x2,y1,y2,w1,w2,w3,w4,w5,w6,w7,w8):
    #第一层
    in_h1 = w1*x1 + w3*x2
    out_h1 = sigmoid(in_h1)
    in_h2 = w2*x1 + w4*x2
    out_h2 = sigmoid(in_h2)

    #第二层
    in_o1 = w5*out_h1 + w7+out_h2
    out_o1 = sigmoid(in_o1)
    in_o2 = w6*out_h1 + w8*out_h2
    out_o2 = sigmoid(in_o2)

    #输出每一层的输出值和均方误差值
    print('正向计算，隐藏层h1,h2:',round(out_h1,5),round(out_h2,5))
    print('正向计算，预测值o1,o2:',round(out_o1,5),round(out_o2,5))
    error = Loss(out_o1,out_o2,y1,y2)
    print('均方误差(损失函数):',round(error,5))

    return out_o1,out_o2,out_h1,out_h2

#反向传播
def back_propagate(out_o1,out_o2,out_h1,out_h2):
    #均方误差
    d_o1 = out_o1 - y1
    d_o2 = out_o2 - y2

    #权重更新  第二层
    d_w5 = d_o1 * out_o1 * (1-out_o1) * out_h1
    d_w6 = d_o2 * out_o2 * (1-out_o2) * out_h1
    d_w7 = d_o1 * out_o1 * (1-out_o1) * out_h2
    d_w8 = d_o2 * out_o2 * (1-out_o2) * out_h2

    #权重更新 第一层
    d_w1 = (d_o1*out_o1*(1-out_o1)*w5 + d_o2*out_o2*(1-out_o2)*w6)*out_h1*(1-out_h1)*x1
    d_w2 = (d_o1*out_o1*(1-out_o1)*w7 + d_o2*out_o2*(1-out_o2)*w8)*out_h2*(1-out_h2)*x1
    d_w3 = (d_o1*out_o1*(1-out_o1)*w5 + d_o2*out_o2*(1-out_o2)*w6)*out_h1*(1-out_h1)*x2
    d_w4 = (d_o1*out_o1*(1-out_o1)*w7 + d_o2*out_o2*(1-out_o2)*w8)*out_h2*(1-out_h2)*x2

    print('w的梯度:',round(d_w1,3),round(d_w2,3),round(d_w3,3),round(d_w4,3),round(d_w5,3)
          ,round(d_w6,3),round(d_w7,3),round(d_w8,3))
    return d_w1,d_w2,d_w3,d_w4,d_w5,d_w6,d_w7,d_w8

#步长
def update_w(w1,w2,w3,w4,w5,w6,w7,w8,d_w1,d_w2,d_w3,d_w4,d_w5,d_w6,d_w7,d_w8):
    step = 1
    w1 = w1 - step * d_w1
    w2 = w2 - step * d_w2
    w3 = w3 - step * d_w3
    w4 = w4 - step * d_w4
    w5 = w5 - step * d_w5
    w6 = w6 - step * d_w6
    w7 = w7 - step * d_w7
    w8 = w8 - step * d_w8

    return w1,w2,w3,w4,w5,w6,w7,w8

if __name__=='__main__':
    print('权值w1-w8为:',round(w1,3),round(w2,3),round(w3,3),round(w4,3),round(w5,3),
          round(w6,3),round(w7,3),round(w8,3))

    # 创建空列表，用来存储损失函数的值
    E = []
    for i in range(10):
        print('==第'+str(i+1)+'轮==')
        #前向传播
        out_o1,out_o2,out_h1,out_h2 = forward_propagate(x1,x2,y1,y2,w1,w2,w3,w4,w5,w6,w7,w8)
        #反向传播
        d_w1,d_w2,d_w3,d_w4,d_w5,d_w6,d_w7,d_w8 =back_propagate(out_o1,out_o2,out_h1,out_h2)

        #更新步长
        w1,w2,w3,w4,w5,w6,w7,w8 = update_w(w1,w2, w3, w4, w5, w6, w7, w8,
                                           d_w1, d_w2, d_w3, d_w4, d_w5, d_w6, d_w7, d_w8)

        print('更新后的权值w:',round(w1,3),round(w2,3),round(w3,3),round(w4,3),round(w5,3),
              round(w6,3),round(w7,3),round(w8,3))


        E.append(Loss(out_o1, out_o2, y1, y2))
        print('E= ',E)
plt.figure()
plt.xlabel('count')
plt.ylabel('Loss')
plt.title('step = 1')
plt.plot(range(10), E)
plt.show()

结果：

step = 1 ,迭代10次

step = 1,迭代100次

step = 1,迭代1000次

现在改变步长，由step=1改变为step=0.1

step = 0.1,迭代5次

step =0.1 ,迭代100次

step = 0.1,迭代1000次

step = 0.1 ，训练10000次：(辛苦我的电脑了哈哈哈哈哈)

可见step越小，损失函数的值下降的越慢。step = 0.1时训练1000次仅仅相当于step=1时，训练100次的效果。当step = 0.1时，需要训练一万次才能达到step = 1训练1000次的效果。

再尝试一下step = 20 训练1000次的效果：

step = 50,训练1000次的效果：

可以看出，步数越大，损失函数下降的越快，到达最优质的速度越快，图片中的曲线已经接近直角。不过step也不可以设置的过大，否则会出现跳过局部最小值的情况，使损失函数无法达到最优。并且观察step=50的图像，发现曲线在接近最小值时产生了震荡，容易导致无法收敛到最优解。

7.权值w1-w8初始值换为随机数，对比“指定权值”的结果，观察、总结并陈述。

numpy代码中，随机初始w的权值，w是形状为[1,]的numpy数组，注意numpy数组没有round()方法。以下是代码：

import numpy as np

#随机生成八个w的权值
#返回形状为(1, )的一维NumPy数组，数组中的元素是从[0, 1)之间的均匀分布中随机采样的随机数。
w1,w2,w3,w4,w5,w6,w7,w8 = np.random.rand(1),np.random.rand(1),np.random.rand(1),np.random.rand(1)\
                          ,np.random.rand(1),np.random.rand(1),np.random.rand(1),np.random.rand(1),

#输入值，输出值
x1,x2 = 0.5,0.3
y1,y2 = 0.23,-0.07
print('输入值x1,x2:',x1,x2)
print('输出值y1,y2:',y1,y2)

def sigmoid(z):
    return 1/(1+np.exp(-z))

#前向传播算法
def forward_propagate(x1,x2,y1,y2,w1,w2,w3,w4,w5,w6,w7,w8):
    #第一层
    in_h1 = w1*x1 + w3*x2
    out_h1 = sigmoid(in_h1)
    in_h2 = w2*x1 + w4*x2
    out_h2 = sigmoid(in_h2)

    #第二层
    in_o1 = w5*out_h1 + w7+out_h2
    out_o1 = sigmoid(in_o1)
    in_o2 = w6*out_h1 + w8*out_h2
    out_o2 = sigmoid(in_o2)

    #均方误差error
    error = (1/2)*(out_o1 - y1)**2 + (1/2)*(out_o2 - y2)**2

    #输出每一层的输出值和均方误差值
    print('正向计算，隐藏层h1,h2:',out_h1,5,out_h2,5)
    print('正向计算，预测值o1,o2:',out_o1,5,out_o2,5)
    print('均方误差(损失函数):',error)

    return out_o1,out_o2,out_h1,out_h2

#反向传播
def back_propagate(out_o1,out_o2,out_h1,out_h2):
    #均方误差
    d_o1 = out_o1 - y1
    d_o2 = out_o2 - y2

    #权重更新  第二层
    d_w5 = d_o1 * out_o1 * (1-out_o1) * out_h1
    d_w6 = d_o2 * out_o2 * (1-out_o2) * out_h1
    d_w7 = d_o1 * out_o1 * (1-out_o1) * out_h2
    d_w8 = d_o2 * out_o2 * (1-out_o2) * out_h2

    #权重更新 第一层
    d_w1 = (d_o1*out_o1*(1-out_o1)*w5 + d_o2*out_o2*(1-out_o2)*w6)*out_h1*(1-out_h1)*x1
    d_w2 = (d_o1*out_o1*(1-out_o1)*w7 + d_o2*out_o2*(1-out_o2)*w8)*out_h2*(1-out_h2)*x1
    d_w3 = (d_o1*out_o1*(1-out_o1)*w5 + d_o2*out_o2*(1-out_o2)*w6)*out_h1*(1-out_h1)*x2
    d_w4 = (d_o1*out_o1*(1-out_o1)*w7 + d_o2*out_o2*(1-out_o2)*w8)*out_h2*(1-out_h2)*x2

    print('w的梯度:',w1,w2,w3,w4,w5,w6,w7,w8)
    return d_w1,d_w2,d_w3,d_w4,d_w5,d_w6,d_w7,d_w8

#步长
def update_w(w1,w2,w3,w4,w5,w6,w7,w8,d_w1,d_w2,d_w3,d_w4,d_w5,d_w6,d_w7,d_w8):
    step = 1
    w1 = w1 - step * d_w1
    w2 = w2 - step * d_w2
    w3 = w3 - step * d_w3
    w4 = w4 - step * d_w4
    w5 = w5 - step * d_w5
    w6 = w6 - step * d_w6
    w7 = w7 - step * d_w7
    w8 = w8 - step * d_w8

    return w1,w2,w3,w4,w5,w6,w7,w8

if __name__=='__main__':
    print('权值w1-w8为:',w1,w2,w3,w4,w5,w6,w7,w8)

    for i in range(10):
        print('==第'+str(i+1)+'轮==')
        #前向传播
        out_o1,out_o2,out_h1,out_h2 = forward_propagate(x1,x2,y1,y2,w1,w2,w3,w4,w5,w6,w7,w8)
        #反向传播
        d_w1,d_w2,d_w3,d_w4,d_w5,d_w6,d_w7,d_w8 =back_propagate(out_o1,out_o2,out_h1,out_h2)

        #更新步长
        w1,w2,w3,w4,w5,w6,w7,w8 = update_w(w1,w2, w3, w4, w5, w6, w7, w8,
                                           d_w1, d_w2, d_w3, d_w4, d_w5, d_w6, d_w7, d_w8)

        print('更新后的权值w:',w1,w2,w3,w4,w5,w6,w7,w8)

结果：

随机生成的初始值：(注：这个多余的5是我不小心打上去的，没有任何实际意义。对不起请见谅)

训练1轮：

训练10轮：

训练100轮：

训练1000轮：

训练5000轮：

对比可得，随机生成的权重进行训练和使用特定权重数值训练的效果类似，在相同的训练次数和步数下得到的均方误差值和输出值o1,o2的结果几乎一样。

8.权值w1-w8初始值换为0，观察、总结并陈述。

pytorch代码：

import torch

x=[0.5,0.3]
y=[0.23,-0.07]
print('输入值x0,x1:',x[0],x[1])
print('输出值y0,y1:',y[0],y[1])

w=[torch.Tensor([0.0]),torch.Tensor([-0.0]),torch.Tensor([0.0]),torch.Tensor([0.0]),
   torch.Tensor([0.0]),torch.Tensor([-0.0]),torch.Tensor([-0.0]),torch.Tensor([0.0])]

for i in range(0,8):
    #设置张量的属性为True，意味着这个张量在反向传播时需要计算其梯度
    w[i].requires_grad = True

print('权重w0-w7:')
for i in range(0,8):
    print(w[i].data,end=' ')

#前向传播
def forward_propagate(x):
    in_h1 = w[0] * x[0] + w[2] * x[1]
    out_h1 = torch.sigmoid(in_h1)
    in_h2 = w[1] * x[0] + w[3] * x[1]
    out_h2 = torch.sigmoid(in_h2)

    in_o1 = w[4] * out_h1 + w[6] * out_h2
    out_o1 = torch.sigmoid(in_o1)
    in_o2 = w[5] * out_h1 + w[7] * out_h2
    out_o2 = torch.sigmoid(in_o2)

    print("正向计算，隐藏层h1 ,h2：", end="")
    print(out_h1.data, out_h2.data)
    print("正向计算，预测值o1 ,o2：", end="")
    print(out_o1.data, out_o2.data)

    return out_o1, out_o2

#损失函数
def loss(x,y):
    y_pre = forward_propagate(x)
    loss_mse = (1/2)*(y_pre[0]-y[0])**2 + (1/2)*(y_pre[1]-y[1])**2
    print("损失函数(均方误差)：", loss_mse.item())
    return loss_mse

if __name__ == "__main__":
    for k in range(5):
        print("\n==第" + str(k+1) + "轮==")
        l = loss(x, y)  #求Loss+前向传播
        l.backward()  # 反向传播，求出计算图中所有梯度存入w中. 自动求梯度，不需要人工编程实现。
        print("w的梯度: ", end="  ")
        for i in range(0, 8):
            print(round(w[i].grad.item(), 2), end="  ")  # 查看梯度
        step = 1  # 步长
        for i in range(0, 8):
            w[i].data = w[i].data - step * w[i].grad.data  # 更新权值
            w[i].grad.data.zero_()  # 注意：将w中所有梯度清零
        print("\n更新后的权值w:")
        for i in range(0, 8):
            print(w[i].data, end="  ")

运行结果：
训练第1轮：

第5轮：

第100轮：

第1000轮：

观察结果，并与之前的结果进行对比，发现最初的几轮开始，损失函数的值下降的比较快，到了1000轮时和之前的结果几乎相似，只有微微微小的差别。这说明w的初始值对于前馈神经网络模型训练结果的影响不大，仅仅对收敛速度有些影响。

9.全面总结反向传播原理和编码实现，认真写心得体会。

.在机器学习中就学习了前向传播和反向传播的理论，手推公式和过程理解还是比较好理解的。我的薄弱项就是上机敲代码实现。通过这次的博客，我遇到了各种各样的问题，最后都是通过参照学长博客、文心一言、询问同学、看老师博客、在jupyter调试代码解决的，虽然有的问题还是模模糊糊，没有弄懂。但是对于前向传播和反向传播的大体代码也有了思路，自己花费了一定的时间去手敲代码，痛苦又难熬，但是真正运行成功后，会产生很大的满足感。

.代码的整体思路都了解了。但是敲写代码框架不是最耗时耗精力的，修改bug，调试代码才是最困难最折磨人的环节！！尤其是我对pytorch框架不熟悉，对pytorch中的张量Tensor认知不透彻，导致我在数据类型为张量的设置和运行上遇到了很多error。改来改去，最后莫名其妙的可以运行成功了(哭笑不得) 今后还是要加强pytorch框架的练习！！

.numpy方法我也没有掌握得太好，遇到了一些问题，又修修改改、缝缝补补的写好了，里面的方法太多，需要随时打开python官方文档和CSDN博客查询。具体遇到的报错类型和信息我也融合的写在前文中了。

.还有一个我未解决的问题(询问了上届人工智能专业的大佬学长，他也没有弄懂)：在pytorch框架的代码中，为何会出现Tensor的值变为NaN(Not a Number)?为什么需要在梯度下降的函数中将更新后的权重w进行清零？

.真实值y2的值为-0.07，但是我用numpy和pytorch代码做完反向传播训练后，发现o2(输出值)为正数，并且数值上比0.07还要小一位。问了问其他的几个同学，同学说她们求出来的o2值也是正数。这说明我的代码还是存在问题的，也或者是因为现在我们接触到的激活函数类型不多，sigmoid函数对于负数的处理特性存在缺陷。

.遇到的很多问题我都写进了前文，需要自己多回顾过程。在学习完深度学习后，希望自己可以给出合理的解决方案，使我的博客更加完善。

在此鸣谢：

【人工智能导论：模型与算法】MOOC 8.3 误差后向传播(BP) 例题编程验证 - HBU_DAVID - 博客园 (cnblogs.com)

【人工智能导论：模型与算法】MOOC 8.3 误差后向传播(BP) 例题编程验证 Pytorch版本 - HBU_DAVID - 博客园 (cnblogs.com)

【人工智能导论：模型与算法】MOOC 8.3 误差后向传播(BP) 例题【第三版】 - HBU_DAVID - 博客园 (cnblogs.com)

深入理解ReLU函数（ReLU函数的可解释性）-CSDN博客

NNDL 作业3：分别使用numpy和pytorch实现FNN例题_。没有用n,nly,kkn3_笼子里的薛定谔的博客-CSDN博客

DL Homework 4_熬夜患者的博客-CSDN博客

你可能感兴趣的:(深度学习,神经网络,人工智能,深度学习)

为了在未来的人工智能世界中取得成功，学生们必须学习人类写作的优点睿邸管家
澳大利亚各地的学生在新学年开始使用铅笔、钢笔和键盘学习写字。在工作场所，机器也在学习写作，如此有效，几年之内，它们可能会写得比人类更好。有时它们已经做到了，就像Grammarly这样的应用程序所展示的那样。当然，人类现在的日常写作可能很快就会由具有人工智能(AI)的机器来完成。手机和电子邮件软件常用的预测文本是无数人每天都在使用的一种人工智能写作形式。据AI行业研究机构称，到2022年，人工智能及
人工智能应用研究快讯 2021-11-30 峰谷皆平
[HTML]ArtificialIntelligenceforSkinCancerDetection:ScopingReviewATakiddin,JSchneider,YYang,AAbd-Alrazaq...JournalofMedicalInternet...,2021ABSTACT:Background:Skincanceristhemostcommoncancertypeaffectin
机器学习必备数学与编程指南：从入门到精通 a小胡哦机器学习基础机器学习人工智能
一、机器学习核心数学基础1.线性代数（神经网络的基础）必须掌握：矩阵运算（乘法、转置、逆）向量空间与线性变换特征值分解与奇异值分解(SVD)为什么重要：神经网络本质就是矩阵运算学习技巧：用NumPy实际操作矩阵运算2.概率与统计（模型评估的关键）核心概念：条件概率与贝叶斯定理概率分布（正态、泊松、伯努利）假设检验与p值应用场景：朴素贝叶斯、A/B测试3.微积分（优化算法的基础）重点掌握：导数与偏导
从振动信号到精准预警：AI 如何重塑工业设备健康管理？缘华工业智维人工智能计算机视觉边缘计算信息与通信
在智能制造浪潮席卷全球的当下，工业生产正经历着从传统模式向智能化、数字化转型的深刻变革。在这场变革中，AI驱动的振动分析技术犹如一颗璀璨新星，成为工业设备可靠运行的“健康卫士”。它通过在设备关键部位部署振动传感器，如同医生为患者听诊般实时采集设备运行时的振动信号，再借助强大的人工智能算法对这些“工业脉搏”进行深度解析，从而实现对工业设备从故障预警到寿命预测的全周期精准守护。一、AI振动分析：设备状
AI 生成虚拟宠物：24 小时陪你聊天解闷大力出奇迹985 人工智能宠物
本文围绕AI生成虚拟宠物展开，介绍这类依托人工智能技术诞生的虚拟伙伴，能实现24小时不间断陪伴聊天，为人们解闷。文中详细阐述其技术基础，包括自然语言处理、机器学习等；分析多样功能，如个性化互动、情绪回应等；探讨在独居人群、压力大者等不同群体中的应用场景，最后总结其为人们生活带来的积极影响及未来发展潜力，展现AI虚拟宠物在陪伴领域的独特价值。一、AI生成虚拟宠物的诞生背景与技术基石在快节奏的现代社会
GPT-4 在 AIGC 中的微调技巧：让模型更懂你的需求 AIGC应用创新大全 AI人工智能与大数据应用开发 MCP&Agent 云算力网络 AIGC ai
GPT-4在AIGC中的微调技巧：让模型更懂你的需求关键词：GPT-4、AIGC、模型微调、监督学习、指令优化、过拟合预防、个性化生成摘要：AIGC（人工智能生成内容）正在重塑内容创作行业，但通用的GPT-4模型可能无法精准匹配你的垂直需求——比如写电商爆款文案时总“跑题”，或生成技术文档时专业术语不够。本文将用“教小朋友学画画”的通俗类比，从微调的底层逻辑讲到实战技巧，带你掌握让GPT-4“更懂
神经形态计算如何突破冯·诺依曼架构限制？ AI算力网络与通信 AI人工智能与大数据技术 AI算力网络与通信原理 AI人工智能大数据架构架构 ai
神经形态计算如何突破冯·诺依曼架构限制？关键词：神经形态计算、冯·诺依曼架构、内存墙、存算一体、脉冲神经网络、类脑芯片、低功耗计算摘要：本文将从“冯·诺依曼架构的前世今生”讲起，用“图书馆管理员搬书”的生活案例类比其核心矛盾，再通过“人脑神经元工作模式”的比喻引入神经形态计算的核心原理。我们将一步步拆解冯·诺依曼架构的三大限制（内存墙、高功耗、非结构化数据处理弱），并对应解析神经形态计算的三大突破
AIGC内容生成实战：如何用ChatGPT+DALL·E打造高转化内容 AI大模型应用工坊 AI大模型开发实战 AIGC chatgpt ai
AIGC内容生成实战：如何用ChatGPT+DALL·E打造高转化内容关键词：AIGC、ChatGPT、DALL·E、内容生成、高转化营销、多模态协同、提示词工程摘要：随着AIGC（人工智能生成内容）技术的爆发式发展，ChatGPT（文本生成）与DALL·E（图像生成）的组合已成为内容创作领域的“黄金搭档”。本文将深度解析二者的协同原理，结合实战案例演示从需求分析到内容落地的全流程，并揭示提升内容
数据分析领域中AI人工智能的发展前景展望 AI大模型应用工坊 AI大模型开发实战数据分析人工智能数据挖掘 ai
数据分析领域中AI人工智能的发展前景展望关键词：数据分析、人工智能、机器学习、深度学习、数据挖掘、预测分析、自动化摘要：本文深入探讨了人工智能在数据分析领域的发展现状和未来趋势。我们将从核心技术原理出发，分析AI如何改变传统数据分析范式，详细讲解机器学习算法在数据分析中的应用，并通过实际案例展示AI驱动的数据分析解决方案。文章还将探讨行业应用场景、工具生态以及未来发展面临的挑战和机遇，为数据分析师
AI人工智能中的数据挖掘：提升智能决策能力
AI人工智能中的数据挖掘：提升智能决策能力关键词：数据挖掘、人工智能、机器学习、智能决策、数据分析、特征工程、模型优化摘要：本文深入探讨了数据挖掘在人工智能领域中的核心作用，重点分析了如何通过数据挖掘技术提升智能决策能力。文章从基础概念出发，详细介绍了数据挖掘的关键算法、数学模型和实际应用场景，并通过Python代码示例展示了数据挖掘的全流程。最后，文章展望了数据挖掘技术的未来发展趋势和面临的挑战
【三桥君】MCP中台，究竟如何实现多模型、多渠道、多环境的统一管控？如何以MCP为核心设计AI应用架构？三桥君《三桥君 MCP落地方法论》《三桥君 AI大模型落地方法论》#《三桥君 AI产品方法论》人工智能 AI产品经理 MCP API 三桥君系统架构 llama
你好，我是✨三桥君✨本文介绍>>一、引言随着人工智能技术的快速发展，越来越多的企业开始引入大语言模型（LLM）以提升用户体验和运营效率。然而，如何高效、稳定地将这些AI能力落地到生产环境呢？传统的系统架构往往难以应对AI应用的高并发、低延迟和灵活扩展需求，因此，从整体架构角度设计AI应用架构显得尤为重要。本文三桥君将深入探讨以MCP为核心的AI应用架构，并分析多种部署方式的优劣势，为企业在AI落地
深入理解卷积神经网络（CNN）与循环神经网络（RNN） CodeJourney. cnn rnn 人工智能
在当今的人工智能领域，神经网络无疑是最为璀璨的明珠之一。而卷积神经网络（ConvolutionalNeuralNetworks，CNN）和循环神经网络（RecurrentNeuralNetworks，RNN）作为神经网络家族中的重要成员，各自有着独特的架构和强大的功能，广泛应用于众多领域。本文将深入探讨这两种神经网络的原理、特点以及应用场景，为对深度学习感兴趣的读者提供全面的知识讲解。一、卷积神经
今年校招竞争真激烈 12_05
程序员满大街，都要找不到工作了。即使人工智能满大街，我也后悔当初没学机器学习，后悔当初没学Java。C++真难找工作。难道毕了业就失业吗？好担心！
时序预测 | MATLAB实现贝叶斯优化CNN-GRU时间序列预测(股票价格预测) Matlab机器学习之心 matlab cnn gru
✅作者简介：热爱数据处理、数学建模、仿真设计、论文复现、算法创新的Matlab仿真开发者。更多Matlab代码及仿真咨询内容点击主页：Matlab科研工作室个人信条：格物致知，期刊达人。内容介绍股票价格预测一直是金融领域一个极具挑战性的课题。其内在的非线性、随机性和复杂性使得传统的预测方法难以取得令人满意的效果。近年来，深度学习技术，特别是卷积神经网络(CNN)和门控循环单元(GRU)的结合，为时
时序预测 | MATLAB实现BO-CNN-GRU贝叶斯优化卷积门控循环单元时间序列预测 Matlab算法改进和仿真定制工程师 matlab cnn gru
✅作者简介：热爱数据处理、数学建模、算法创新的Matlab仿真开发者。更多Matlab代码及仿真咨询内容点击：Matlab科研工作室个人信条：格物致知。内容介绍时间序列预测在各个领域都具有重要的应用价值，例如金融市场预测、气象预报、交通流量预测等。准确地预测未来趋势对于决策制定至关重要。近年来，深度学习技术在时间序列预测领域取得了显著进展，其中卷积神经网络(CNN)和门控循环单元(GRU)由于其强
Python Gradio：实现交互式图像编辑 PythonAI编程架构实战家 Python编程之道 python 开发语言 ai
PythonGradio：实现交互式图像编辑关键词：Python,Gradio,交互式图像编辑,计算机视觉,深度学习,图像处理,Web应用摘要：本文将深入探讨如何使用Python的Gradio库构建交互式图像编辑应用。我们将从基础概念开始，逐步介绍Gradio的核心功能，并通过实际代码示例展示如何实现各种图像处理功能。文章将涵盖图像滤镜应用、对象检测、风格迁移等高级功能，同时提供完整的项目实战案例
如何运用深度学习打造高效AI人工智能系统 AI智能探索者 AI Agent 智能体开发实战人工智能深度学习 ai
如何运用深度学习打造高效AI人工智能系统关键词：深度学习、AI系统、神经网络、模型优化、实战开发摘要：本文将从深度学习的核心概念出发，结合生活实例和代码实战，系统讲解如何构建高效AI系统。我们会拆解数据准备、模型设计、训练优化、部署落地的全流程，揭秘“数据-模型-训练-推理”的协同机制，并通过具体案例演示从0到1开发AI系统的关键技巧，帮助开发者掌握打造高效AI系统的底层逻辑。背景介绍目的和范围在
非欧空间计算加速：图神经网络与微分几何计算的GPU优化（流形数据的内存布局优化策略）九章云极AladdinEdu 空间计算神经网络人工智能 gpu算力算法 java 开发语言
一、非欧空间计算的革命性意义与核心挑战在三维形状分析、社交网络建模、分子动力学模拟等领域，非欧几里得空间数据（流形数据）的处理正推动人工智能技术向更复杂的几何结构迈进。传统欧式空间优化方法在处理流形数据时面临根本性局限：黎曼度量导致距离计算失效、局部坐标系动态变化引发内存访问模式混乱、曲率变化影响并行计算效率。本文提出基于分块流形存储（BlockedManifoldStorage,BMS）与层次化
响应式编程实践：Spring Boot WebFlux构建高性能非阻塞服务 fanxbl957 Web spring boot 后端 java
博主介绍：Java、Python、js全栈开发“多面手”，精通多种编程语言和技术，痴迷于人工智能领域。秉持着对技术的热爱与执着，持续探索创新，愿在此分享交流和学习，与大家共进步。全栈开发环境搭建运行攻略：多语言一站式指南(环境搭建+运行+调试+发布+保姆级详解)感兴趣的可以先收藏起来，希望帮助更多的人响应式编程实践：SpringBootWebFlux构建高性能非阻塞服务一、引言在当今数字化时代，互
企业级RAG的数据方案选择 - 向量数据库、图数据库和知识图谱南七小僧 AI技术产品经理网站开发人工智能数据库知识图谱人工智能
如何为企业RAG选择合适的数据存储方式摘要:本文讨论了矢量数据库、图数据库和知识图谱在解决信息检索挑战方面的重要性，特别是针对企业规模的检索增强生成（RAG）。看看海外人工智能企业Writer是如何利用知识图谱增强企业级RAG。要点概要：矢量数据库高效存储数据，但缺乏上下文和关联信息。图数据库优先考虑数据点之间的关系，受益于关系结构。知识图谱在语义存储方面表现出色，由于其能够编码丰富的上下文信息，
【人工智能入门必看的最全Python编程实战（1）】 DFCED 人工智能 python 开发语言深度学习找工作就业
--------------------------------------------------------------------------------------------------------------------1.AIGC未来发展前景未完持续…1.1人工智能相关科研重要性拥有一篇人工智能科研论文及专利软著竞赛是保研考研留学深造以及找工作的关键门票！！！拥有一篇人工智能科研论文
基于深度学习的目标检测算法综述：从RCNN到YOLOv13，一文看懂十年演进！人工智能教程深度学习目标检测算法人工智能自动驾驶 YOLO 机器学习
一、引言：目标检测的十年巨变2012年AlexNet拉开深度学习序幕，2014年RCNN横空出世，目标检测从此进入“深度时代”。十年间，算法从两阶段到单阶段，从Anchor-base到Anchor-free，从CNN到Transformer，从2D到3D，从监督学习到自监督学习，迭代速度之快令人目不暇接。本文将系统梳理基于深度学习的目标检测算法，带你全面了解技术演进、核心思想、代表算法、工业落地与
Baumer工业相机堡盟工业相机如何通过YoloV8深度学习模型实现不同水果的检测识别（C#代码，UI界面版）
Baumer工业相机堡盟工业相机如何通过YoloV8深度学习模型实现不同水果的检测识别（C#代码，UI界面版））工业相机使用YoloV8模型实现不同水果的检测识别工业相机通过YoloV8模型实现不同水果的检测识别的技术背景在相机SDK中获取图像转换图像的代码分析工业相机图像转换Bitmap图像格式和Mat图像重要核心代码本地文件图像转换Bitmap图像格式和Mat图像重要核心代码Mat图像导入Yo
2025毫米波雷达技术白皮书：智能汽车与物联网的感知核心
随着人工智能、物联网（IoT）和智能汽车产业的迅猛发展，毫米波雷达技术正成为感知领域的核心驱动力。毫米波雷达凭借其高精度、全天候和强抗干扰能力，广泛应用于智能汽车的自动驾驶、物联网的环境感知以及工业自动化。2025年，毫米波雷达技术在性能、应用场景和市场规模上都达到了一个全新的高度。本白皮书将深入探讨毫米波雷达技术的核心优势、发展趋势及其在智能汽车与物联网中的应用前景，同时推荐各大品牌的领先产品方
从零开始构建深度学习环境：基于Pytorch、CUDA与cuDNN的虚拟环境搭建与实践（适合初学者）荣华富贵8 程序员的知识储备2 程序员的知识储备3 深度学习 pytorch 人工智能
摘要：深度学习正在引领人工智能技术的革新，而对于初学者来说，正确搭建深度学习环境是迈向AI研究与应用的第一步。本文将为读者提供一套详尽的教程，指导如何在本地环境中搭建Pytorch、CUDA与cuDNN，以及如何利用Anaconda和PyCharm进行高效开发。内容涵盖从环境配置、常见错误修正，到基础的深度学习模型构建及训练。我们旨在为深度学习零基础的入门者提供一个全面且易于理解的“保姆级”教程，
人工智能概念之九：深度学习概述
文章目录相关文章一、深度学习的定位：AI时代的基石技术1.1技术生态全景图1.2技术革命的催化剂二、深度学习的双面性：性能优势与技术挑战2.1技术优势全景扫描2.2技术挑战深度剖析三、技术演进时间轴：70年的厚积薄发四、主流框架生态对比五、未来演进方向相关文章人工智能概念之二：人工智能核心概念：网页链接一、深度学习的定位：AI时代的基石技术1.1技术生态全景图深度学习处于人工智能（AI）技术金字塔
基于AlexNet架构的卷积神经网络模型用于对胸部X光图像进行二分类（例如，诊断肺炎）
1.肺炎正常的胸部X线片描绘了清晰的肺部，图像中没有任何异常混浊的区域。正常的胸部X线片1.1细菌性肺炎临床表现细菌性肺炎通常由细菌引起，如肺炎链球菌、流感嗜血杆菌、肺炎克雷伯菌等。患者可能出现高热、寒战、咳嗽、咳痰（痰液可能呈脓性）、胸痛、呼吸困难等症状。影像学特征局灶性肺叶实变细菌性肺炎在影像学上常表现为肺叶或肺段的局灶性实变，即某一区域的肺组织因炎症而失去气体交换功能，呈现为高密度影。胸腔积
H800核心技术突破与行业应用实战智能计算研究中心其他
内容概要在人工智能技术持续迭代的背景下，H800芯片凭借自主架构优化与算力跃升，成为推动行业场景化落地的关键驱动力。本文将从技术路径、性能突破与行业应用三个维度，系统解析H800如何在高并发计算与低延时响应领域实现底层架构创新。首先聚焦其自主架构优化的核心技术路径，包括动态资源调度算法与异构计算单元的深度协同设计，揭示其在能效比与计算密度上的突破逻辑；进一步结合算力跃升的具体表现，探讨该芯片如何通
智慧建筑：科技引领房地产与建筑业的未来 RedPhoenix45
最新接入DeepSeek-V3模型，点击下载最新版本InsCodeAIIDE智慧建筑：科技引领房地产与建筑业的未来随着科技的飞速发展，人工智能（AI）和智能化工具正以前所未有的速度改变着各行各业。在房地产与建筑领域，这种变革尤为显著。从建筑设计到施工管理，再到物业管理，智能化技术正在重塑行业的每一个环节。本文将探讨如何利用先进的智能化工具提升房地产与建筑行业的效率，并介绍一款革命性的开发工具——它
学苑教育杂志《学苑教育》杂志社学苑教育编辑部2025年第21期目录 QQ296078736 人工智能
专题研究推进“教-学-评”一体化，打造小学语文高效课堂刘月兰;4-6教育管理新高考制度下普通高中生涯教育课程设计的研究霍亚贞;马玲;7-9课堂教学核心素养下小学数学深度学习课堂的构建策略康贵景;10-12“双减”背景下初中英语教学的课堂模式高燕;13-15小学低年级数学说理课堂构建策略玉洁;16-18基于法治观念培育的道法课项目式教学策略许静;19-21“双师课堂”在初中语文写作教学中的实践孙巧玲
windows下源码安装golang 616050468 golang安装 golang环境 windows
系统： 64位win7，开发环境：sublime text 2， go版本： 1.4.1 1. 安装前准备(gcc, gdb, git) golang在64位系
redis批量删除带空格的key bylijinnan redis
redis批量删除的通常做法： redis-cli keys "blacklist*" | xargs redis-cli del 上面的命令在key的前后没有空格时是可以的，但有空格就不行了： $redis-cli keys "blacklist*" 1) "blacklist:12: [email protected]
oracle正则表达式的用法 0624chenhong oracle 正则表达式
方括号表达示方括号表达式描述 [[:alnum:]] 字母和数字混合的字符 [[:alpha:]] 字母字符 [[:cntrl:]] 控制字符 [[:digit:]] 数字字符 [[:graph:]] 图像字符 [[:lower:]] 小写字母字符 [[:print:]] 打印字符 [[:punct：]] 标点符号字符 [[:space:]]
2048源码(核心算法有，缺少几个anctionbar，以后补上) 不懂事的小屁孩 2048
2048游戏基本上有四部分组成， 1：主activity，包含游戏块的16个方格，上面统计分数的模块 2：底下的gridview，监听上下左右的滑动，进行事件处理， 3：每一个卡片，里面的内容很简单，只有一个text，记录显示的数字 4：Actionbar，是游戏用重新开始，设置等功能(这个在底下可以下载的代码里面还没有实现) 写代码的流程 1：设计游戏的布局，基本是两块，上面是分
jquery内部链式调用机理换个号韩国红果果 JavaScript jquery
只需要在调用该对象合适(比如下列的setStyles)的方法后让该方法返回该对象（通过this 因为一旦一个函数称为一个对象方法的话那么在这个方法内部this（结合下面的setStyles）指向这个对象） function create(type){ var element=document.createElement(type); //this=element;
你订酒店时的每一次点击背后都是NoSQL和云计算蓝儿唯美 NoSQL
全球最大的在线旅游公司Expedia旗下的酒店预订公司，它运营着89个网站，跨越68个国家，三年前开始实验公有云，以求让客户在预订网站上查询假期酒店时得到更快的信息获取体验。云端本身是用于驱动网站的部分小功能的，如搜索框的自动推荐功能，还能保证处理Hotels.com服务的季节性需求高峰整体储能。 Hotels.com的首席技术官Thierry Bedos上个月在伦敦参加“2015 Clou
java笔记1 a-john java
1，面向对象程序设计（Object-oriented Propramming，OOP）：java就是一种面向对象程序设计。 2，对象：我们将问题空间中的元素及其在解空间中的表示称为“对象”。简单来说，对象是某个类型的实例。比如狗是一个类型，哈士奇可以是狗的一个实例，也就是对象。 3，面向对象程序设计方式的特性： 3.1 万物皆为对象。
C语言 sizeof和strlen之间的那些事 C/C++软件开发求职面试题必备考点（一） aijuans C/C++求职面试必备考点
找工作在即，以后决定每天至少写一个知识点，主要是记录，逼迫自己动手、总结加深印象。当然如果能有一言半语让他人收益，后学幸运之至也。如有错误，还希望大家帮忙指出来。感激不尽。后学保证每个写出来的结果都是自己在电脑上亲自跑过的，咱人笨，以前学的也半吊子。很多时候只能靠运行出来的结果再反过来
程序员写代码时就不要管需求了吗？ asia007 程序员不能一味跟需求走
编程也有2年了，刚开始不懂的什么都跟需求走，需求是怎样就用代码实现就行，也不管这个需求是否合理，是否为较好的用户体验。当然刚开始编程都会这样，但是如果有了2年以上的工作经验的程序员只知道一味写代码，而不在写的过程中思考一下这个需求是否合理，那么，我想这个程序员就只能一辈写敲敲代码了。我的技术不是很好，但是就不代
Activity的四种启动模式百合不是茶 android 栈模式启动 Activity的标准模式启动栈顶模式启动单例模式启动
android界面的操作就是很多个activity之间的切换,启动模式决定启动的activity的生命周期 ; 启动模式xml中配置 <activity android:name=".MainActivity" android:launchMode="standard&quo
Spring中@Autowired标签与@Resource标签的区别 bijian1013 java spring @Resource @Autowired @Qualifier
Spring不但支持自己定义的@Autowired注解，还支持由JSR-250规范定义的几个注解，如：@Resource、 @PostConstruct及@PreDestroy。 1. @Autowired @Autowired是Spring 提供的，需导入 Package:org.springframewo
Changes Between SOAP 1.1 and SOAP 1.2 sunjing Changes Enable SOAP 1.1 SOAP 1.2
JAX-WS SOAP Version 1.2 Part 0: Primer (Second Edition) SOAP Version 1.2 Part 1: Messaging Framework (Second Edition) SOAP Version 1.2 Part 2: Adjuncts (Second Edition) Which style of WSDL
【Hadoop二】Hadoop常用命令 bit1129 hadoop
以Hadoop运行Hadoop自带的wordcount为例， hadoop脚本位于/home/hadoop/hadoop-2.5.2/bin/hadoop，需要说明的是，这些命令的使用必须在Hadoop已经运行的情况下才能执行 Hadoop HDFS相关命令 hadoop fs -ls 列出HDFS文件系统的第一级文件和第一级
java异常处理（初级）白糖_ java DAO spring 虚拟机 Ajax
从学习到现在从事java开发一年多了，个人觉得对java只了解皮毛，很多东西都是用到再去慢慢学习，编程真的是一项艺术，要完成一段好的代码，需要懂得很多。最近项目经理让我负责一个组件开发，框架都由自己搭建，最让我头疼的是异常处理，我看了一些网上的源码，发现他们对异常的处理不是很重视，研究了很久都没有找到很好的解决方案。后来有幸看到一个200W美元的项目部分源码，通过他们对异常处理的解决方案，我终
记录整理-工作问题 braveCS 工作
1）那位同学还是CSV文件默认Excel打开看不到全部结果。以为是没写进去。同学甲说文件应该不分大小。后来log一下原来是有写进去。只是Excel有行数限制。那位同学进步好快啊。 2）今天同学说写文件的时候提示jvm的内存溢出。我马上反应说那就改一下jvm的内存大小。同学说改用分批处理了。果然想问题还是有局限性。改jvm内存大小只能暂时地解决问题，以后要是写更大的文件还是得改内存。想问题要长远啊
org.apache.tools.zip实现文件的压缩和解压，支持中文 bylijinnan apache
刚开始用java.util.Zip，发现不支持中文（网上有修改的方法，但比较麻烦）后改用org.apache.tools.zip org.apache.tools.zip的使用网上有更简单的例子下面的程序根据实际需求，实现了压缩指定目录下指定文件的方法 import java.io.BufferedReader; import java.io.BufferedWrit
读书笔记-4 chengxuyuancsdn 读书笔记
1、JSTL 核心标签库标签 2、避免SQL注入 3、字符串逆转方法 4、字符串比较compareTo 5、字符串替换replace 6、分拆字符串 1、JSTL 核心标签库标签共有13个，学习资料：http://www.cnblogs.com/lihuiyy/archive/2012/02/24/2366806.html 功能上分为4类： (1)表达式控制标签：out
[物理与电子]半导体教材的一个小问题 comsci 问题
各种模拟电子和数字电子教材中都有这个词汇-空穴书中对这个词汇的解释是; 当电子脱离共价键的束缚成为自由电子之后,共价键中就留下一个空位,这个空位叫做空穴我现在回过头翻大学时候的教材,觉得这个
Flashback Database --闪回数据库 daizj oracle 闪回数据库
Flashback 技术是以Undo segment中的内容为基础的，因此受限于UNDO_RETENTON参数。要使用flashback 的特性，必须启用自动撤销管理表空间。在Oracle 10g中， Flash back家族分为以下成员： Flashback Database， Flashback Drop，Flashback Query(分Flashback Query,Flashbac
简单排序:插入排序 dieslrae 插入排序
public void insertSort(int[] array){ int temp; for(int i=1;i<array.length;i++){ temp = array[i]; for(int k=i-1;k>=0;k--)
C语言学习六指针小示例、一维数组名含义，定义一个函数输出数组的内容 dcj3sjt126com c
# include <stdio.h> int main(void) { int * p; //等价于 int *p 也等价于 int* p; int i = 5; char ch = 'A'; //p = 5; //error //p = &ch; //error //p = ch; //error p = &i; //
centos下php redis扩展的安装配置3种方法 dcj3sjt126com redis
方法一 1.下载php redis扩展包代码如下复制代码 #wget http://redis.googlecode.com/files/redis-2.4.4.tar.gz 2 tar -zxvf 解压压缩包，cd /扩展包（进入扩展包然后运行phpize 一下是我环境中phpize的目录，/usr/local/php/bin/phpize (一定要
线程池(Executors) shuizhaosi888 线程池
在java类库中，任务执行的主要抽象不是Thread，而是Executor，将任务的提交过程和执行过程解耦 public interface Executor { void execute(Runnable command); } public class RunMain implements Executor{ @Override pub
openstack 快速安装笔记 haoningabc openstack
前提是要配置好yum源版本icehouse，操作系统redhat6.5 最简化安装，不要cinder和swift 三个节点 172 control节点keystone glance horizon 173 compute节点nova 173 network节点neutron control /etc/sysctl.conf net.ipv4.ip_forward =
从c面向对象的实现理解c++的对象（二） jimmee C++面向对象虚函数
1. 类就可以看作一个struct，类的方法，可以理解为通过函数指针的方式实现的，类对象分配内存时，只分配成员变量的，函数指针并不需要分配额外的内存保存地址。 2. c++中类的构造函数，就是进行内存分配(malloc)，调用构造函数 3. c++中类的析构函数，就时回收内存(free) 4. c++是基于栈和全局数据分配内存的，如果是一个方法内创建的对象，就直接在栈上分配内存了。专门在
如何让那个一个div可以拖动 lingfeng520240 html
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml
第10章高级事件（中） onestopweb 事件
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
计算两个经纬度之间的距离 roadrunners 计算纬度 LBS 经度距离
要解决这个问题的时候，到网上查了很多方案，最后计算出来的都与百度计算出来的有出入。下面这个公式计算出来的距离和百度计算出来的距离是一致的。 /** * * @param longitudeA * 经度A点 * @param latitudeA * 纬度A点 * @param longitudeB *
最具争议的10个Java话题 tomcat_oracle java
1、Java8已经到来。什么！？ Java8 支持lambda。哇哦，RIP Scala！　　随着Java8 的发布，出现很多关于新发布的Java8是否有潜力干掉Scala的争论，最终的结论是远远没有那么简单。Java8可能已经在Scala的lambda的包围中突围，但Java并非是函数式编程王位的真正觊觎者。　　2、Java 9 即将到来　　 Oracle早在8月份就发布
zoj 3826 Hierarchical Notation(模拟) 阿尔萨斯 rar
题目链接：zoj 3826 Hierarchical Notation 题目大意：给定一些结构体，结构体有value值和key值，Q次询问，输出每个key值对应的value值。解题思路：思路很简单，写个类词法的递归函数，每次将key值映射成一个hash值，用map映射每个key的value起始终止位置，预处理完了查询就很简单了。这题是最后10分钟出的，因为没有考虑value为{}的情

[23-24 秋学期] NNDL 作业4 前馈神经网络 HBU

目录：

作业内容:

1. 过程推导，了解BP原理

2.数值计算-手动计算，掌握细节

3. 代码实现 numpy手推+pytorch实现

5.损失函数MSE改变为交叉熵，观察、总结并陈述。

6.改变步长，训练次数，观察、总结并陈述。

7.权值w1-w8初始值换为随机数，对比“指定权值”的结果，观察、总结并陈述。

8.权值w1-w8初始值换为0，观察、总结并陈述。

9.全面总结反向传播原理和编码实现，认真写心得体会。

你可能感兴趣的:(深度学习,神经网络,人工智能,深度学习)