Artprog

机器学习笔记07：神经网络的反向传播(Backpropagation)

——–本文中除了在图片下方标记了出处的图片，均为原创，转载请注明出处——–

上一篇文章《机器学习笔记06：神经网络的表示(Neural Networks-Representation)》大概描述了神经网络的起源、结构、表示、工作方法及一些应用。今天这篇文章对应 Coursera 上的Stanford机器学习课程的week05。主要的内容是神经网络的学习，包括梯度下降、反向传播等。

1.误差函数(Cost Function)

线性回归和逻辑回归中都用到了误差函数来衡量模型的准确度，当然神经网络也不例外。先来看一个神经网络的图片，这里需要引入一些标记，以便于后面的描述。

机器学习笔记07：神经网络的反向传播(Backpropagation)_第1张图片

本图片属于Stanford机器学习课程，转载请注明出处
对于神经网络，有如下几个记号：

Notation	Representation
{(x(1),y(1)),(x(2),y(2)),...,(x(m),y(m)),}	training set (训练集)
L	total no. of layers in network (网络的层数)
Sl	no. of units(not counting bias unit) in layer l (第 l 层的单元数，不算偏置单元)

对于二元分类问题， y=0 or 1 。输出单元也只有一个。即 SL=1 （最后一层只有一个单元）；对于多类分类问题（类数大于2），若类数为 K ，则 y∈RK 。如上图的四类分类问题中，有

y = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ 1000 ⎤ ⎦ ⎥ ⎥ ⎥ ⎥, ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ 0100 ⎤ ⎦ ⎥ ⎥ ⎥ ⎥, ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ 0010 ⎤ ⎦ ⎥ ⎥ ⎥ ⎥, ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ 0001 ⎤ ⎦ ⎥ ⎥ ⎥ ⎥

输出层（最后一层）的单元数量也为

K 。

现在来看误差函数(Cost Function)。先来回顾一下逻辑回归中的误差函数：

J (θ) = - 1 m \sum i = 1 m [y (i) log (h θ (x (i))) + (1 - y (i)) log (1 - h θ (x (i)))] + λ 2 m \sum j = 1 n θ 2 j

其中第一项是原来的误差函数，第二项是惩罚项。

现在来看看神经网络的误差函数。首先需要知道 hΘ(x)∈RK ， (hΘ(x))i=ithoutput 。神经网络的误差函数可以记为如下：

J (Θ) = - 1 m [\sum i = 1 m \sum k = 1 K y (i) k log (h Θ (x (i))) k + (1 - y (i) k) log (1 - h Θ (x (i))) k] + λ 2 m \sum l = 1 L - 1 \sum i = 1 S l \sum j = 1 S l + 1 (Θ (l) j i) 2

其中

K 为输出层的单元数，即类数。在计算误差的时候，需要将每一类都计算进去。后面的惩罚项是整个神经网络中所有的参数

Θ 的值之和。注意

i 是从 1 开始，因为我们通常不处理偏差项，就如在逻辑回归中不处理

θ0 一样。以上就是神经网络中误差函数。

2.反向传播算法(Backpropagation Algorithm)

反向传播在神经网络中是一个非常重要的部分。它的主要作用是最小化误差函数，也就是提高神经网络的准确性。和在线性回归和逻辑回归中一样，我们采用梯度下降(Gradient descent)法来最优化误差函数。上面已经说明了误差函数为：

J (Θ) = - 1 m \sum i = 1 m \sum k = 1 K [y (i) k log (h Θ (x (i))) k + (1 - y (i) k) log (1 - h Θ (x (i))) k] + λ 2 m \sum l = 1 L - 1 \sum i = 1 S l \sum j = 1 S l + 1 (Θ (l) j i) 2

在梯度下降的过程中，需要计算每个

Θ 的偏导数，并用来更新

Θ 自身：

Θ (l) j i = Θ (l) j i - \partial \partial Θ ( l ) j i J (Θ)

用一个样本来说明如何进行反向传播。假设神经网络如下图所示：

机器学习笔记07：神经网络的反向传播(Backpropagation)_第2张图片

本图片属于Stanford机器学习课程，转载请注明出处
假如有一个样本

(x,y) 首先，我们需要进行前向传播，也就是计算预测值：

a(1)=x

z(2)=Θ(1)a(1)

a(2)=g(z(2))adda(2)0

z(3)=Θ(2)a(2)

a(3)=g(z(3))adda(3)0

z(4)=Θ(3)a(3)

a(4)=g(z(4))=hΘ(x)
以上的式子都是经过向量化的，具体请参考上一篇文章《机器学习笔记06：神经网络的表示(Neural Networks-Representation)》。接下来，为了使用梯度下降法来最小化误差函数，我们需要计算出每个参数

Θ 偏导数，我们就得使用反向传播算法。

首先引入一个标记 δ(l)j ，它表示 l 层上节点(单元) j 的误差。例如，假设有一个四层的神经网络（ L=4 ）。每一层的误差可以表示如下：

δ (4) = a (4) j - y j = h Θ (x) j - y j

δ (3) = (Θ (3)) T δ (4) . * g' (z (3))

δ (2) = (Θ (2)) T δ (3) . * g' (z (2))

其中

.∗ 是Matlab中的用法，即矩阵中对应位置相乘。需要注意的是，第一层没有误差，因为输入值本身是通过测量或者其他方式得到的。我们有如下的反向传播公式：

δ (l) = (Θ (l)) T δ (l + 1) . * g' (z (l))

同时

g′(z(l)) 可写作：

g' (z (l)) = a (l) . * (1 - a (l))

所以

δ (l) = (Θ (l)) T δ (l + 1) . * a (l) . * (1 - a (l))

最后可以得到

\partial \partial Θ ( l ) i j = a (l) j δ (l + 1) i

注意，上面的这几个式子都忽略了正则化，之后会添加上去。下面对反向传播进行详细的推导。

3.反向传播公式推导

上面的一节，乱七八糟看不懂没关系，下面来仔细推导一下反向传播。

最重要的一点是思维要清晰。我们需要清楚地知道，训练一个神经网络是为了达到好的预测效果，所以我们要最小化神经网络的误差函数。而最小化误差需要用到梯度下降法，我们又知道，使用梯度下降来最优化参数 Θlij 必须求误差函数 J(Θ) 关于 Θlij 的偏导数。而反向传播的重点即在求 Θlij 的偏导数上。

步骤一：进行前向传播，计算出输入 a(1) 对应的输出 a(L)
其中 L 表示神经网络的层数，前向传播请参考上一篇文章《机器学习笔记06：神经网络的表示(Neural Networks-Representation)》。

步骤二：计算输出层的误差
假如有如下神经网络，其中黄色的线代表第二层的偏置单元 a(2)0 的参数 Θ(2)10 ：

机器学习笔记07：神经网络的反向传播(Backpropagation)_第3张图片

首先回顾一下神经网络的误差函数：

J (Θ) = - 1 m \sum i = 1 m \sum k = 1 K [y (i) k log (h Θ (x (i))) k + (1 - y (i) k) log (1 - h Θ (x (i))) k] + λ 2 m \sum l = 1 L - 1 \sum i = 1 S l \sum j = 1 S l + 1 (Θ (l) j i) 2

在这里，因为只把计算

Θ(2)10 关于误差函数

J(Θ) 的偏导数作为例子，并且不考虑后面的惩罚项，所以函数

J(Θ) 可以简化为：

J (Θ) = - \sum k = 1 2 [y (i) k log (h Θ (x (i))) k + (1 - y (i) k) log (1 - h Θ (x (i))) k]

其中上标

i 表示训练集的标签，即第几组样本，这里可以不予考虑，并且，我们只计算

Θ(2)10 的偏导数，只会用到输出节点

a(3)1 ，所以下标

k 也可以不予考虑，所以在这里我们可令：

C o s t (Θ) = - [y log (h Θ (x)) + (1 - y) log (1 - h Θ (x))]

再回顾一下，

hΘ(x)=g(z) ，且这里有

z(3)1=Θ(2)10a(2)0+Θ(2)11a(2)1+Θ(2)12a(2)2 。所以我们对参数

Θ(2)10 求偏导如下（ 注意：因为第一部分是对 Cost(Θ) 求关于 z(3)1 的偏导数，所以令函数 Cost(Θ) 中的 hΘ(x)=g(z) ）：

\partial \partial Θ ( 2 ) 10 J (Θ) = \partial C o s t ( Θ ) \partial z ( 3 ) 1 \cdot \partial z ( 3 ) 1 \partial Θ ( 2 ) 10

我们设

δlj 表示第

l 层上激励神经元节点

j 的误差，在这里设

δ31=∂Cost(Θ)∂z(3)1 。所以上面的式子可以继续推导如下：

\partial \partial Θ ( 2 ) 10 J (Θ) = δ 31 \cdot \partial z ( 3 ) 1 \partial Θ ( 2 ) 10 = \partial C o s t ( Θ ) \partial z ( 3 ) 1 \cdot a (2) 0 = a (2) 0 [- y 1 1 g ( z ( 3 ) 1 ) g' (z (3) 1) - (1 - y 1) 1 1 - g ( z ( 3 ) 1 ) (- g' (z (3) 1))] = a (2) 0 [- y 1 g ( z ( 3 ) 1 ) + 1 - y 1 1 - g ( z ( 3 ) 1 )] g' (z (3) 1) = a (2) 0 - y 1 + y 1 g ( z ( 3 ) 1 ) + g ( z ( 3 ) 1 ) - y 1 g ( z ( 3 ) 1 ) g ( z ( 3 ) 1 ) ( 1 - g ( z ( 3 ) 1 ) ) g' (z (3) 1) = a (2) 0 g ( z ( 3 ) 1 ) - y 1 g ( z ( 3 ) 1 ) ( 1 - g ( z ( 3 ) 1 ) ) g' (z (3) 1) (3 - 1)

好了，下面我们来计算一下

g′(z(3)1) 。首先，我们先来计算一下

g′(z) ，随后将

g′(z(3)1) 代入即可：

g' (z) = - (1 + e - z) - 2 \cdot \partial \partial z (1 + e - z) = - (1 1 + e - z) 2 \cdot e - z \cdot (- 1) = (1 1 + e - z) (1 1 + e - z) \cdot e - z = (1 1 + e - z) (e - z 1 + e - z) = (1 1 + e - z) (1 + e - z 1 + e - z - 1 1 + e - z) = g (z) (1 - g (z)) = a (3) 1 (1 - a (3) 1)

所以由上式可知

g′(z(3)1)=g(z(3)1)(1−g(z(3)1)) ，将此式代入 (3-1) 得：

\partial \partial Θ ( 2 ) 10 J (Θ) = a (2) 0 g ( z ( 3 ) 1 ) - y 1 g ( z ( 3 ) 1 ) ( 1 - g ( z ( 3 ) 1 ) ) g' (z (3) 1) = a (2) 0 g ( z ( 3 ) 1 ) - y 1 g ( z ( 3 ) 1 ) ( 1 - g ( z ( 3 ) 1 ) ) g (z (3) 1) (1 - g (z (3) 1)) = a (2) 0 (g (z (3) 1) - y 1) = (g (z (3) 1) - y 1) a (2) 0 = δ (3) 1 a (2) 0

上面的结果 δ(3)1a(2)0 即是误差函数 J(Θ) 关于参数 Θ(2)10 的偏导数。所以，最后一层（输出层）的节点（或称激励单元）

a(3)1 的误差为：

δ (3) 1 = \partial C o s t ( Θ ) \partial z ( 3 ) 1 = g (z (3) 1) - y 1 = a (3) 1 - y 1

其他输出层中激励单元的误差也同理可得：

δ (3) 2 = \partial C o s t ( Θ ) \partial z ( 3 ) 2 = g (z (3) 2) - y 2 = a (3) 2 - y 2

所以对于输出层有

K 个激励单元的

L 层神经网络，其输出层的误差为：

δ (L) = \sum j = 1 K δ (L) j = a (L) - y

好了，输出层的误差就讲到这里，下面我们要利用输出层的误差，进行反向传播，以求得每个参数

Θ(l)ij 的偏导数。

步骤三：将输出层的误差反向传播，计算每个参数 Θ(l)ij 的偏导数
这部分是最麻烦的地方，也是计算量最大的地方，但也是神经网络的精髓所在。我们以一个最简单的三层神经网络来做例子，其可推广到具有任意层数，且每层有任意个激励单元的神经网络。

假设有如下的神经网络：

机器学习笔记07：神经网络的反向传播(Backpropagation)_第4张图片

我们以求参数

Θ(1)11 的偏导数为例，来说明神经网络的反向传播。

由神经网络的前向传播可知：

a (2) 1 = g (z (2) 1) = g (a (1) 1 Θ (1) 11)

a (3) 1 = g (z (3) 1) = g (a (2) 1 Θ (2) 11)

所以：

a (3) 1 = g (g (a (1) 1 Θ (1) 11) \cdot Θ (2) 11) = g (g (z (2) 1) \cdot Θ (2) 11)

通过链式求导，我们可知：

\partial \partial Θ ( 1 ) 11 J (Θ) = \partial J ( Θ ) \partial z ( 3 ) 1 \cdot \partial z ( 3 ) 1 \partial z ( 2 ) 1 \cdot \partial z ( 2 ) 1 \partial Θ ( 1 ) 11

由 步骤二可知

∂J(Θ)∂z(3)1=δ(3)1 ，又因为

∂z(2)1∂Θ(1)11=a(1)1 ，所以有：

\partial \partial Θ ( 1 ) 11 J (Θ) = δ (3) 1 \cdot \partial z ( 3 ) 1 \partial z ( 2 ) 1 \cdot a (1) 1

即形象地来看，如下图所示：

机器学习笔记07：神经网络的反向传播(Backpropagation)_第5张图片

所以：

\partial \partial Θ ( 1 ) 11 J (Θ) = δ (3) 1 \cdot \partial z ( 3 ) 1 \partial z ( 2 ) 1 \cdot a (1) 1 = δ (3) 1 \cdot a (1) 1 \cdot \partial ( g ( z ( 2 ) 1 ) \cdot Θ ( 2 ) 11 ) \partial z ( 2 ) 1 = δ (3) 1 \cdot a (1) 1 \cdot g' (z (2) 1) \cdot Θ (2) 11 = [δ (3) 1 \cdot Θ (2) 11 \cdot g' (z (2) 1)] \cdot a (1) 1 = δ (2) 1 a (1) 1

故有：

δ (2) 1 = δ (3) 1 \cdot Θ (2) 11 \cdot g' (z (2) 1) = δ (3) 1 \cdot Θ (2) 11 \cdot g (z (2) 1) (1 - g (z (2) 1))

所以，推广到多层、每层多节点的神经网络，我们得到了反向传播的最重要的公式：

δ (l) = ((Θ (l)) T δ (l + 1)) . * g' (z (l)) = ((Θ (l)) T δ (l + 1)) . * g (z (l)) . * (1 - g (z (l))) = ((Θ (l)) T δ (l + 1)) . * a (l) . * (1 - a (l))

上面这个公式即是反向传播中的最重要的公式，其中

Θ(l) 是一个和前向传播中一样的矩阵，

δ(l+1) 是一个列向量。至于上面的公式中为什么要转置矩阵，请读者自己画一个三层网络图来模拟一下反向传播便一目了然了。另外需要注意的是，在反向传播过程中，每层中的偏置单元是没有误差的，因为它们始终为1。

结合神经网络的误差公式：

J (Θ) = - 1 m [\sum i = 1 m \sum k = 1 K y (i) k log (h Θ (x (i))) k + (1 - y (i) k) log (1 - h Θ (x (i))) k] + λ 2 m \sum l = 1 L - 1 \sum i = 1 S l \sum j = 1 S l + 1 (Θ (l) j i) 2

即可得到求任意参数

Θ(l)ij 的偏导数的公式：

\partial \partial Θ ( l ) i j J (Θ) = 1 m \sum t = 1 m δ (t) (l + 1) i a (t) (l) j + λ m \sum l = 1 L - 1 \sum i = 1 S l \sum j = 1 S l + 1 (Θ (l) j i)

其中

m 表示训练集的大小，

L 表示网络的层数，

SL 表示第

L 层网络中激励单元的数量。通过上式，我们就能对神经网络执行梯度下降法来训练网络了。

附：Coursera机器学习week6“神经网络的学习”编程作业代码

上面就是神经网络的反向传播，希望能帮助到大家。
如有错误，期望您能纠正，留言或者是e-mail：[email protected]

——–转载请注明出处——–

免费编程课程大汇总：从入门到精通的一站式资源大力出奇迹985 人工智能大数据
在数字化时代，编程已成为一项至关重要的技能，无论是为了职业发展还是个人兴趣，学习编程都极具价值。本文精心汇总了丰富的免费编程课程资源，涵盖从基础入门到精通的各个阶段。通过全面介绍如Coursera、edX等在线学习平台，Codecademy、freeCodeCamp等交互式学习网站，以及B站、网易云课堂等视频课程平台的免费课程，为编程学习者提供了一站式的资源指南，帮助读者轻松开启编程学习之旅，逐步
19.0-《超越感觉》-说服他人 SAM52
Becausethoughtfuljudgmentsdeservetobeshared,andthewaytheyarepresentedcanstronglyinfluencethewayothersreacttothem.因为经过深思熟虑的判断值得分享，而这些判断的呈现方式会强烈影响其他人对它们的反应。Bylearningtheprinciplesofpersuasionandapplying
2018年中南大学中英翻译某翁
参考：20180827235856533.jpg【1】机器学习理论表明，机器学习算法能从有限个训练集样本上得到较好的泛化【1】Machinelearningtheoryshowsthatmachinelearningalgorithmcangeneralizewellfromfinitetrainingsetsampleslimited有限的infinite无限的【2】这似乎违背了一些基本的逻辑准
如何在 Ubuntu 24.04 或 22.04 Linux 上安装和使用 NoMachine 山岚的运维笔记 Linux 运维及使用 linux ubuntu 运维 nomachine 远程连接
NoMachine是一款适用于Linux（Ubuntu）及其他支持的操作系统的远程桌面应用程序，允许用户通过本地或远程系统从世界任何地方控制计算机。它可以在低带宽连接下工作，被专业人士和家庭用户广泛使用。NoMachine的主要功能高性能远程访问跨平台兼容性易于使用，因为用户界面友好提供强大的加密协议，如SSH、SSL及其他安全标准支持远程文件传输和打印服务允许从远程计算机进行音频和视频流媒体传输
Python STL概念学习与代码实践体制教科书
本文还有配套的精品资源，点击获取简介：通过”py_stl_learning”项目，学习者可以使用Python实现和理解C++STL的概念，包括数据结构、算法、容器适配器、模板和泛型容器等。Python中的列表、集合、字典等数据结构与STL中的vector、set、map等类似，而Python的itertools和functools模块提供了STL风格的算法功能。Python通过其面向对象的特性以及
4.ESP32-按键实验老蒋精髓 microPython 4.ESP32
4.ESP32-按键实验"""按键实验2022.10.9"""frommachineimportPinimporttimekey1=Pin(4,Pin.IN,Pin.PULL_UP)#GPIO2，设置为输出模式，输入模式为Pin.IN,设置为上拉key2=Pin(5,Pin.IN,Pin.PULL_UP
每周一段仿写-181028 Zeroun_Ph
Theneedfornewlearningstylesdoesnotmeanignoringthewaysinthepast.TheInternetagebringssomechallengesnotseenbefore,mostobviouslyandmostworryinglyuselessinformationblast.Butfragmentationoflearningandtheine
考研长难句-1-29 EasyNetCN
Onfirstlearning,thiswasthesociallyconcernedchancellortryingtochangelivesforthebetter,completewith"reforms"toanobviouslyindulgentsystemthatdemandstoolittleeffortfromthenewlyunemployedtofindwork,andsubs
强化学习入门三（SARSA）第六五签算法模型算法人工智能
SARSA算法详解SARSA是强化学习中另一种经典的时序差分（TD）学习算法，与Q-Learning同属无模型（model-free）算法，但在更新策略上有显著差异。SARSA的名称来源于其更新公式中涉及的五个元素：状态（State）、动作（Action）、奖励（Reward）、下一状态（NextState）、下一动作（NextAction），即(S,A,R,S’,A’)。SARSA与Q-Lear
优化提示内容生成技术框架：提示工程架构师的坚实后盾
优化提示内容生成技术框架：提示工程架构师的坚实后盾引言背景：大语言模型时代的“提示瓶颈”当GPT-4、Claude3、Gemini等大语言模型（LLM）的参数规模突破万亿、上下文窗口扩展至百万token时，一个矛盾逐渐凸显：模型能力的跃升与提示质量的滞后，正在成为制约AI应用落地的核心瓶颈。2023年斯坦福大学的研究显示，在企业级LLM应用中，70%的功能故障源于提示设计缺陷——或因指令模糊导致输
如何评价开课吧机器学习特训营这个课程？ cda2024 机器学习人工智能
开场：点明主题，吸引眼球在当今数据驱动的时代，机器学习（MachineLearning）已经成为各个行业不可或缺的技术之一。无论是金融、医疗、制造还是零售，机器学习的应用都为这些领域带来了巨大的变革。面对这样的趋势，许多人都希望能够掌握这门技术，从而提升自己的职业竞争力。那么，当我们谈论“如何评价开课吧机器学习特训营这个课程”时，实际上是在探讨一个非常具体且重要的问题：对于那些希望进入或深入机器学
为你喝彩程瑞娜金沃土
万重期待的冬奥会已经开始，我国运动员为中国斩获三枚金牌，一枚银牌。其中我最喜欢的选手是为中国斩获第三金的自由式滑雪大跳台选手谷爱凌。谷爱凌，2003年出生于美国加利福尼亚州旧金山市，中国自由式滑雪运动员。就读于斯坦福大学。他即使滑雪天才，又是一个全能学霸，更是第一位女子挑战滑雪最高难度的人。她获得了很多很多的冠军，以下便是。她获得过2019-20赛季自由式滑雪坡面障碍技巧新西兰公开赛的冠军；获得过
表征学习：机器认知世界的核心能力与前沿突破大千AI助手人工智能 #OTHER Python 学习人工智能机器学习神经网络表征学习 RL 特征工程
一、定义与背景：从特征工程到自动化学习表征学习（RepresentationLearning），又称特征学习（FeatureLearning），是机器学习的核心技术领域，其核心目标是通过算法自动学习数据的内在特征表示，将复杂多变的原始数据（如图像、文本、语音）转化为低维、富含语义信息的向量形式，从而提升下游任务（如分类、回归、聚类）的效率和精度。与传统依赖人工设计特征的特征工程（FeatureEn
踏上人工智能之旅（一）-----机器学习之knn算法 Sunhen_Qiletian 人工智能机器学习算法 python
目录一、机器学习是什么（1）概述（2）三种类型1.监督学习（SupervisedLearning）：2.无监督学习（UnsupervisedLearning）：3.强化学习（ReinforcementLearning）：二、KNN算法的基本原理：1.距离度量：2.K值的选择：3.投票机制和投票：三、Python实现KNN算法1.导入必要的库和数据：2.提取特征和标签：3.导入KNN分类器并训练模型
Place JillionZ
PLACE是美国的JayMcSwain提出的开发子女才能的工具。PLACE是指在五个领域发现子女的才能。P（Personalitydiscovery)性格类型L（Learningspiritualgifts)天生的才能A（AbilitiesAwareness)能力C（Connectingpassionwithministry)热情E（Experiencesoflife)人生经历作为父母，要充分了解
Floyd算法详解——包括解题步骤与编程 HOLD ON! 算法
Floyd算法详解——包括解题步骤与编程SweeNeil展开一、Floyd算法原理Floyd算法是一个经典的动态规划算法，它又被称为插点法。该算法名称以创始人之一、1978年图灵奖获得者、斯坦福大学计算机科学系教授罗伯特·弗洛伊德命名。Floyd算法是一种利用动态规划的思想寻找给定的加权图中多源点之间最短路径的算法,算法目标是寻找从点i到点j的最短路径。从任意节点i到任意节点j的最短路径不外乎2种
读心与芯：我们与机器人的无限未来05未来之路躺柒机器人机器人学人工智能大数据分析智能计算
1.概念1.1.利用数据确定模式，描述数据集的某些属性，基于过去的经历判断未来可能发生什么，或基于当前发生的事情判断后果或反应1.2.机器学习(machinelearning)是人工智能的一个子集，它不需要显式编程，为系统提供自动学习和根据经验改进的能力1.2.1.机器学习算法基于样本数据（又称训练数据）构建模型，在未经显式编程的情况下对未来数据做出预测或决策1.2.2.机器学习有多种类型，包括有
虚拟机局域网拓扑图_多台虚拟机搭建模拟网络环境 weixin_39523529 虚拟机局域网拓扑图
目的采用多台虚拟机在一台计算机实体上模拟一个小型的网络环境。我们采用虚拟机(VirtualMachine)软件来模拟一个网络环境进行实验，这类软件的主要功能是利用软件来模拟出具有完整硬件系统功能的且运行在隔离环境中的完整计算机系统。这样我们可以在一台物理计算机即宿主机器(HostMachine)上模拟出一台或多台虚拟的计算机。这些虚拟机能够像真正的计算机那样进行工作，我们可以在其上安装全新的操作系
可用于AI Agent集成和多种系统之间联调Windows下GCC的C++虚拟机项目 weixin_30777913 c++windows 系统架构
下面是一个完整的C++虚拟机项目设计，实现了所有需求功能，包括虚拟磁盘管理、操作系统安装、I/O重定向和网络转发等功能。可用于AIAgent的集成，全自动设计开发测试Linux下和Windows与Linux联动软件。整体架构设计VMController-config:Config-vdisk:VDiskManager-vm:VirtualMachine-logger:shared_ptr+run(
实验七 SVM支持向量机萍萍无奇a 支持向量机机器学习人工智能
目录一、SVM定义二、SVM基本概念及其优缺点1、间隔2、SVM核心3、支持向量4、支持向量机的基本思想5、优缺点三、损失函数四、代码实现1、算法实现基本流程2、代码解析3、整体代码五、结果截图及解释1、结果截图2、结果解释六、实验总结一、SVM定义支持向量机（SupportVectorMachine，SVM）是一种经典的监督学习算法，用于解决二分类和多分类问题。其核心思想是通过在特征空间中找到一
深度学习的图像分类项目在制造业场景下的数据需求量估算及实现方案（数据收集是The more the better 吗？） shiter 人工智能系统解决方案与技术架构深度学习分类人工智能
文章大纲一、数据需求的关键影响因素二、无先验知识场景的数据需求估算优化策略与技术方案三、有先验知识场景的数据需求估算1.迁移学习（TransferLearning）2.少样本学习（Few-ShotLearning）3.预训练-微调范式四、实现方案与技术路线1.数据策略层2.模型架构层3.训练优化技术五、结论与实践建议无先验知识场景有先验知识场景✅**正确性校验**⚠️**可落地性勘误与补充****
机器学习从入门到实践：算法、特征工程与模型评估详解
目录摘要1.引言2.机器学习概述2.1什么是机器学习？2.2机器学习的发展历史2.3机器学习的应用3.机器学习算法分类3.1监督学习（SupervisedLearning）3.2无监督学习（UnsupervisedLearning）3.3半监督学习（Semi-SupervisedLearning）4算法详解4.1分类算法详解（1）逻辑回归（LogisticRegression）（2）决策树（Dec
Deja Vu: 利用上下文稀疏性提升大语言模型推理效率 AI专题精讲模型加速人工智能模型加速 AI技术应用
温馨提示：本篇文章已同步至"AI专题精讲"DejaVu:利用上下文稀疏性提升大语言模型推理效率摘要拥有数百亿参数的大语言模型（LLMs）催生了一系列令人振奋的AI应用。然而，在推理阶段它们计算开销极大。稀疏化是一种自然的降本策略，但现有方法要么需要代价高昂的重新训练，要么必须放弃LLM的“in-contextlearning”能力，要么在现代硬件上无法带来真实的墙钟时间加速。我们提出**上下文稀疏
慕课的价值｜《跨越式成长》第11章静水JiangJiang
三个问题：1.慕课是什么，有什么特点？2.慕课等在线学习有什么价值？3.如何利用好慕课持续学习？一、慕课是什么，有什么特点？慕课（MOOC）课程，即大型在线开放课程，可汗学院，Coursera，Udacity，edX等学习网站的课程都是慕课。以Coursera为例，它是由斯坦福大学两名教授创办，同斯坦福大学、密歇根大学等世界顶尖大学和机构合作，国内北大、复旦等大学也有加入，旨在提供任何人可学习的在
小丁的ScalersTalk第五轮新概念朗读持续力训练Day43-20191204 丁丁水天
1.练习材料Lesson55NotagoldmineDreamsoffindinglosttreasurealmostcametruerecently.Anewmachinecalled'TheRevealer'hasbeeninventedandithasbeenusedtodetectgoldwhichhasbeenburiedintheground.Themachinewasusedinac
参考文献字体 latex_字体参考| HTML cumtv80668 linux python html windows java
参考文献字体latexFontsarebasicallyplatformeddependentorinsimplewords,wecansaythattheyarespecifictotheplatform.Wewillhavedifferentlookandfeelofawebpageondifferentmachinesrunningondifferentoperatingsystemssuc
用KNN算法入门机器学习：原理、实战与代码详解 TJDG567 算法机器学习人工智能 k近邻算法
引言K最近邻（K-NearestNeighbors,KNN）是机器学习中最简单且直观的算法之一，非常适合分类和回归任务。它的核心思想是“物以类聚”，即相似的数据点在特征空间中通常属于同一类别。本文将深入浅出地讲解KNN的原理、优缺点、应用场景，并通过Python代码实战演示如何实现一个完整的KNN分类任务。1.KNN算法原理1.1算法概述KNN是一种**惰性学习（LazyLearning）**算法
c语言程序设计猜拳小游戏答辩,C语言课程设计-猜拳游戏 weixin_39558221 c语言程序设计猜拳小游戏答辩
C语言课程设计-猜拳游戏C语言课程设计-猜拳游戏|c语言程序代码编程小程序设计|c语言课程设计报告课程案例enump_r_s{paper,rock,scissors,game,help,instructions,quit};#includemain(){enump_r_splayer,machine;enump_r_sselection_by_player(),selection_by_machi
学习日记-机器学习2-线性回归/成本函数
目录4LinerRegressionModel线性回归模型5costFunction成本函数4LinerRegressionModel线性回归模型Thelinearregressionmodelisaparticulartypeofsupervisedlearningmodel.TerminologyTrainingset(训练集):DatausedtotrainthemodelNotationx
计算机视觉：少样本学习（Few-Shot Learning）在视觉中的应用 xcLeigh 计算机视觉CV 计算机视觉学习人工智能 FSL AI
计算机视觉：少样本学习（Few-ShotLearning）在视觉中的应用一、前言二、少样本学习基础概念2.1定义与范畴2.2与传统机器学习对比2.3核心挑战三、少样本学习在计算机视觉中的典型应用3.1图像分类3.1.1新类别识别3.1.2医学图像分类3.2目标检测3.2.1新目标检测3.2.2小目标检测3.3图像分割3.3.1医学图像分割3.3.2工业缺陷检测四、少样本学习在计算机视觉中的技术方法
Hadoop(一) 朱辉辉33 hadoop linux
今天在诺基亚第一天开始培训大数据，因为之前没接触过Linux，所以这次一起学了，任务量还是蛮大的。首先下载安装了Xshell软件，然后公司给了账号密码连接上了河南郑州那边的服务器，接下来开始按照给的资料学习，全英文的，头也不讲解，说锻炼我们的学习能力，然后就开始跌跌撞撞的自学。这里写部分已经运行成功的代码吧. 在hdfs下，运行hadoop fs -mkdir /u
maven An error occurred while filtering resources blackproof maven 报错
转：http://stackoverflow.com/questions/18145774/eclipse-an-error-occurred-while-filtering-resources maven报错： maven An error occurred while filtering resources Maven -> Update Proje
jdk常用故障排查命令 daysinsun jvm
linux下常见定位命令： 1、jps 输出Java进程 -q 只输出进程ID的名称，省略主类的名称； -m 输出进程启动时传递给main函数的参数； &nb
java 位移运算与乘法运算周凡杨 java 位移运算乘法
对于 JAVA 编程中，适当的采用位移运算，会减少代码的运行时间，提高项目的运行效率。这个可以从一道面试题说起：问题：用最有效率的方法算出2 乘以8 等於几?” 答案：2 << 3 由此就引发了我的思考，为什么位移运算会比乘法运算更快呢？其实简单的想想，计算机的内存是用由 0 和 1 组成的二
java中的枚举(enmu) g21121 java
从jdk1.5开始，java增加了enum(枚举)这个类型，但是大家在平时运用中还是比较少用到枚举的，而且很多人和我一样对枚举一知半解，下面就跟大家一起学习下enmu枚举。先看一个最简单的枚举类型，一个返回类型的枚举： public enum ResultType { /** * 成功 */ SUCCESS, /** * 失败 */ FAIL,
MQ初级学习 510888780 activemq
1.下载ActiveMQ 去官方网站下载：http://activemq.apache.org/ 2.运行ActiveMQ 解压缩apache-activemq-5.9.0-bin.zip到C盘，然后双击apache-activemq-5.9.0-\bin\activemq-admin.bat运行ActiveMQ程序。启动ActiveMQ以后，登陆：http://localhos
Spring_Transactional_Propagation 布衣凌宇 spring transactional
//事务传播属性 @Transactional(propagation=Propagation.REQUIRED)//如果有事务，那么加入事务，没有的话新创建一个 @Transactional(propagation=Propagation.NOT_SUPPORTED)//这个方法不开启事务 @Transactional(propagation=Propagation.REQUIREDS_N
我的spring学习笔记12-idref与ref的区别 aijuans spring
idref用来将容器内其他bean的id传给<constructor-arg>/<property>元素，同时提供错误验证功能。例如： <bean id ="theTargetBean" class="..." /> <bean id ="theClientBean" class=&quo
Jqplot之折线图 antlove js jquery Web timeseries jqplot
timeseriesChart.html <script type="text/javascript" src="jslib/jquery.min.js"></script> <script type="text/javascript" src="jslib/excanvas.min.js&
JDBC中事务处理应用百合不是茶 java JDBC编程事务控制语句
解释事务的概念; 事务控制是sql语句中的核心之一;事务控制的作用就是保证数据的正常执行与异常之后可以恢复事务常用命令: Commit提交
[转]ConcurrentHashMap Collections.synchronizedMap和Hashtable讨论 bijian1013 java 多线程线程安全 HashMap
在Java类库中出现的第一个关联的集合类是Hashtable，它是JDK1.0的一部分。 Hashtable提供了一种易于使用的、线程安全的、关联的map功能，这当然也是方便的。然而，线程安全性是凭代价换来的――Hashtable的所有方法都是同步的。此时，无竞争的同步会导致可观的性能代价。Hashtable的后继者HashMap是作为JDK1.2中的集合框架的一部分出现的，它通过提供一个不同步的
ng-if与ng-show、ng-hide指令的区别和注意事项 bijian1013 JavaScript AngularJS
angularJS中的ng-show、ng-hide、ng-if指令都可以用来控制dom元素的显示或隐藏。ng-show和ng-hide根据所给表达式的值来显示或隐藏HTML元素。当赋值给ng-show指令的值为false时元素会被隐藏，值为true时元素会显示。ng-hide功能类似，使用方式相反。元素的显示或
【持久化框架MyBatis3七】MyBatis3定义typeHandler bit1129 TypeHandler
什么是typeHandler? typeHandler用于将某个类型的数据映射到表的某一列上，以完成MyBatis列跟某个属性的映射内置typeHandler MyBatis内置了很多typeHandler，这写typeHandler通过org.apache.ibatis.type.TypeHandlerRegistry进行注册，比如对于日期型数据的typeHandler，
上传下载文件rz,sz命令 bitcarter linux命令rz
刚开始使用rz上传和sz下载命令：因为我们是通过secureCRT终端工具进行使用的所以会有上传下载这样的需求：我遇到的问题： sz下载A文件10M左右，没有问题但是将这个文件A再传到另一天服务器上时就出现传不上去，甚至出现乱码，死掉现象，具体问题解决方法：上传命令改为;rz -ybe 下载命令改为：sz -be filename 如果还是有问题：那就是文
通过ngx-lua来统计nginx上的虚拟主机性能数据 ronin47 ngx-lua　统计解禁ip
介绍以前我们为nginx做统计,都是通过对日志的分析来完成.比较麻烦,现在基于ngx_lua插件,开发了实时统计站点状态的脚本,解放生产力.项目主页: https://github.com/skyeydemon/ngx-lua-stats 功能支持分不同虚拟主机统计, 同一个虚拟主机下可以分不同的location统计. 可以统计与query-times request-time
java-68-把数组排成最小的数。一个正整数数组，将它们连接起来排成一个数，输出能排出的所有数字中最小的。例如输入数组{32, 321}，则输出32132 bylijinnan java
import java.util.Arrays; import java.util.Comparator; public class MinNumFromIntArray { /** * Q68输入一个正整数数组，将它们连接起来排成一个数，输出能排出的所有数字中最小的一个。 * 例如输入数组{32, 321}，则输出这两个能排成的最小数字32132。请给出解决问题
Oracle基本操作 ccii Oracle SQL总结 Oracle SQL语法 Oracle基本操作 Oracle SQL
一、表操作 1. 常用数据类型 NUMBER(p,s)：可变长度的数字。p表示整数加小数的最大位数，s为最大小数位数。支持最大精度为38位 NVARCHAR2(size)：变长字符串，最大长度为4000字节（以字符数为单位） VARCHAR2(size)：变长字符串，最大长度为4000字节（以字节数为单位） CHAR(size)：定长字符串，最大长度为2000字节，最小为1字节，默认
[强人工智能]实现强人工智能的路线图 comsci 人工智能
1：创建一个用于记录拓扑网络连接的矩阵数据表 2:自动构造或者人工复制一个包含10万个连接(1000*1000)的流程图 3：将这个流程图导入到矩阵数据表中 4：在矩阵的每个有意义的节点中嵌入一段简单的
给Tomcat，Apache配置gzip压缩(HTTP压缩)功能 cwqcwqmax9 apache
背景： HTTP 压缩可以大大提高浏览网站的速度，它的原理是，在客户端请求网页后，从服务器端将网页文件压缩，再下载到客户端，由客户端的浏览器负责解压缩并浏览。相对于普通的浏览过程HTML ,CSS,Javascript , Text ，它可以节省40%左右的流量。更为重要的是，它可以对动态生成的，包括CGI、PHP , JSP , ASP , Servlet,SHTML等输出的网页也能进行压缩，
SpringMVC and Struts2 dashuaifu struts2 springMVC
SpringMVC VS Struts2 1: spring3开发效率高于struts 2: spring3 mvc可以认为已经100%零配置 3: struts2是类级别的拦截，一个类对应一个request上下文， springmvc是方法级别的拦截，一个方法对应一个request上下文，而方法同时又跟一个url对应所以说从架构本身上 spring3 mvc就容易实现r
windows常用命令行命令 dcj3sjt126com windows cmd command
在windows系统中，点击开始－运行，可以直接输入命令行，快速打开一些原本需要多次点击图标才能打开的界面，如常用的输入cmd打开dos命令行，输入taskmgr打开任务管理器。此处列出了网上搜集到的一些常用命令。winver 检查windows版本 wmimgmt.msc 打开windows管理体系结构(wmi) wupdmgr windows更新程序 wscrip
再看知名应用背后的第三方开源项目 dcj3sjt126com ios
知名应用程序的设计和技术一直都是开发者需要学习的，同样这些应用所使用的开源框架也是不可忽视的一部分。此前《 iOS第三方开源库的吐槽和备忘》中作者ibireme列举了国内多款知名应用所使用的开源框架，并对其中一些框架进行了分析，同样国外开发者 @iOSCowboy也在博客中给我们列出了国外多款知名应用使用的开源框架。另外txx's blog中详细介绍了 Facebook Paper使用的第三
Objective-c单例模式的正确写法 jsntghf 单例 ios iPhone
一般情况下，可能我们写的单例模式是这样的： #import <Foundation/Foundation.h> @interface Downloader : NSObject + (instancetype)sharedDownloader; @end #import "Downloader.h" @implementation
jquery easyui datagrid 加载成功，选中某一行 hae jquery easyui datagrid 数据加载
1.首先你需要设置datagrid的onLoadSuccess $( '#dg' ).datagrid({onLoadSuccess : function (data){ $( '#dg' ).datagrid( 'selectRow' ,3); }}); 2.onL
jQuery用户数字打分评价效果 ini JavaScript html jquery Web css
效果体验：http://hovertree.com/texiao/jquery/5.htmHTML文件代码： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"> <head> <title>jQuery用户数字打分评分代码 - HoverTree</
mybatis的paramType kerryg DAO sql
MyBatis传多个参数： 1、采用#{0},#{1}获得参数： Dao层函数方法： public User selectUser(String name,String area); 对应的Mapper.xml <select id="selectUser" result
centos 7安装mysql5.5 MrLee23 centos
首先centos7 已经不支持mysql，因为收费了你懂得，所以内部集成了mariadb，而安装mysql的话会和mariadb的文件冲突，所以需要先卸载掉mariadb，以下为卸载mariadb，安装mysql的步骤。 #列出所有被安装的rpm package rpm -qa | grep mariadb #卸载 rpm -e mariadb-libs-5.
利用thrift来实现消息群发 qifeifei thrift
Thrift项目一般用来做内部项目接偶用的，还有能跨不同语言的功能，非常方便，一般前端系统和后台server线上都是3个节点，然后前端通过获取client来访问后台server，那么如果是多太server，就是有一个负载均衡的方法，然后最后访问其中一个节点。那么换个思路，能不能发送给所有节点的server呢，如果能就
实现一个sizeof获取Java对象大小 teasp java HotSpot 内存对象大小 sizeof
由于Java的设计者不想让程序员管理和了解内存的使用，我们想要知道一个对象在内存中的大小变得比较困难了。本文提供了可以获取对象的大小的方法，但是由于各个虚拟机在内存使用上可能存在不同，因此该方法不能在各虚拟机上都适用，而是仅在hotspot 32位虚拟机上，或者其它内存管理方式与hotspot 32位虚拟机相同的虚拟机上适用。
SVN错误及处理 xiangqian0505 SVN提交文件时服务器强行关闭
在SVN服务控制台打开资源库“SVN无法读取current” ---摘自网络写道 SVN无法读取current修复方法 Can't read file : End of file found 文件：repository/db/txn_current、repository/db/current 其中current记录当前最新版本号，txn_current记录版本库中版本

机器学习笔记07：神经网络的反向传播(Backpropagation)

1.误差函数(Cost Function)

2.反向传播算法(Backpropagation Algorithm)

3.反向传播公式推导

你可能感兴趣的:(Machine,Learning,Coursera,斯坦福大学机器学习笔记)