何处闻韶

【机器学习】详解 Optimizers

一、简介

二、原理

2.1 BGD (Batch Gradient Descent)

2.2 SGD (Stochastic Gradient Descent)

2.3 MBGD (Mini-Batch Gradient Descent)

2.4 BGD、SGD、MBGD 小结

2.5 SGDM (Stochastic Gradient Descent with Momentum)

2.6 AdaGrad (Adaptive Gradient)

2.7 RMSProp (Root Mean Square Propagation)

2.8 Adam (Adaptive Moment Estimation)

2.9 AdamW (Adaptive Moment Estimation with Weight-decay)

三、延伸

3.1 经典优化器效果图示

3.2 经典深度学习模型的优化器

3.3 经典优化器的相关论文

3.4 优化器的相关经验

3.5 SGD 有多种改进，但为什么还是用 SGD 较多？

一、简介

假如定义了一个机器学习模型，就希望该模型能够尽可能拟合所有训练数据。如何评价模型对数据的拟合程度呢？使用的评估指标称为 损失函数 (Loss Function)，当损失函数值下降，就可以认为模型对数据的拟合程度又一步提升了。损失函数的平均值最小之时，即可认为模型对指定训练数据的拟合程度最佳之际。为降低损失函数数值，需使用各种优化算法进行优化。优化器 / 优化算法 在深度学习反向传播过程中，指引损失函数的各个参数往正确的方向更新合适的值，使得更新后的各个参数让损失函数的值不断逼近 全局极小值。

更具体地，在机器学习中，优化问题的 目标函数 / 损失函数 / 代价函数 通常可表示为：

其中，表示待优化的模型参数，表示模型的输入数据/样本，表示模型的输出结果/预测，表示输入数据/样本的标签/目标 (Ground Truth)，函数刻画了模型在样本对上的损失，表示数据分布，表示期望。因此，刻画了当参数为时，模型在所有数据上的平均损失。训练模型即希望能够找到平均损失最小的模型参数，也就是求解优化问题：

当然，在深度学习这种通常非凸优化背景下，找到的通常是 局部极小值。

二、原理

2.1 BGD (Batch Gradient Descent)

GD (梯度下降)，又称 BGD (批量梯度下降) 作为经典梯度下降法，其 在更新每一个模型参数时，都令所有样本 (样本全集) 参与更新计算，即在整个训练集上计算损失函数关于模型参数的梯度。其思想可以比喻为在下山之前掌握了附近的地势情况，选择总体平均梯度最小的方向下山。

BGD 采用所有训练数据的平均损失来近似目标函数，即：

$L(\theta) = \frac{1}{N} \sum_{i=1}^{N} L(f(x_{i}, \theta), y_i)$

$\nabla L(\theta) = \frac{1}{N} \sum_{i=1}^{N} \nabla L(f(x_{i}, \theta), y_i)$

其中，表示训练样本数，为梯度算子，为目标函数的梯度。此时，模型参数的更新公式为：

BGD 的优点：

迭代次数相对较少，在凸函数上能保证收敛到全局最优点。

BGD 的缺点：

每一次对模型参数进行更新时，需在整个训练集上计算梯度。当样本总数很大时，过高的计算量将耗费很长的计算时间与大量的计算资源 (训练集太大不能全部载入内存)，且无法投入新数据实时更新模型 (在线学习)，因此在实际应用中 BGD 基本不可行。

2.2 SGD (Stochastic Gradient Descent)

SGD (随机梯度下降) 用 单个训练样本的损失来近似平均损失，即

$L(\theta; x_i, y_i) = L(f(x_i, \theta), y_i)$

$\nabla L(\theta; x_i, y_i) = \nabla L(f(x_i, \theta), y_i)$

此时，模型参数的更新公式为：

SGD 的优点：

SGD 用单个样本即可对模型参数进行一次更新，解决了 BGD 进行的大量冗余计算，大大加快了收敛速率。SGD 也非常适用于数据不断加入的在线更新场景 (在线学习)。

SGD 的缺点：

SGD 以高方差的特点进行频繁的连续参数更新，使得损失函数值严重震荡，无法保证每次都向着整体最优化方向迭代，甚至可能在全局最优值处来回震荡乃至跳出全局最优值。

SGD 的 PyTorch 例子：

# https://pytorch.org/docs/stable/generated/torch.optim.SGD.html#torch.optim.SGD
>>> optimizer = torch.optim.SGD(model.parameters(), lr=0.1)
>>> optimizer.zero_grad()
>>> loss_fn(model(input), target).backward()
>>> optimizer.step()

2.3 MBGD (Mini-Batch Gradient Descent)

不同于每次使用所有样本的 GD 和每次仅用单个样本的 SGD，MBGD (小批量梯度下降) 介于二者之间，每次使用训练数据的一个子集 (mini-batch) 进行模型参数的更新。

假设每次模型参数更新时，同时处理个 () 训练数据，则目标函数及其梯度为：

$L(\theta) = \frac{1}{k} \sum_{j=1}^{k} L(f(x_j, \theta), y_j)$

$\nabla L(\theta) = \frac{1}{k} \sum_{j=1}^{k} \nabla L(f(x_j, \theta), y_j)$

此时，模型参数的更新公式为：

MBGD 的优点：

降低了 SGD 的高方差，从而使得迭代算法更加稳定 (如同 BGD 的优点)，也为了充分利用高度优化的矩阵运算操作，使运算速度远优于 BGD (如同 SGD 的优点)。虽然 MBGD 在更新过程中看起来波动也不小、也会走弯路，但大量的理论和实践工作证明，只要噪声不是特别大，都能很好收敛。

MBGD 的缺点：

1. MBGD 无法保证较好的收敛性。MBGD 每次仅用数据集中的一部分进行梯度下降，所以每次下降并不严格按照朝损失函数的最小方向下降，而只是总体下降趋势朝着最小方向，因此极易陷入局部最小值。

2. MBGD 受到学习率设置的影响较大。若学习率太小，则收敛速度会很慢 (如同 BGD 的缺点)；若学习率太大，则损失函数就会在极小值处不停震荡甚至偏离 (如同 SGD 的缺点)。

学习率过大造成负面影响的例子

3. 对于非凸函数，MBGD 还要避免陷于梯度为 0 的驻点 (Stationary Point) —— 局部极大/小值点和鞍点。特别是鞍点周围的梯度都接近于 0，很容易困于其中。鞍点 (Saddle Point) 得名于其形状类似于马鞍，鞍点通常被一个具有相同误差的平面所包围。一个光滑函数的鞍点，其邻域的曲线、曲面或超曲面都位于鞍点的切线的不同边。对于神经网络而言，一个关键挑战便是避免陷入鞍点，即损失函数在该点的一个维度上是上坡，而在另一个维度上是下坡。尽管它在一个方向上是一个最小值点，但是它在另一个方向上却是局部最大值点，这使得梯度下降法非常难于逃脱，因为在各个维度上梯度都趋近于 0。若它沿着 x 方向变得更平坦的话，梯度下降便会在 x 轴振荡并且不能继续根据 y 轴下降，这就会给我们一种已经收敛到最小值点的错觉。

鞍点示意图

MBGD 使用注意事项：

1. 如何选取参数 mini-batch size ? 在不同应用中，最优的通常不同，需通过调参确定。mini-batch size 越大，每个 epoch 的迭代次数越少，训练时间就更快；而 mini-batch size 越小，每个 epoch 的迭代次数更多，训练更耗时。一般取 2 的幂次时能充分利用矩阵运算操作，所以可优先在 2 的幂次中挑选，例如 16、32、64、128、256 等等。

2. 如何挑选个训练数据? 为避免样本的特定顺序给算法收敛带来影响，通常在每次遍历训练样本前，先对所有样本进行打乱/混洗 (shuffle)，然后在每次迭代 (iter) 时按顺序挑选个样本，直至遍历完所有的数据 (一个 epoch)。

3. 如何选取步长/学习率 ? 为加快收敛速率，同时提高求解精度，通常会采用学习率衰减方案 (learning rate decay scheduler)：一开始算法采用较大的学习率，当误差曲线进入平台期后，再减小学习率进行更精细的调整和学习。当然，最优的学习率衰减方案也通常需要调参才能得到。

学习率衰减示意图

2.4 BGD、SGD、MBGD 小结

三种梯度下降法的特点比较

做个比喻。假设有一人正在下山，其视力很好乃至能看清自己所处位置的坡度，那么沿坡向下最终可达山底。若被蒙上双眼，只能凭脚底踩石头的感觉判断当前位置的坡度，精确性就会大大下降。有时他认为的坡，实际上可能并不是坡，走上一段时间发现还没有下山，或曲曲折折绕了好多弯路才下山。类似地，BGD 就好比正常下山，而 SGD 就好比蒙着眼睛下山。

更具体地，BGD 在全部训练集上计算准确的梯度，SGD 则采样单个样本来估计的当前梯度。为获取准确的梯度，BGD 的每一步都把整个训练集载入进来进行计算，时间花费和内存开销都非常大，无法应用于大数据 / 大模型的场景。相反，SGD 则放弃了对梯度准确性的追求，每步仅仅随机采样一个样本来估计当前梯度，计算速度快，内存开销小。但由于每步接受的信息量有限，SGD 对梯度的估计常常出现偏差，造成目标函数曲线收敛得很不稳定，伴有剧烈波动，有时甚至出现不收敛的情况。而 MBGD 则作为 BGD 和 SGD 的折中方法，兼具二者的优点 (和缺点)。下图展示了三种方法在优化过程中的参数轨迹，可见 BGD 稳定地逼近最低点，而 SGD 的参数轨迹曲曲折折堪比 “黄河十八弯”，MBGD 的轨迹抖动程度则居中。

三种梯度下降法的轨迹比较

进一步地，深度学习中的优化问题本身就很难，有太多局部最优点的陷阱，它们对而言梯度下降法都是普遍存在的。但对 SGD 来说，最可怕的不是局部最优点，而是 山谷和鞍点。山谷即狭长的山间小道，左右两边是峭壁；鞍点形如马鞍，一个方向上两头翘，另一方向上两头垂，而中心区域是一片近乎水平的平地。为什么 SGD 最害怕遇上这两类地形呢？在山谷中，准确的梯度方向是沿山道向下，稍有偏离就会撞向山壁，而 SGD 粗糙的梯度估计使得它在两山壁间来回反弹震荡，不能正确地沿山道方向迅速下降，导致收敛不稳定和收敛速度慢。在鞍点处， SGD 会走入一片平坦之地 (此时离最低点还很远，故也称 Plateau)。想象一下蒙着双眼只凭借脚底感觉坡度，如果坡度很明显，那么基本能估计出下山的大致方向；如果坡度不明显，则很可能走错方向。同样，在梯度近乎为零的区域，随机梯度下降法无法准确察觉出梯度的微小变化，结果就停滞下来，举步维艰。

2.5 SGDM (Stochastic Gradient Descent with Momentum)

SGDM (带动量的随机梯度下降) 在 SGD 的基础上加入了一阶动量，其模拟物理里动量的概念，积累之前的动量来替代真正的梯度。直观地，SGDM 相当于加入了一个惯性，使得在坡度较陡的地方惯性较大，从而下降就比较快；坡度平缓的地方惯性较小，从而下降得比较慢。SGDM 的梯度更新公式为：

$v_t = \gamma v_{t-1} + \eta \nabla L(\theta)$

$\theta_t = \theta_{t-1} - v_t$

SGDM 通过加入动量及其衰减系数 (常取 0.9)，在梯度下降过程中可 在梯度方向不变的方向上加快下降速度、在梯度方向有所改变的方向上减慢下降速度。举个例子：为解决 SGD 在山谷震荡和鞍点停滞 的问题，想象一个纸团在山谷和鞍点处的运动轨迹，在山谷中纸团受重力作用沿山道滚下，两边是不规则的山壁，纸团不可避免地撞在山壁，由于质量小受山壁弹力的干扰大，从山壁一侧反弹回来撞向另一侧，结果来回震荡地滚下；若当纸团来到鞍点的一片平坦之地时，还是由于质量小，速度很快减为零。纸团的运动情况好比 SGD 在山谷和鞍点遇到的问题。直观地，若将纸团换成铁球，当其沿山谷滚下时，不易受到中途旁力的干扰，轨迹会更稳更直；当铁球到达鞍点中心处时，将在惯性作用下继续前行，从而有机会冲出平坦的陷阱。铁球的运动情况好比 SGDM 在山谷和鞍点应对的方法，因此，SGDM 相比 SGD 具有更强的鲁棒性。

更具体地，前进步伐由两部分构成：一是学习率乘以当前估计的梯度，这部分与 SGD 完全一致；二是带衰减的前一次步伐。此处，惯性就体现在对前一次步伐信息的重利用上。类比中学物理知识，当前梯度 就好比 当前时刻受力产生的加速度，而 前一次步伐 好比 前一时刻的速度，当前步伐 好比 当前时刻的速度。为计算当前时刻的速度，应当考虑前一时刻速度和当前加速度共同作用的结果，因此直接依赖于和，而不仅仅是。另外，衰减系数 扮演了阻力的作用。因为刻画惯性的物理量是动量，所以该算法名为 SGDM (带动量的随机梯度下降)。沿山谷滚下的铁球，会受到沿坡道向下的力和与左右山壁碰撞的弹力。向下的力稳定不变，产生的动量不断累积，速度越来越快；左右的弹力总是在不停切换，左右侧动量累积的结果是相互抵消，从而减弱了球在左右侧的来回震荡。因此，与 SGD 相比，SGDM 收敛速度更快，收敛曲线也更稳定 (解决 SGD Hessian 矩阵病态问题)，如下图所示：

SGDM 示意图

SGDM 的 PyTorch 例子：

# https://pytorch.org/docs/stable/generated/torch.optim.SGD.html#torch.optim.SGD
>>> optimizer = torch.optim.SGD(model.parameters(), lr=0.1, momentum=0.9)
>>> optimizer.zero_grad()
>>> loss_fn(model(input), target).backward()
>>> optimizer.step()

SGDM 的朴素实现：

# http://t.zoukankan.com/xiximayou-p-12713594.html

class StochasticGradientDescent():
    def __init__(self, learning_rate=0.01, momentum=0):
        self.learning_rate = learning_rate 
        self.momentum = momentum
        self.w_updt = None

    def update(self, w, grad_wrt_w):
        # If not initialized
        if self.w_updt is None:
            self.w_updt = np.zeros(np.shape(w))
        # Use momentum if set
        self.w_updt = self.momentum * self.w_updt + (1 - self.momentum) * grad_wrt_w
        # Move against the gradient to minimize loss
        return w - self.learning_rate * self.w_updt

2.6 AdaGrad (Adaptive Gradient)

除了 基于历史信息获得的惯性，我们还期待 获得对周围环境的感知。即使蒙上双眼，依靠前几次迈步的感觉，也应该能判断出一些信息，比如这个方向总是坑坑洼洼的，那个方向可能很平坦。SGD 对环境的感知是指 在参数空间中，根据不同参数的一些经验性判断，自适应地确定参数的学习率，使得不同参数具有不同的更新步幅。例如，在文本处理中训练词嵌入模型的参数时，有的词或词组频繁出现，有的词或词组则极少出现。数据的稀疏性导致相应参数的梯度的稀疏性，不频繁出现的词或词组的参数的梯度在大多数情况下为零，从而这些参数被更新的频率很低。在应用中，我们希望更新频率低的参数可以拥有较大的更新步幅，而更新频率高的参数的步幅可以减小。AdaGrad 采用 二阶动量 —— “历史梯度平方和”，即 所有时刻的梯度值的平方和 来 衡量不同参数的梯度的稀疏性 (历史更新频率)，取值越小则表明越稀疏 (参数更新频率越低)。AdaGrad 的参数更新公式为：

$\theta_{t+1, i} = \theta - \beta g_{t, i}= \theta - (\frac{\eta}{\sqrt{\sum_{k=0}^{t} g_{k, i}^2 + \epsilon }}) g_{t, i}$

其中，表示时刻的参数向量的第个参数，表示时刻的梯度向量的第个维度 (方向)，平滑参数项用于防止学习率的分母为 0。

此外，分母中历史梯度平方和的求和的形式实现了 退火过程，这是很多优化技术中常见的策略。这意味着随着时间推移，分母将随之增大，从而学习率将越来越小，从而保证了算法的最终收敛。但若分母增加得过大，学习率将过于接近 0，从而无法有效更新参数，造成反面效果。例如可能使得训练过程提前结束，即便后续还有数据也无法学到有用的知识。事实上，虽然在 RMSProp 的优化下，不同参数有了各自的学习率，但初始的全局学习率仍需手工指定。若全局学习率过大，优化同样不稳定；而若全局学习率过小，则可能还没有到极值就停滞不前了。

可见，AdaGrad 本质上是对学习率施加了一个约束：对于经常更新的参数，已积累了大量关于它的知识，不希望被单个样本影响太大，即学习率可低一些；对于偶尔更新的参数，了解的信息严重不足，希望能从每个偶尔出现的样本中多学一些，即学习率可高一些。此前的 SGD 及其变体的优化器主要聚焦在优化梯度前进的方向上，而 AdaGrad 首次使用二阶动量来关注学习率，开启了自适应学习率算法的里程。虽然AdaGrad 算法 不能保证找到极值点，但是它很 适合处理稀疏梯度，在 稀疏数据场景 下表现非常好。

AdaGrad 的 PyTorch 例子：

# https://pytorch.org/docs/stable/generated/torch.optim.Adagrad.html#torch.optim.Adagrad
>>> optimizer = torch.optim.Adagrad(model.parameters(), lr=0.01)
>>> optimizer.zero_grad()
>>> loss_fn(model(input), target).backward()
>>> optimizer.step()

AdaGrad 的朴素实现：

# http://t.zoukankan.com/xiximayou-p-12713594.html

class Adagrad():
    def __init__(self, learning_rate=0.01):
        self.learning_rate = learning_rate
        self.G = None # Sum of squares of the gradients
        self.eps = 1e-8

    def update(self, w, grad_wrt_w):
        # If not initialized
        if self.G is None:
            self.G = np.zeros(np.shape(w))
        # Add the square of the gradient of the loss function at w
        self.G += np.power(grad_wrt_w, 2)
        # Adaptive gradient with higher learning rate for sparse data
        return w - self.learning_rate * grad_wrt_w / np.sqrt(self.G + self.eps)

2.7 RMSProp (Root Mean Square Propagation)

为解决 AdaGrad 学习率急剧下降 问题，RMSProp 对 AdaGrad 的二阶动量进行了改进，将历史梯度平方和改为其指数加权的移动平均，使得 RMSProp 在非凸背景下效果更好。RMSProp 的参数更新公式为：

$V_0 = g_{0, i}^2$

$V_t = \gamma V_{t-1} + (1-\gamma) g_{t, i}^2 \; , \; t > 0$

$\theta_{t+1, i} = \theta_t - \frac{\eta}{\sqrt{V_t + \epsilon }} g_{t, i}$

其中，表示第时刻的二阶动量，即梯度平方的指数加权的移动平均，表示时刻的梯度向量的第个维度 (方向)，平滑参数项用于防止学习率的分母为 0。

事实上，RMSProp 依然 依赖于全局学习率 $\eta$ 。RMSProp 算是 AdaGrad 的一种发展以及 AdaDelta 的变体，效果趋于二者之间。RMSProp 适合处理非平稳目标 (包括季节性和周期性) —— 对于 RNN 效果很好。

RMSProp 的 PyTorch 例子：

# https://pytorch.org/docs/stable/generated/torch.optim.RMSprop.html#torch.optim.RMSprop
>>> optimizer = torch.optim.RMSprop(model.parameters(), lr=0.01, alpha=0.99)
>>> optimizer.zero_grad()
>>> loss_fn(model(input), target).backward()
>>> optimizer.step()

RMSProp 的朴素实现：

# http://t.zoukankan.com/xiximayou-p-12713594.html

class RMSprop():
    def __init__(self, learning_rate=0.01, rho=0.9):
        self.learning_rate = learning_rate
        self.Eg = None # Running average of the square gradients at w
        self.eps = 1e-8
        self.rho = rho

    def update(self, w, grad_wrt_w):
        # If not initialized
        if self.Eg is None:
            self.Eg = np.zeros(np.shape(grad_wrt_w))

        self.Eg = self.rho * self.Eg + (1 - self.rho) * np.power(grad_wrt_w, 2)

        # Divide the learning rate for a weight by a running average of the magnitudes of recent
        # gradients for that weight
        return w - self.learning_rate *  grad_wrt_w / np.sqrt(self.Eg + self.eps)

2.8 Adam (Adaptive Moment Estimation)

Adam 集惯性保持和环境感知两个优点于一身，本质上是带有动量项的 RMSprop。一方面，Adam 记录梯度的一阶矩 (first moment)，即过往梯度与当前梯度的平均，体现了惯性保持；另一方面，Adam 记录梯度的二阶矩 (second moment)，即过往梯度平方与当前梯度平方的平均，体现了环境感知，为不同参数产生自适应的学习速率。一阶矩和二阶矩采用类似于滑动窗口内求平均的思想进行融合，即当前梯度和近一段时间内梯度的平均值，时间久远的梯度对当前平均值的贡献呈指数衰减。具体来说，一阶矩和二阶矩采用指数衰减平均 (exponential decay average) 技术，计算公式为

$m_t = \beta_1 m_{t-1} + (1 - \beta_1) g_t$

$v_t = \beta_2 v_{t-1} + (1 - \beta_2) g^2_t$

其中，为一阶矩估计的指数衰减率 (常取 0.9) ，用于控制一阶矩估计；为二阶矩估计的指数衰减率 (常取 0.999)，用于控制二阶矩估计；为 一阶矩 (mean)，为 二阶矩 (variance)。一阶矩相当于估计，由于当前时刻梯度是随机采样得到的估计结果，因此更关注它在统计意义上的期望；二阶矩相当于估计，这不同于 AdaGrad 对的历史累积和，而是的期望。它们的 物理意义 在于：

当大且大时，梯度大且稳定，表明遇到一个明显的大坡，前进方向明确；

当趋于零且大时，梯度不稳定，表明可能遇到一个峡谷，易引起反弹震荡；

当大且趋于零时，这种情况不可能出现；

当趋于零且趋于零时，梯度趋于零，可能到达局部最低点，也可能走到一片坡度极缓的平地，此时要避免陷入平原 (plateau)。

另外，因为 mean 和 variance 的初始值为 0，所以它们会向 0 偏置。为减少这种偏置影响，Adam 还考虑了和在初始值为 0 时的 偏置矫正 和。更具体地，Adam 的更新公式为：

$\hat{m_t} = \frac{m_t}{1-\beta^t_1}$

$\hat{v_t} = \frac{v_t}{1-\beta^t_2}$

$\theta_{t+1} = \theta_t - (\frac{\eta}{\sqrt{\hat{v_t} + \epsilon }}) \hat{m_t}$

Adam 的优点：

通过一阶、二阶动量，有效控制学习率和方向，防止梯度振荡和鞍点停滞

经偏置校正，每次迭代学习率都有一个固定范围 (初始学习率)，使参数变化较为平稳

为不同的参数计算不同的自适应学习率，能自然地实现步长退火

参数的更新不受梯度的伸缩变换影响

超参数具有较好的解释性，且通常无需或仅需很少的微调

适用于大多数非凸优化问题、大数据集和高维空间

结合了 Adagrad 善于处理稀疏梯度和 RMSprop 善于处理非平稳目标的优点

实现简单，计算高效，对内存需求少

总之，Adam 成为了大部分情况下的默认优化器。

Adam 的缺点：

可能不收敛。二阶动量是固定时间窗口内的累积，随着时间窗口的变化，遇到的数据可能发生巨变，使得可能时大时小，而不单调变化。这就可能在训练后期引起学习率的震荡，导致模型无法收敛。

可能错过全局最优解。自适应学习率算法可能会对前期出现的特征过拟合，后期才出现的特征很难纠正前期的拟合效果。Adam 后期的学习率太低，影响了有效的收敛。

Adam 的 PyTorch 举例：

# https://pytorch.org/docs/stable/generated/torch.optim.Adam.html#torch.optim.Adam
>>> optimizer = torch.optim.Adam(model.parameters(), lr=0.001, betas=(0.9, 0.999))
>>> optimizer.zero_grad()
>>> loss_fn(model(input), target).backward()
>>> optimizer.step()

Adam 的朴素实现：

# http://t.zoukankan.com/xiximayou-p-12713594.html

class Adam():
    def __init__(self, learning_rate=0.001, b1=0.9, b2=0.999):
        self.learning_rate = learning_rate
        self.eps = 1e-8
        self.m = None
        self.v = None
        # Decay rates
        self.b1 = b1
        self.b2 = b2

    def update(self, w, grad_wrt_w):
        # If not initialized
        if self.m is None:
            self.m = np.zeros(np.shape(grad_wrt_w))
            self.v = np.zeros(np.shape(grad_wrt_w))
        
        self.m = self.b1 * self.m + (1 - self.b1) * grad_wrt_w
        self.v = self.b2 * self.v + (1 - self.b2) * np.power(grad_wrt_w, 2)

        m_hat = self.m / (1 - self.b1)
        v_hat = self.v / (1 - self.b2)

        self.w_updt = self.learning_rate * m_hat / (np.sqrt(v_hat) + self.eps)

        return w - self.w_updt

2.9 AdamW (Adaptive Moment Estimation with Weight-decay)

L2 正则化 是减少过拟合的经典方法，它会向损失函数添加由模型所有权重的平方和组成的惩罚项，并乘上特定的超参数以控制惩罚力度。加入 L2 正则后，损失函数就变为：

$L_{l_2}(\theta) = L(\theta) + \frac{1}{2} \lambda \left \| \theta \right \| ^ 2$

一方面，带正则的 Adam 的更新公式为：

$m_t = \beta_1 m_{t-1} + (1 - \beta_1) \nabla L_{l_2} (\theta_{t-1})$

$v_t = \beta_2 v_{t-1} + (1 - \beta_2) (\nabla L_{l_2} (\theta_{t-1}))^2$

$\hat{m_t} = \frac{m_t}{1-\beta^t_1}$

$\hat{v_t} = \frac{v_t}{1-\beta^t_2}$

$\theta_{t+1} = \theta_t - \hat{m_t} (\frac{\eta}{\sqrt{\hat{v_t} + \epsilon }})$

另一方面，带权重衰减的 Adam —— AdamW 的的更新公式为：

$m_t = \beta_1 m_{t-1} + (1 - \beta_1) \nabla L (\theta_{t-1})$

$v_t = \beta_2 v_{t-1} + (1 - \beta_2) (\nabla L (\theta_{t-1}))^2$

$\hat{m_t} = \frac{m_t}{1-\beta^t_1}$

$\hat{v_t} = \frac{v_t}{1-\beta^t_2}$

$\theta_{t+1} = \theta_t - \eta (\frac{\hat{m_t}}{\sqrt{\hat{v_t} + \epsilon }} + \lambda \theta_{t})$

带 L2 正则的 Adam 与 AdamW 的对比：

带 L2 正则的 Adam 与 AdamW 的对比 (仅正则项梯度加入位置不同)

可见，Adam 不考虑 L2 正则项的梯度，带 L2 正则的 Adam 在计算梯度时加入 L2 正则项的梯度，而 AdamW 在参数更新时加入 L2 正则项的梯度。使用带 L2 正则的 Adam 并不有效，因为若引入 L2 正则项，则在计算梯度时会加上 L2 正则项的梯度。而较大权重对应的梯度也较大，由于 Adam 参数更新时的减去项包含除以梯度平方的累积的步骤，从而较大权重的较大梯度将使得减去项偏小，使得权重越大 L2 正则项惩罚反而越小了 (即权重越大变化竟越大)，达到相反的效果/目的。而使用带权重衰减的 Adam 则对所有权重都采用相同的系数更新，权重越大显然惩罚越大 (即权重越大变化应越小)。

AdamW 广泛应用于 Transformer 模型中，且经常搭配学习率衰减策略 (scheduler) 使用。

AdamW 的 PyTorch 举例：

# https://pytorch.org/docs/stable/generated/torch.optim.AdamW.html#torch.optim.AdamW
>>> optimizer = torch.optim.AdamW(model.parameters(), lr=0.001, betas=(0.9, 0.999), weight_decay=0.01)
>>> optimizer.zero_grad()
>>> loss_fn(model(input), target).backward()
>>> optimizer.step()

三、延伸

3.1 经典优化器效果图示

各经典优化算法在曲面处的表现

各经典优化算法在鞍点处的表现

各经典优化算法在等高线处的表现

上图展现了 Adam 之前的经典优化算法在鞍点和等高线处的优化轨迹。可见，自适应优化算法 (Adagrad, Adadelta, Rmsprop) 几乎很快就找到了正确的方向并前进，收敛速度也相当快；而其它非自适应优化算法 (SGD, Momentum, NAG) 要么很慢，要么走了很多弯路才找到。

3.2 经典深度学习模型的优化器

3.3 经典优化器的相关论文

优化器	论文
SGD	Robbins, H., & Monro, S. (1951). A stochastic approximation method. The annals of mathematical statistics, 400-407.
NAG	Nesterov, Y. (1983). A method for unconstrained convex minimization problem with the rate of convergence O (1/k^ 2). In Doklady an ussr (Vol. 269, pp. 543-547).
momentum	Qian, N. (1999). On the momentum term in gradient descent learning algorithms. Neural networks, 12(1), 145-151.
AdaGrad	Duchi, J., Hazan, E., & Singer, Y. (2011). Adaptive subgradient methods for online learning and stochastic optimization. Journal of machine learning research, 12(7).
AdaDelta	Zeiler, M. D. (2012). Adadelta: an adaptive learning rate method. arXiv preprint arXiv:1212.5701.
Adam& AdaMax	Kingma, D. P., & Ba, J. (2014). Adam: A method for stochastic optimization. arXiv preprint arXiv:1412.6980.
AdamW	Loshchilov, I., & Hutter, F. (2017). Decoupled weight decay regularization. arXiv preprint arXiv:1711.05101.
Nadam	Dozat, T. (2016). Incorporating nesterov momentum into adam.
Lookahead	Zhang, M. R., Lucas, J., Hinton, G., & Ba, J. (2019). Lookahead optimizer: k steps forward, 1 step back. arXiv preprint arXiv:1907.08610.
RAdam	Liu, L., Jiang, H., He, P., Chen, W., Liu, X., Gao, J., & Han, J. (2019). On the variance of the adaptive learning rate and beyond. arXiv preprint arXiv:1908.03265.
AMSGRAD	Reddi, S. J., Kale, S., & Kumar, S. (2019). On the convergence of adam and beyond. arXiv preprint arXiv:1904.09237.

3.4 优化器的相关经验

各优化算法孰优孰劣并无定论，有时理论上好并不能代表实际也佳。刚入门推荐优先考虑 SGDM 和 Adam。

Adam 等自适应学习率算法对稀疏数据颇具优势，且收敛很快，故对于稀疏数据，尽量使用学习率可自适应的优化方法，不用手动调节，且最好采用默认值；SGD 系列通常训练时间更长，但是在好的初始化和学习率调度下 (精调) 的 SGDM 往往能取得最佳结果。

根据你的需求来选择 —— 若要快速验证新模型效果，且需要训练较深较复杂的网络时，可先用 Adam 快速优化；在模型上线或者结果发布前，可以用精调的 SGD 系列优化算法进行模型的极致优化。

考虑不同算法的组合。例如先用 Adam 快速接近收敛，然后切换到 SGDM 系列充分调优。

添加梯度噪声 (高斯分布 ) 到参数更新中，可使网络对不良初始化更加 robust，并有助于训练特别深而复杂的网络。

3.5 SGD 有多种改进，但为什么还是用 SGD 较多？

因为 SGD (with Momentum) 依然常为实践效果更好的方法。

在理论上和实践中，Adam 系列的自适应学习率优化器都不善于寻找 flat minima，而 flat minima 对于 generalization 是很重要的。所以 Adam 的 training loss 可能更低，但 test performance 常常却更差。这是很多任务里避免用自适应学习率的最主要原因。同时，SGD 的理论基础较为明确、直观，而 以 Adam 为代表的自适应优化器是一种很 heuristic、理论机制不够清晰的方法。

从以上两个实验对比容易看到，Adam 的 training 时确实收敛速度快，但在 testing 时造成的误差却都比 training 时差上许多。

事实上，在 CV 领域，SGD 系列时至今日仍是统治级的优化器。但是在 NLP (特别是 Transformer-based models) 领域，Adam 系列已最流行。所以为什么 SGD 和 Adam 会各有所长呢？

如果在 CV 中用 Adam 系列的自适应优化器，得到的结果很有可能会离 SGD 的 baseline 差好几个点。主要原因是，CV 任务的自适应优化器容易找到 sharp minima，泛化表现常常比 SGD 显著地差。如果训练 Transformer 模型，则 Adam 优化得更快且更好。主要原因是，NLP 任务的 loss landscape 有很多 “悬崖峭壁”，自适应学习率更能处理这种极端情况，避免梯度爆炸。基于同样的原因，CV 很少用的 gradient clipping 在 NLP 任务里几乎必不可少。(Why Gradient Clipping Accelerates Training: A Theoretical Justification for Adaptivity)。当然，也有一些例外。虽然 GAN 一般是 CV 任务，但 Adam 还是成为了最流行的优化器。主要原因是，GAN 的训练不太稳定，其 loss landscape 和正常的 CV 任务很不同。通常，能稳定训练 GAN 就足够好了，flat minima 对 GAN 的意义还不很明确。其实，对于比较极端的 loss landscape，Adam 可能会比较有优势。虽然 Adam 不擅长找到 flat minima，但 Adam 能比 SGD (有理论上保障地) 更快地逃离鞍点。

最后，很多人误以为 Adam 存在以下两个优点，但实际上并不存在。这也在一定程度上阻碍了 Adam 流行：

误解一，使用 Adam 无需调节初始学习率

尽管 Adam 默认的学习率 0.001 被广泛使用，但是在 Adam 比 SGD 表现好的领域，恰好都是重新调 Adam 的学习率的。比如训练 GAN 时大家一般用学习率 0.0002，而不是 0.001；而训练 Transformer 会需要比 0.001 更大的初始学习率，默认设置是学习率 0.2+ NOAM Scheduler。调节学习率对结果影响很大，可以说是优化器最重要的超参数。当然，Adam 在一般 CV 任务中无需调学习率，但是这些任务里无论调不调都无法匹敌 SGD。

误解二，使用 Adam 无需 learning rate decay

许多人甚至一些 PhD 和工程师对此也有很深误解。答案是，自适应优化器和 learning rate scheduler 经常需要同时 (叠加) 工作。SGD 和 Adam 的收敛性证明也都是要求 learning rate 最后会降到足够低的。但自适应优化器的学习率不会在训练中自动降到很低。实际上随便用 CIFAR 或 ImageNet 跑一跑常见模型就知道，训练的最后阶段，如果不主动把 learning rate 降下去，loss 根本就不会自己收敛到一个比较小的值，因此从理论到实践上都太需要 learning rate decay 了。

参考资料：

《百面机器学习》

https://mp.weixin.qq.com/s/-onwC8oxNHyeezEnSjHx3w

https://mp.weixin.qq.com/s/p5nYf5iWpevPpKotWpp6Og

https://mp.weixin.qq.com/s/RLzRI7DJMiVc9sZyBSAY1A

https://mp.weixin.qq.com/s/-onwC8oxNHyeezEnSjHx3w

https://mp.weixin.qq.com/s/bv65yqoaw35ZaGywxHGenw

Adam的问题与改善方案

SGD有多种改进的形式，为什么大多数论文中仍然用SGD？

SGD有多种改进的形式(RMSprop,Adadelta等),为什么大多数论文中仍然用SGD? - 知乎

https://www.cnblogs.com/peachtea/p/13532209.html

【python实现卷积神经网络】优化器的实现（SGD、Nesterov、Adagrad、Adadelta、RMSprop、Adam） - 走看看

你可能感兴趣的:(【机器学习与深度学习】,机器学习,人工智能,深度学习)

为了在未来的人工智能世界中取得成功，学生们必须学习人类写作的优点睿邸管家
澳大利亚各地的学生在新学年开始使用铅笔、钢笔和键盘学习写字。在工作场所，机器也在学习写作，如此有效，几年之内，它们可能会写得比人类更好。有时它们已经做到了，就像Grammarly这样的应用程序所展示的那样。当然，人类现在的日常写作可能很快就会由具有人工智能(AI)的机器来完成。手机和电子邮件软件常用的预测文本是无数人每天都在使用的一种人工智能写作形式。据AI行业研究机构称，到2022年，人工智能及
Anaconda 和 Miniconda：功能详解与选择建议古月฿ python入门 python conda
Anaconda和Miniconda详细介绍一、Anaconda的详细介绍1.什么是Anaconda？Anaconda是一个开源的包管理和环境管理工具，在数据科学、机器学习以及科学计算领域发挥着关键作用。它以Python和R语言为基础，为用户精心准备了大量预装库和工具，极大地缩短了搭建数据科学环境的时间。对于那些想要快速开展数据分析、模型训练等工作的人员来说，Anaconda就像是一个一站式的“数
人工智能应用研究快讯 2021-11-30 峰谷皆平
[HTML]ArtificialIntelligenceforSkinCancerDetection:ScopingReviewATakiddin,JSchneider,YYang,AAbd-Alrazaq...JournalofMedicalInternet...,2021ABSTACT:Background:Skincanceristhemostcommoncancertypeaffectin
机器学习必备数学与编程指南：从入门到精通 a小胡哦机器学习基础机器学习人工智能
一、机器学习核心数学基础1.线性代数（神经网络的基础）必须掌握：矩阵运算（乘法、转置、逆）向量空间与线性变换特征值分解与奇异值分解(SVD)为什么重要：神经网络本质就是矩阵运算学习技巧：用NumPy实际操作矩阵运算2.概率与统计（模型评估的关键）核心概念：条件概率与贝叶斯定理概率分布（正态、泊松、伯努利）假设检验与p值应用场景：朴素贝叶斯、A/B测试3.微积分（优化算法的基础）重点掌握：导数与偏导
从振动信号到精准预警：AI 如何重塑工业设备健康管理？缘华工业智维人工智能计算机视觉边缘计算信息与通信
在智能制造浪潮席卷全球的当下，工业生产正经历着从传统模式向智能化、数字化转型的深刻变革。在这场变革中，AI驱动的振动分析技术犹如一颗璀璨新星，成为工业设备可靠运行的“健康卫士”。它通过在设备关键部位部署振动传感器，如同医生为患者听诊般实时采集设备运行时的振动信号，再借助强大的人工智能算法对这些“工业脉搏”进行深度解析，从而实现对工业设备从故障预警到寿命预测的全周期精准守护。一、AI振动分析：设备状
AI 生成虚拟宠物：24 小时陪你聊天解闷大力出奇迹985 人工智能宠物
本文围绕AI生成虚拟宠物展开，介绍这类依托人工智能技术诞生的虚拟伙伴，能实现24小时不间断陪伴聊天，为人们解闷。文中详细阐述其技术基础，包括自然语言处理、机器学习等；分析多样功能，如个性化互动、情绪回应等；探讨在独居人群、压力大者等不同群体中的应用场景，最后总结其为人们生活带来的积极影响及未来发展潜力，展现AI虚拟宠物在陪伴领域的独特价值。一、AI生成虚拟宠物的诞生背景与技术基石在快节奏的现代社会
基于Python的AI健康助手：开发与部署全攻略 AI算力网络与通信 AI算力网络与通信原理 AI人工智能大数据架构 python 人工智能开发语言 ai
基于Python的AI健康助手：开发与部署全攻略关键词：Python、AI健康助手、机器学习、自然语言处理、Flask、部署、健康管理摘要：本文将详细介绍如何使用Python开发一个AI健康助手，从需求分析、技术选型到核心功能实现，再到最终部署上线的完整过程。我们将使用自然语言处理技术理解用户健康咨询，通过机器学习模型提供个性化建议，并展示如何用Flask框架构建Web应用接口。文章包含大量实际代
GPT-4 在 AIGC 中的微调技巧：让模型更懂你的需求 AIGC应用创新大全 AI人工智能与大数据应用开发 MCP&Agent 云算力网络 AIGC ai
GPT-4在AIGC中的微调技巧：让模型更懂你的需求关键词：GPT-4、AIGC、模型微调、监督学习、指令优化、过拟合预防、个性化生成摘要：AIGC（人工智能生成内容）正在重塑内容创作行业，但通用的GPT-4模型可能无法精准匹配你的垂直需求——比如写电商爆款文案时总“跑题”，或生成技术文档时专业术语不够。本文将用“教小朋友学画画”的通俗类比，从微调的底层逻辑讲到实战技巧，带你掌握让GPT-4“更懂
AIGC内容生成实战：如何用ChatGPT+DALL·E打造高转化内容 AI大模型应用工坊 AI大模型开发实战 AIGC chatgpt ai
AIGC内容生成实战：如何用ChatGPT+DALL·E打造高转化内容关键词：AIGC、ChatGPT、DALL·E、内容生成、高转化营销、多模态协同、提示词工程摘要：随着AIGC（人工智能生成内容）技术的爆发式发展，ChatGPT（文本生成）与DALL·E（图像生成）的组合已成为内容创作领域的“黄金搭档”。本文将深度解析二者的协同原理，结合实战案例演示从需求分析到内容落地的全流程，并揭示提升内容
数据分析领域中AI人工智能的发展前景展望 AI大模型应用工坊 AI大模型开发实战数据分析人工智能数据挖掘 ai
数据分析领域中AI人工智能的发展前景展望关键词：数据分析、人工智能、机器学习、深度学习、数据挖掘、预测分析、自动化摘要：本文深入探讨了人工智能在数据分析领域的发展现状和未来趋势。我们将从核心技术原理出发，分析AI如何改变传统数据分析范式，详细讲解机器学习算法在数据分析中的应用，并通过实际案例展示AI驱动的数据分析解决方案。文章还将探讨行业应用场景、工具生态以及未来发展面临的挑战和机遇，为数据分析师
AI人工智能中的数据挖掘：提升智能决策能力
AI人工智能中的数据挖掘：提升智能决策能力关键词：数据挖掘、人工智能、机器学习、智能决策、数据分析、特征工程、模型优化摘要：本文深入探讨了数据挖掘在人工智能领域中的核心作用，重点分析了如何通过数据挖掘技术提升智能决策能力。文章从基础概念出发，详细介绍了数据挖掘的关键算法、数学模型和实际应用场景，并通过Python代码示例展示了数据挖掘的全流程。最后，文章展望了数据挖掘技术的未来发展趋势和面临的挑战
数据中台中的数据科学工作台：Jupyter集成方案 AI大数据智能洞察大数据与AI人工智能 jupyter 信息可视化 ide ai
数据中台中的数据科学工作台：Jupyter集成方案关键词：数据中台、数据科学工作台、JupyterNotebook、数据科学、机器学习、数据可视化、协作开发摘要：本文深入探讨了在数据中台架构中集成JupyterNotebook作为数据科学工作台的完整解决方案。我们将从数据中台的基本概念出发，详细分析Jupyter在数据科学工作流中的核心作用，介绍多种集成方案和技术实现细节，并通过实际案例展示如何构
2018年中南大学中英翻译某翁
参考：20180827235856533.jpg【1】机器学习理论表明，机器学习算法能从有限个训练集样本上得到较好的泛化【1】Machinelearningtheoryshowsthatmachinelearningalgorithmcangeneralizewellfromfinitetrainingsetsampleslimited有限的infinite无限的【2】这似乎违背了一些基本的逻辑准
【三桥君】MCP中台，究竟如何实现多模型、多渠道、多环境的统一管控？如何以MCP为核心设计AI应用架构？三桥君《三桥君 MCP落地方法论》《三桥君 AI大模型落地方法论》#《三桥君 AI产品方法论》人工智能 AI产品经理 MCP API 三桥君系统架构 llama
你好，我是✨三桥君✨本文介绍>>一、引言随着人工智能技术的快速发展，越来越多的企业开始引入大语言模型（LLM）以提升用户体验和运营效率。然而，如何高效、稳定地将这些AI能力落地到生产环境呢？传统的系统架构往往难以应对AI应用的高并发、低延迟和灵活扩展需求，因此，从整体架构角度设计AI应用架构显得尤为重要。本文三桥君将深入探讨以MCP为核心的AI应用架构，并分析多种部署方式的优劣势，为企业在AI落地
深入理解卷积神经网络（CNN）与循环神经网络（RNN） CodeJourney. cnn rnn 人工智能
在当今的人工智能领域，神经网络无疑是最为璀璨的明珠之一。而卷积神经网络（ConvolutionalNeuralNetworks，CNN）和循环神经网络（RecurrentNeuralNetworks，RNN）作为神经网络家族中的重要成员，各自有着独特的架构和强大的功能，广泛应用于众多领域。本文将深入探讨这两种神经网络的原理、特点以及应用场景，为对深度学习感兴趣的读者提供全面的知识讲解。一、卷积神经
今年校招竞争真激烈 12_05
程序员满大街，都要找不到工作了。即使人工智能满大街，我也后悔当初没学机器学习，后悔当初没学Java。C++真难找工作。难道毕了业就失业吗？好担心！
时序预测 | MATLAB实现贝叶斯优化CNN-GRU时间序列预测(股票价格预测) Matlab机器学习之心 matlab cnn gru
✅作者简介：热爱数据处理、数学建模、仿真设计、论文复现、算法创新的Matlab仿真开发者。更多Matlab代码及仿真咨询内容点击主页：Matlab科研工作室个人信条：格物致知，期刊达人。内容介绍股票价格预测一直是金融领域一个极具挑战性的课题。其内在的非线性、随机性和复杂性使得传统的预测方法难以取得令人满意的效果。近年来，深度学习技术，特别是卷积神经网络(CNN)和门控循环单元(GRU)的结合，为时
时序预测 | MATLAB实现BO-CNN-GRU贝叶斯优化卷积门控循环单元时间序列预测 Matlab算法改进和仿真定制工程师 matlab cnn gru
✅作者简介：热爱数据处理、数学建模、算法创新的Matlab仿真开发者。更多Matlab代码及仿真咨询内容点击：Matlab科研工作室个人信条：格物致知。内容介绍时间序列预测在各个领域都具有重要的应用价值，例如金融市场预测、气象预报、交通流量预测等。准确地预测未来趋势对于决策制定至关重要。近年来，深度学习技术在时间序列预测领域取得了显著进展，其中卷积神经网络(CNN)和门控循环单元(GRU)由于其强
Python Gradio：实现交互式图像编辑 PythonAI编程架构实战家 Python编程之道 python 开发语言 ai
PythonGradio：实现交互式图像编辑关键词：Python,Gradio,交互式图像编辑,计算机视觉,深度学习,图像处理,Web应用摘要：本文将深入探讨如何使用Python的Gradio库构建交互式图像编辑应用。我们将从基础概念开始，逐步介绍Gradio的核心功能，并通过实际代码示例展示如何实现各种图像处理功能。文章将涵盖图像滤镜应用、对象检测、风格迁移等高级功能，同时提供完整的项目实战案例
基于随机森林的白酒风味智能分类系统：从数据到洞察的完整实践笙囧同学 python
作者：笙囧同学|中科院计算机大模型方向硕士|全栈开发爱好者座右铭：偷懒是人生进步的阶梯联系方式：[email protected]各大平台账号/公众号：笙囧同学前言大家好，我是笙囧同学！今天给大家分享一个超级有趣且技术含量爆表的项目——白酒风味智能分类系统。作为一个既爱技术又爱美酒的程序员，我花了大量时间研究如何用机器学习的方法来"品酒"，让AI帮我们识别白酒的风味特征。这个项目融合了机器学习、数
如何运用深度学习打造高效AI人工智能系统 AI智能探索者 AI Agent 智能体开发实战人工智能深度学习 ai
如何运用深度学习打造高效AI人工智能系统关键词：深度学习、AI系统、神经网络、模型优化、实战开发摘要：本文将从深度学习的核心概念出发，结合生活实例和代码实战，系统讲解如何构建高效AI系统。我们会拆解数据准备、模型设计、训练优化、部署落地的全流程，揭秘“数据-模型-训练-推理”的协同机制，并通过具体案例演示从0到1开发AI系统的关键技巧，帮助开发者掌握打造高效AI系统的底层逻辑。背景介绍目的和范围在
非欧空间计算加速：图神经网络与微分几何计算的GPU优化（流形数据的内存布局优化策略）九章云极AladdinEdu 空间计算神经网络人工智能 gpu算力算法 java 开发语言
一、非欧空间计算的革命性意义与核心挑战在三维形状分析、社交网络建模、分子动力学模拟等领域，非欧几里得空间数据（流形数据）的处理正推动人工智能技术向更复杂的几何结构迈进。传统欧式空间优化方法在处理流形数据时面临根本性局限：黎曼度量导致距离计算失效、局部坐标系动态变化引发内存访问模式混乱、曲率变化影响并行计算效率。本文提出基于分块流形存储（BlockedManifoldStorage,BMS）与层次化
Spring AI与机器学习：智能应用开发新范式 tmjpz04412 人工智能 spring 机器学习
SpringAI与机器学习的整合SpringAI是一个基于Spring生态的AI开发框架，旨在简化智能应用的开发流程。通过SpringAI，开发者可以快速集成机器学习模型，构建高效的智能应用。SpringAI支持多种机器学习库和框架，如TensorFlow、PyTorch和Scikit-learn，提供统一的API接口。SpringAI的核心优势在于其模块化设计和自动化配置。开发者无需关心复杂的依
响应式编程实践：Spring Boot WebFlux构建高性能非阻塞服务 fanxbl957 Web spring boot 后端 java
博主介绍：Java、Python、js全栈开发“多面手”，精通多种编程语言和技术，痴迷于人工智能领域。秉持着对技术的热爱与执着，持续探索创新，愿在此分享交流和学习，与大家共进步。全栈开发环境搭建运行攻略：多语言一站式指南(环境搭建+运行+调试+发布+保姆级详解)感兴趣的可以先收藏起来，希望帮助更多的人响应式编程实践：SpringBootWebFlux构建高性能非阻塞服务一、引言在当今数字化时代，互
企业级RAG的数据方案选择 - 向量数据库、图数据库和知识图谱南七小僧 AI技术产品经理网站开发人工智能数据库知识图谱人工智能
如何为企业RAG选择合适的数据存储方式摘要:本文讨论了矢量数据库、图数据库和知识图谱在解决信息检索挑战方面的重要性，特别是针对企业规模的检索增强生成（RAG）。看看海外人工智能企业Writer是如何利用知识图谱增强企业级RAG。要点概要：矢量数据库高效存储数据，但缺乏上下文和关联信息。图数据库优先考虑数据点之间的关系，受益于关系结构。知识图谱在语义存储方面表现出色，由于其能够编码丰富的上下文信息，
【人工智能入门必看的最全Python编程实战（1）】 DFCED 人工智能 python 开发语言深度学习找工作就业
--------------------------------------------------------------------------------------------------------------------1.AIGC未来发展前景未完持续…1.1人工智能相关科研重要性拥有一篇人工智能科研论文及专利软著竞赛是保研考研留学深造以及找工作的关键门票！！！拥有一篇人工智能科研论文
基于深度学习的目标检测算法综述：从RCNN到YOLOv13，一文看懂十年演进！人工智能教程深度学习目标检测算法人工智能自动驾驶 YOLO 机器学习
一、引言：目标检测的十年巨变2012年AlexNet拉开深度学习序幕，2014年RCNN横空出世，目标检测从此进入“深度时代”。十年间，算法从两阶段到单阶段，从Anchor-base到Anchor-free，从CNN到Transformer，从2D到3D，从监督学习到自监督学习，迭代速度之快令人目不暇接。本文将系统梳理基于深度学习的目标检测算法，带你全面了解技术演进、核心思想、代表算法、工业落地与
Baumer工业相机堡盟工业相机如何通过YoloV8深度学习模型实现不同水果的检测识别（C#代码，UI界面版）
Baumer工业相机堡盟工业相机如何通过YoloV8深度学习模型实现不同水果的检测识别（C#代码，UI界面版））工业相机使用YoloV8模型实现不同水果的检测识别工业相机通过YoloV8模型实现不同水果的检测识别的技术背景在相机SDK中获取图像转换图像的代码分析工业相机图像转换Bitmap图像格式和Mat图像重要核心代码本地文件图像转换Bitmap图像格式和Mat图像重要核心代码Mat图像导入Yo
2025毫米波雷达技术白皮书：智能汽车与物联网的感知核心
随着人工智能、物联网（IoT）和智能汽车产业的迅猛发展，毫米波雷达技术正成为感知领域的核心驱动力。毫米波雷达凭借其高精度、全天候和强抗干扰能力，广泛应用于智能汽车的自动驾驶、物联网的环境感知以及工业自动化。2025年，毫米波雷达技术在性能、应用场景和市场规模上都达到了一个全新的高度。本白皮书将深入探讨毫米波雷达技术的核心优势、发展趋势及其在智能汽车与物联网中的应用前景，同时推荐各大品牌的领先产品方
从零开始构建深度学习环境：基于Pytorch、CUDA与cuDNN的虚拟环境搭建与实践（适合初学者）荣华富贵8 程序员的知识储备2 程序员的知识储备3 深度学习 pytorch 人工智能
摘要：深度学习正在引领人工智能技术的革新，而对于初学者来说，正确搭建深度学习环境是迈向AI研究与应用的第一步。本文将为读者提供一套详尽的教程，指导如何在本地环境中搭建Pytorch、CUDA与cuDNN，以及如何利用Anaconda和PyCharm进行高效开发。内容涵盖从环境配置、常见错误修正，到基础的深度学习模型构建及训练。我们旨在为深度学习零基础的入门者提供一个全面且易于理解的“保姆级”教程，
统一思想认识永夜-极光思想
1.统一思想认识的基础,才能有的放矢原因: 总有一种描述事物的方式最贴近本质,最容易让人理解. 如何让教育更轻松,在于找到最适合学生的方式. 难点在于,如何模拟对方的思维基础选择合适的方式. &
Joda Time使用笔记 bylijinnan java joda time
Joda Time的介绍可以参考这篇文章： http://www.ibm.com/developerworks/cn/java/j-jodatime.html 工作中也常常用到Joda Time，为了避免每次使用都查API，记录一下常用的用法： /** * DateTime变化（增减） */ @Tes
FileUtils API eksliang FileUtils FileUtils API
转载请出自出处：http://eksliang.iteye.com/blog/2217374 一、概述这是一个Java操作文件的常用库，是Apache对java的IO包的封装，这里面有两个非常核心的类FilenameUtils跟FileUtils，其中FilenameUtils是对文件名操作的封装;FileUtils是文件封装，开发中对文件的操作，几乎都可以在这个框架里面找到。非常的好用。
各种新兴技术不懂事的小屁孩技术
1:gradle Gradle 是以 Groovy 语言为基础，面向Java应用为主。基于DSL（领域特定语言）语法的自动化构建工具。现在构建系统常用到maven工具，现在有更容易上手的gradle，搭建java环境: http://www.ibm.com/developerworks/cn/opensource/os-cn-gradle/ 搭建android环境： http://m
tomcat6的https双向认证酷的飞上天空 tomcat6
1.生成服务器端证书 keytool -genkey -keyalg RSA -dname "cn=localhost,ou=sango,o=none,l=china,st=beijing,c=cn" -alias server -keypass password -keystore server.jks -storepass password -validity 36
托管虚拟桌面市场势不可挡蓝儿唯美
用户还需要冗余的数据中心，dinCloud的高级副总裁兼首席营销官Ali Din指出。该公司转售一个MSP可以让用户登录并管理和提供服务的用于DaaS的云自动化控制台，提供服务或者MSP也可以自己来控制。在某些情况下，MSP会在dinCloud的云服务上进行服务分层，如监控和补丁管理。 MSP的利润空间将根据其参与的程度而有所不同，Din说。 “我们有一些合作伙伴负责将我们推荐给客户作为个
spring学习——xml文件的配置 a-john spring
在Spring的学习中，对于其xml文件的配置是必不可少的。在Spring的多种装配Bean的方式中，采用XML配置也是最常见的。以下是一个简单的XML配置文件： <?xml version="1.0" encoding="UTF-8"?> <beans xmlns="http://www.springframework.or
HDU 4342 History repeat itself 模拟 aijuans 模拟
来源：http://acm.hdu.edu.cn/showproblem.php?pid=4342 题意：首先让求第几个非平方数，然后求从1到该数之间的每个sqrt(i)的下取整的和。思路：一个简单的模拟题目，但是由于数据范围大，需要用__int64。我们可以首先把平方数筛选出来，假如让求第n个非平方数的话，看n前面有多少个平方数，假设有x个，则第n个非平方数就是n+x。注意两种特殊情况，即
java中最常用jar包的用途 asia007 java
java中最常用jar包的用途 jar包用途axis.jarSOAP引擎包commons-discovery-0.2.jar用来发现、查找和实现可插入式接口，提供一些一般类实例化、单件的生命周期管理的常用方法.jaxrpc.jarAxis运行所需要的组件包saaj.jar创建到端点的点到点连接的方法、创建并处理SOAP消息和附件的方法，以及接收和处理SOAP错误的方法. w
ajax获取Struts框架中的json编码异常和Struts中的主控制器异常的解决办法百合不是茶 js json编码返回异常
一:ajax获取自定义Struts框架中的json编码出现以下问题: 1,强制flush输出 json编码打印在首页 2, 不强制flush js会解析json 打印出来的是错误的jsp页面却没有跳转到错误页面 3, ajax中的dataType的json 改为text 会
JUnit使用的设计模式 bijian1013 java 设计模式 JUnit
JUnit源代码涉及使用了大量设计模式 1、模板方法模式（Template Method）定义一个操作中的算法骨架，而将一些步骤延伸到子类中去，使得子类可以不改变一个算法的结构，即可重新定义该算法的某些特定步骤。这里需要复用的是算法的结构，也就是步骤，而步骤的实现可以在子类中完成。
Linux常用命令（摘录） sunjing crond chkconfig
chkconfig --list 查看linux所有服务 chkconfig --add servicename 添加linux服务 netstat -apn | grep 8080 查看端口占用 env 查看所有环境变量 echo $JAVA_HOME 查看JAVA_HOME环境变量安装编译器 yum install -y gcc
【Hadoop一】Hadoop伪集群环境搭建 bit1129 hadoop
结合网上多份文档，不断反复的修正hadoop启动和运行过程中出现的问题，终于把Hadoop2.5.2伪分布式安装起来，跑通了wordcount例子。Hadoop的安装复杂性的体现之一是，Hadoop的安装文档非常多，但是能一个文档走下来的少之又少，尤其是Hadoop不同版本的配置差异非常的大。Hadoop2.5.2于前两天发布，但是它的配置跟2.5.0，2.5.1没有分别。 &nb
Anychart图表系列五之事件监听白糖_ chart
创建图表事件监听非常简单：首先是通过addEventListener('监听类型',js监听方法)添加事件监听，然后在js监听方法中定义具体监听逻辑。以钻取操作为例，当用户点击图表某一个point的时候弹出point的name和value，代码如下： <script> //创建AnyChart var chart = new AnyChart(); //添加钻取操作&quo
Web前端相关段子 braveCS web前端
Web标准：结构、样式和行为分离使用语义化标签 0）标签的语义：使用有良好语义的标签，能够很好地实现自我解释，方便搜索引擎理解网页结构，抓取重要内容。去样式后也会根据浏览器的默认样式很好的组织网页内容，具有很好的可读性，从而实现对特殊终端的兼容。 1）div和span是没有语义的：只是分别用作块级元素和行内元素的区域分隔符。当页面内标签无法满足设计需求时，才会适当添加div
编程之美-24点游戏 bylijinnan 编程之美
import java.util.ArrayList; import java.util.Arrays; import java.util.HashSet; import java.util.List; import java.util.Random; import java.util.Set; public class PointGame { /**编程之美
主页面子页面传值总结 chengxuyuancsdn 总结
1、showModalDialog returnValue是javascript中html的window对象的属性,目的是返回窗口值,当用window.showModalDialog函数打开一个IE的模式窗口时,用于返回窗口的值主界面 var sonValue=window.showModalDialog("son.jsp"); 子界面 window.retu
[网络与经济]互联网+的含义 comsci 互联网+
互联网+后面是一个人的名字 = 网络控制系统互联网+你的名字 = 网络个人数据库每日提示:如果人觉得不舒服,千万不要外出到处走动,就呆在床上,玩玩手游,更不能够去开车,现在交通状况不
oracle 创建视图 with check option daizj 视图 view oralce
我们来看下面的例子： create or replace view testview as select empno,ename from emp where ename like ‘M%’ with check option; 这里我们创建了一个视图，并使用了with check option来限制了视图。然后我们来看一下视图包含的结果： select * from testv
ToastPlugin插件在cordova3.3下使用 dibov Cordova
自己开发的Todos应用，想实现“ 再按一次返回键退出程序 ”的功能，采用网上的ToastPlugins插件，发现代码或文章基本都是老版本，运行问题比较多。折腾了好久才弄好。下面吧基于cordova3.3下的ToastPlugins相关代码共享。 ToastPlugin.java package&nbs
C语言22个系统函数 dcj3sjt126com c function
C语言系统函数一、数学函数下列函数存放在math.h头文件中Double floor(double num) 求出不大于num的最大数。Double fmod(x, y) 求整数x/y的余数。Double frexp(num, exp); double num; int *exp; 将num分为数字部分（尾数）x和以2位的指数部分n，即num=x*2n，指数n存放在exp指向的变量中，返回x。D
开发一个类的流程 dcj3sjt126com 开发
本人近日根据自己的开发经验总结了一个类的开发流程。这个流程适用于单独开发的构件，并不适用于对一个项目中的系统对象开发。开发出的类可以存入私人类库，供以后复用。以下是开发流程： 1. 明确类的功能，抽象出类的大概结构 2. 初步设想类的接口 3. 类名设计（驼峰式命名） 4. 属性设置(权限设置) 判断某些变量是否有必要作为成员属
java 并发 shuizhaosi888 java 并发
能够写出高伸缩性的并发是一门艺术在JAVA SE5中新增了3个包 java.util.concurrent java.util.concurrent.atomic java.util.concurrent.locks 在java的内存模型中，类的实例字段、静态字段和构成数组的对象元素都会被多个线程所共享，局部变量与方法参数都是线程私有的，不会被共享。
Spring Security（11）——匿名认证 234390216 Spring Security ROLE_ANNOYMOUS 匿名
匿名认证目录 1.1 配置 1.2 AuthenticationTrustResolver 对于匿名访问的用户，Spring Security支持为其建立一个匿名的AnonymousAuthenticat
NODEJS项目实践0.2[ express,ajax通信...] 逐行分析JS源代码 Ajax nodejs express
一、前言通过上节学习，我们已经 ubuntu系统搭建了一个可以访问的nodejs系统，并做了nginx转发。本节原要做web端服务及 mongodb的存取，但写着写着，web端就
在Struts2 的Action中怎样获取表单提交上来的多个checkbox的值 lhbthanks java html struts checkbox
第一种方法：获取结果String类型在 Action 中获得的是一个 String 型数据，每一个被选中的 checkbox 的 value 被拼接在一起，每个值之间以逗号隔开(,)。所以在 Action 中定义一个跟 checkbox 的 name 同名的属性来接收这些被选中的 checkbox 的 value 即可。以下是实现的代码：前台 HTML 代码：
003.Kafka基本概念 nweiren hadoop kafka
Kafka基本概念：Topic、Partition、Message、Producer、Broker、Consumer。 Topic：消息源（Message）的分类。 Partition： Topic物理上的分组，一
Linux环境下安装JDK roadrunners jdk linux
1、准备工作创建JDK的安装目录： mkdir -p /usr/java/ 下载JDK，找到适合自己系统的JDK版本进行下载： http://www.oracle.com/technetwork/java/javase/downloads/index.html 把JDK安装包下载到/usr/java/目录，然后进行解压： tar -zxvf jre-7
Linux忘记root密码的解决思路 tomcat_oracle linux
1：使用同版本的linux启动系统，chroot到忘记密码的根分区passwd改密码　　2：grub启动菜单中加入init=/bin/bash进入系统，不过这时挂载的是只读分区。根据系统的分区情况进一步判断. 　　3: grub启动菜单中加入 single以单用户进入系统. 　　4:用以上方法mount到根分区把/etc/passwd中的root密码去除　　例如: 　　ro
跨浏览器 HTML5 postMessage 方法以及 message 事件模拟实现 xueyou jsonp jquery 框架 UI html5
postMessage 是 HTML5 新方法，它可以实现跨域窗口之间通讯。到目前为止，只有 IE8+, Firefox 3, Opera 9, Chrome 3和 Safari 4 支持，而本篇文章主要讲述 postMessage 方法与 message 事件跨浏览器实现。postMessage 方法 JSONP 技术不一样，前者是前端擅长跨域文档数据即时通讯，后者擅长针对跨域服务端数据通讯，p