深度学习基础问题总结

梯度是什么，hessian矩阵怎么求
介绍下凸函数
内积和外积的区别
Dropout怎么防止过拟合
介绍下BN
介绍下常见的优化算法
介绍下常见的激活函数
介绍下常见的损失函数
梯度爆炸和梯度消失问题
网络权重初始化为0会怎样，非0常数呢
Embedding如何训练
Embedding如何设置维度？越大越好还是越小越好？
深度模型和传统ML模型对数据量的要求

梯度是什么，hessian矩阵怎么求

梯度的概念和例子说明

梯度的本意是一个向量（矢量），表示某一函数在该点处的方向导数沿着该方向取得最大值，即函数在该点处沿着该方向（此梯度的方向）变化最快，变化率最大（为该梯度的模）。其中，方向导数是各个方向上的导数。函数 z=f(x,y) 在点 P0 处的梯度方向是函数变化率（即方向导数）最大的方向。

梯度是一个向量（矢量）；既有大小，也有方向；
偏导数连续才有梯度存在；
梯度的值（大小或者说模）是方向导数的最大值；
梯度的方向是方向导数中取到最大值的方向，也就是说梯度的方向就是函数 f(x,y) 在这点增长最快的方向

举个例子，对于多维变量函数（这里以三维为例）来说，假设 $f=x^2+3xy+y^2+z^3$ ，点A处的梯度为：

可理解为，站在向量点A（1, 2, 3），如果想让函数 f 的值增长得最快，那么它的下一个前进的方向，就是朝着向量点B（8,7,27）方向进发。

hessian矩阵

黑塞矩阵（Hessian Matrix），是一个多元函数的二阶偏导数构成的方阵，描述了函数的局部曲率。黑塞矩阵常用于牛顿法解决优化问题，利用黑塞矩阵可判定多元函数的极值问题。在工程实际问题的优化设计中，所列的目标函数往往很复杂，为了使问题简化，常常将目标函数在某点邻域展开成泰勒多项式来逼近原函数，此时函数在某点泰勒展开式的矩阵形式中会涉及到黑塞矩阵。

Hessian Matrix，它有着广泛的应用，如在牛顿方法、求极值以及边缘检测、消除边缘响应等方面的应用，图像处理里，可以抽取图像特征，在金融里可以用来作量化分析。

参考文章

【深度学习之美18】到底什么是梯度？
梯度下降（Gradient Descent）小结
如何直观形象地理解方向导数与梯度以及它们之间的关系？
梯度（gradient）到底是个什么东西？物理意义和数学意义分别是什么？
梯度概念
Hessian矩阵以及在图像中的应用
【图像处理】海森矩阵（Hessian Matrix）及一个用例（图像增强）
Hessian矩阵
Hessian矩阵 - Jacobian矩阵（雅克比矩阵）
牛顿法与Hessian矩阵

介绍下凸函数

凸函数的数学定义

函数 $R^n \rightarrow {R}$ 是凸的，如果 $d o m f$ （即函数 $f$ 的定义域）是凸集，且对于任意 $\in dom f$ 和任意 $\theta \in [0,1]$ ，有
$f(\theta{x}+(1-\theta)y) \le \theta{f(x)}+(1-\theta)f(y)$

如果把 ≤ 换成 <，则是严格凸函数的数学定义。

凸函数的几何解释：

所谓凸函数，其实指的是下凸函数，从几何意义上看，凸函数就是任意两点之间的弦（即这两点构成的线段）都在该函数图像（此处是指这两点之间的函数图像，而非全部的函数图像）的上方。

上面的公式，完全可以推广到多元函数。在数据科学的模型求解中，如果优化的目标函数是凸函数，则局部极小值就是全局最小值。这也意味着我们求得的模型是全局最优的，不会陷入到局部最优值。例如支持向量机的目标函数 $\frac{||w||^2}{2}$ 就是一个凸函数。

凸集的数学定义
给定集合 $S$ ，对任意元素 $x_1,x_2$ 属于该集合 $S$ ，若对于任意 $\theta\in[0,1]$ ，有
$\theta{x_1}+(1-\theta)x_2$
即 $x$ 也在集合 $S$ 中，则集合 $S$ 是凸集。

以向量的角度来理解，就是点 $x_1$ 和 $x_2$ 在集合 $S$ 中，两点的连线也在该集合中。

怎么判断一个函数是否是凸函数

对于一元函数 $f (x)$ ，我们可以通过其二阶导数 $f^{′′}(x)$ 的符号来判断。如果函数的二阶导数总是非负，即 $f^{′′}(x)≥0$ ，则 $f (x)$ 是凸函数。

对于多元函数 $f (X)$ ，我们可以通过其 Hessian 矩阵（Hessian矩阵是由多元函数的二阶导数组成的方阵）的正定性来判断。如果 Hessian 矩阵是半正定矩阵，则 $f (X)$ 是凸函数。

Jensen不等式

对于凸函数，我们可以推广出一个重要的不等式，即 Jensen 不等式。如果 $f$ 是凸函数， $X$ 是随机变量，那么 $f (E (X)) \leq E (f (X))$ ，上式就是 Jensen 不等式的一般形式。

我们还可以看它的另一种描述。假设有 $n$ 个样本 { $x_1,x_2,...,x_n$ } 和对应的权重 { $\alpha_1,\alpha_2,...,\alpha_n$ }，权重满足 $\alpha_i⩾0,\sum{\alpha_i}=1$ ，对于凸函数 $f$ ，以下不等式成立：
$f(\sum_{i=1}^n\alpha_i{x_i}) \le \sum_{i=1}^n\alpha_i{f(x_i)}$

参考文章

深入理解（下）凸函数
什么是凸函数及如何判断一个函数是否是凸函数
机器学习概念篇：一文详解凸函数和凸优化，干货满满
凸函数定义判定和性质简介

内积和外积的区别

1. 向量点乘（内积）

向量的点乘，也叫内积，是对两个向量对应位一一相乘之后求和的操作，点乘的结果是一个标量。

1.1 计算公式

1.2 几何意义

表征或计算两个向量之间的夹角
b向量在a向量方向上的投影

2. 向量叉乘（外积）

两个向量的叉乘，又叫外积、叉积，叉乘的运算结果是一个向量而不是一个标量。并且两个向量的叉积与这两个向量组成的坐标平面垂直。

2.1 计算公式

2.2 几何意义

在3D图像学中，叉乘的概念非常有用，可以通过两个向量的叉乘，生成第三个垂直于a，b的法向量，从而构建X、Y、Z坐标系。如下图所示：

在二维空间中，叉乘还有另外一个几何意义就是：a $\times$ b等于由向量a和向量b构成的平行四边形的面积。

3. 总结

内积是一个向量在另一向量所在方向上的积，所以叫内积。
外积是一个向量在另一向量的无关方向上的积，所以才叫外积。

所以，两个相同向量的积在内积上达到最大，把外积方向给挤没了，所以外积中如果两个向量相同则为0。因为向量相同外积为0，所以才有交换变号，即反对称性。

参考文章

向量内积外积，为啥要叫「内」「外」？
向量点乘（内积）和叉乘（外积）
向量的点乘与叉乘的几何意义
向量点乘与叉乘
向量叉积的几何意义
向量叉乘

Dropout怎么防止过拟合

正则化是一类通过限制模型复杂度，从而避免过拟合，提高泛化能力的方法，比如引入约束、增加先验（数据增强）、提前停止、Dropout、模型集成等。

Dropout是指在深度网络的训练中，以一定的概率随机的“临时丢弃”一部分神经元节点。具体来讲，Dropout作用于每份下批量训练数据，由于其随机丢弃部分神经元的机制，相当于每次迭代都在训练不同的神经网络。类比于Bagging方法，Dropout可被认为是一种实用的大规模深度神经网络的模型集成方法。

Dropout的具体实现中，要求某个神经元节点激活值以一定的概率被“丢弃”，即该神经元暂时停止工作。因此对于包含 N 个神经元的网络，在Dropout的作用下可看作为 $2^N$ 个模型的集成。这 $2^N$ 个模型可被认为是原始网络的子网络，它们共享部分权值，并且具有相同的网络层数，而模型整体的参数数目不变，这就大大简化了运算。对于任意神经元，每次训练中都与一组随机挑选的不同的神经元集合共同进行优化，这个过程会减弱全体神经元之间的联合适应性，减少过拟合的风险，增加泛化能力。

Dropout实现原理

每次选择丢弃的神经元是随机的。最简单的方法是设置一个固定的概率 $p$ 。对每一个神经元都以概率 $p$ 来判定要不要保留。对于一个神经层 $\pmb{y}=f(\pmb{Wx}+\pmb{b})$ ，我们可以引入一个掩码函数 $mask(\cdot)$ 使得 $\pmb{y}=f(\pmb{W}mask(\pmb{x})+\pmb{b})$ 。掩码函数 $mask(\cdot)$ 的定义为
$mask(\pmb{x})= \begin{cases} \pmb{m} \bigodot \pmb{x}& \text{当训练阶段时}\\ p\pmb{x}& \text{当测试阶段时} \end{cases}$

其中， $\pmb{m} \in \text{\textbraceleft}0,1\text{\textbraceright}^D$ 是丢弃掩码，通过以概率为 $p$ 的伯努利分布随机生成，代表每个神经元是否需要被丢弃。如果取值为0，则该神经元将不会计算梯度或参与后面的误差传播。在训练时，激活神经元的平均数量是原来的 $p$ 倍。而在测试时，所有的神经元都是可以激活的，这会造成训练和测试时网络的输出不一致。为了缓解这个问题，在测试时需要将神经层的输入 $\pmb{x}$ 乘以 $p$ ，也相当于把不同的神经网络作了平均，以恢复在训练中该神经元只有 $p$ 的概率被用于整个神经网络的前向传播计算。

参考文章

百面机器学习
神经网络与深度学习

介绍下BN

Batch Normmalization（批量归一化方法）是针对每一批数据，在网络的每一层输入之前增加归一化处理（均值为0，标准差为1），将所有批数据强制在统一的数据分布下。

1. Batch Norm 为什么有效？

深度学习的话尤其是在CV上都需要对数据做归一化，因为深度神经网络主要就是为了学习训练数据的分布，并在测试集上达到很好的泛化效果。

但是，如果我们每一个batch输入的数据都具有不同的分布，显然会给网络的训练带来困难。

另一方面，数据经过一层层网络计算后，其数据分布也在发生着变化，此现象称为Internal Covariate Shift（内部协变量偏移），接下来会详细解释，会给下一层的网络学习带来困难。

batch norm 直译过来就是批规范化，就是为了解决这个分布变化问题。

补充两个知识点

1.1 Internal Covariate Shift

Internal Covariate Shift ：此术语是google小组在论文Batch Normalizatoin中提出来的，其主要描述的是：训练深度网络的时候经常发生训练困难的问题，因为，每一次参数迭代更新后，上一层网络的输出数据经过这一层网络计算后，数据的分布会发生变化，为下一层网络的学习带来困难（神经网络本来就是要学习数据的分布，要是分布一直在变，学习就很难了），此现象称之为Internal Covariate Shift。

Batch Normalizatoin 之前的解决方案就是使用较小的学习率，和小心的初始化参数，对数据做白化处理，但是显然治标不治本。

1.2 covariate shift

Internal Covariate Shift 和Covariate Shift具有相似性，但并不是一个东西，Internal发生在神经网络的内部，后者发生在输入数据上。Covariate Shift主要描述的是由于训练数据和测试数据存在分布的差异性，给网络的泛化性和训练速度带来了影响，我们经常使用的方法是做归一化或者白化。

2. Batch Norm步骤如下

3. Batch Norm的两个参数有什么作用？

3.1 如果只做归一化，为什么是学不到任何东西的？

如果在每一层之后都归一化成0-1的高斯分布（减均值除方差）那么数据的分布一直都是高斯分布，数据分布都是固定的了，这样即使加更多层就没有意义了，深度网络就是想学习数据的分布发现规律性，BN就是不让学习的数据分布偏离太远，详细细节可以去看论文。beta gama都是学习的（怎么学的还不清楚？），代码里他们定义的是variable， trainable是True

3.2 两个参数的作用

为了减小Internal Covariate Shift，对神经网络的每一层做归一化不就可以了，假设将每一层输出后的数据都归一化到0均值，1方差，满足正太分布，但是，此时有一个问题，如果每一层的数据分布都是标准正太分布，导致其完全学习不到输入数据的特征，因为，费劲心思学习到的特征分布被归一化了，因此，直接对每一层做归一化显然是不合理的。
但是如果稍作修改，加入可训练的参数做归一化，那就是 Batch Norm 实现的了。

接下来详细介绍一下这额外的两个参数，之前也说过如果直接做归一化不做其他处理，神经网络是学不到任何东西的，但是加入这两个参数后，事情就不一样了。先考虑特殊情况下，如果γ 和β 分别等于此batch的标准差和均值，那么yi 就还原到归一化前的x了吗，也即是缩放平移到了归一化前的分布，相当于batchnorm没有起作用，β 和γ 分别称之为平移参数和缩放参数 。这样就保证了每一次数据经过归一化后还保留的有学习来的特征，同时又能完成归一化这个操作，加速训练。

3.3 两个参数是怎么学习的（γ 和β ）？

注意momentum的定义

Pytorch中的BN层的动量平滑和常见的动量法计算方式是相反的，默认的momentum=0.1

BN层里的表达式为：
其中γ和β是可以学习的参数。在Pytorch中，BN层的类的参数有：

CLASS torch.nn.BatchNorm2d(num_features, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)

num_features - 来自预期输入大小（N，C，H，W）的CC（N，C，H，W）
eps - 为数值稳定性添加到分母的值。默认值：1e-5
动量 - 用于running_mean和running_var计算的值。对于累积移动平均值（即简单平均值），可以设置为“无”。默认值：0.1
affine - 一个布尔值，当设置为True时，此模块具有可学习的仿射参数。默认值：True
track_running_stats - 一个布尔值，当设置为True时，此模块跟踪运行的均值和方差，当设置为False时，此模块不跟踪此类统计信息，并始终在训练和评估模式下使用批次统计信息。默认值：True

具体计算是:

running_mean = momentum * running_mean + (1 - momentum) * x_mean
running_var = momentum * running_var + (1 - momentum) * x_var

running_mean 存储的是当前为止训练集中所有batch 的均值的加权结果。
momentum 在pytorch 中默认为 0.1，即：当前batch的均值占 0.9的比重，之前的runing_mean 占0.1的比重。

这篇有提到： Pytorch Batch Normalizatin layer的坑

4. Batch Norm 训练和测试的区别？

训练阶段：首先计算均值和方差（每次训练给一个批量，计算批量的均值方差），然后归一化，然后缩放和平移，完事！

测试阶段：每次只输入一张图片，这怎么计算批量的均值和方差，于是，就有了代码中下面两行，在训练的时候实现计算好mean、 var，测试的时候直接拿来用就可以了，不用计算均值和方差。

running_mean = momentum * running_mean + (1 - momentum) * x_mean
running_var = momentum * running_var + (1 - momentum) * x_var

5. Batch Norm 可以防止过拟合吗？

在dropout部分，我们已经解释过，之所以dropout可以抑制overfitting，是因为在训练阶段，我们引入了随机性(随机cancel一些Neuron)，减少网络的匹配度，在测试阶段，我们去除掉随机性，并通过期望的方式marginalize随机影响。

在BatchNormalization中，训练阶段，我们随机选取了Batch进行Normalization, 并计算runningmean等，在测试阶段，应用running_mean这些训练参数来进行整体Normalization，本质上是在Marginalize训练阶段的随机性。因此， Batch Normalization也提供了Regularization的作用，实际应用中证明， NB在防止过拟合方面确实也有相当好的表现。

Batch Norm 总结

优点
- 没有它之前，需要小心的调整学习率和权重初始化，但是有了BN可以放心的使用大学习率，但是使用了BN，就不用小心的调参了，较大的学习率极大的提高了学习速度。（因为batchnorm将特征归一化到0点附近，显然会加快训练速度；并更进一步的通过变换拉大数据之间的相对差异性，使特征更容易区分）
- Batchnorm本身上也是一种正则的方式，可以代替其他正则方式如dropout等
- batchnorm降低了数据之间的绝对差异，有一个去相关的性质，更多的考虑相对差异性，因此在分类任务上具有更好的效果。
缺点
- 韩国团队在2017NTIRE图像超分辨率中取得了top1的成绩，主要原因竟是去掉了网络中的batchnorm层，由此可见，BN并不是适用于所有任务的，在image-to-image这样的任务中，尤其是超分辨率上，图像的绝对差异显得尤为重要，所以batchnorm的scale并不适合。

参考文章

Batch Norm （针对面试问题总结）
基础 | batchnorm原理及代码详解
关于BatchNorm的理解与讨论
深度学习（二十九）Batch Normalization 学习笔记

介绍下常见的优化算法

大多数机器学习问题最终都会涉及一个最优化问题，只是有的是基于最大化后验概率，例如贝叶斯算法，有的是最小化类内距离，例如k-means，而有的是根据预测值和真实值构建一个损失函数，用优化算法来最优化这个损失函数达到学习模型参数的目的。

优化算法有很多种，如果按梯度的类型进行分类，可以分为有梯度优化算法和无梯度优化算法，有梯度优化算法主要有梯度下降法、动量法momentum、Adagrad、RMSProp、Adadelta、Adam等，无梯度优化算法也有很多，像粒子群优化算法、蚁群算法群体智能优化算法，也有贝叶斯优化、ES、SMAC这一类的黑盒优化算法，这篇文章主要介绍一下有梯度优化算法。

梯度下降法

梯度下降法主要分为三种

1. 梯度下降：
梯度下降使用整个训练数据集来计算梯度，因此它有时也被称为批量梯度下降。

下面就以均方误差讲解一下，假设损失函数如下：

其中 $\hat{y}$ 是预测值， $y$ 是真实值，那么要最小化上面损失 $J$ ,需要对每个参数 $\theta_0,\theta_1,...\theta_n$ 运用梯度下降法：
其中 $\frac{\partial}{\partial{\theta_i}}J(\theta_0,\theta_1,...,\theta_n)$ 是损失函数对参数 $\theta_i$ 的偏导数、 $\alpha$ 是学习率，也是每一步更新的步长。

2. 随机梯度下降法
在机器学习\深度学习中，目标函数的损失函数通常取各个样本损失函数的平均，那么假设目标函数为：

其中 $J(x_i)$ 是第 $x_i$ 个样本的目标函数，那么目标函数在在 $x$ 处的梯度为：

如果使用梯度下降法(批量梯度下降法)，那么每次迭代过程中都要对 $n$ 个样本进行求梯度，所以开销非常大，随机梯度下降的思想就是随机采样一个样本 $J(x_i)$ 来更新参数，那么计算开销就从 $O (n)$ 下降到 $(1) 。

3. 小批量梯度下降法
随机梯度下降虽然提高了计算效率，降低了计算开销，但是由于每次迭代只随机选择一个样本，因此随机性比较大，所以下降过程中非常曲折(图片来自《动手学深度学习》)，

所以，样本的随机性会带来很多噪声，我们可以选取一定数目的样本组成一个小批量样本，然后用这个小批量更新梯度，这样不仅可以减少计算成本，还可以提高算法稳定性。小批量梯度下降的开销为 $O (∣ B ∣)$ 其中 $∣ B ∣$ 是批量大小。

该怎么选择？
当数据量不大的时候可以选择批量梯度下降法，当数据量很大时可以选择小批量梯度下降法。

动量法momentum

梯度下降法的缺点是每次更新沿着当前位置的梯度方向进行，更新仅仅取决于所在的位置。举个例子，假设一个二维的问题， $f(x)=0.001x_1^2+1x_2^2$ ，目标函数在某一点处 $x_1$ 方向的梯度要远小于 $x_2$ ，那么在方向更新的幅度就会很快，震荡就很严重，降低学习率 $\alpha$ 可以减小 $x_2$ 方向的幅度，但是整体的更新速度也就随着变慢了(图片来源于《动手学深度学习》)。

以 $g_t$ 来代表小批量的梯度，那么小批量梯度下降法的为:

动量法在梯度下降法的基础上结合指数加权平均的思想加入一个动量变量 $v_t$ 来控制不同方向的梯度，使得各个方向的梯度移动一致，
$v_t \leftarrow \gamma v_{t-1} - \alpha g_t$

也就是把小批量梯度下降法中的 $g_t$ 变成 $v_t$ ，其中 $0<\gamma<1$ 。

Adagrad

前面所介绍的方法都是针对梯度进行改进，而保持一个固定的学习率，例如动量法是通过指数加权平均使得各个方向的梯度尽可能的保持一致，减少梯度在各个方向的发散，而Adagrad算法是根据自变量在每个维度的梯度值的大小来调整各个维度上的学习率，从而避免统一的学习率难以适应所有维度的问题。

Adagrad在原来的基础上加入了一个梯度的累加变量 $s_t$ ,

其中 $\odot$ 是按元素乘积，接下来对学习率根据累加梯度进行调整，

其中 $\epsilon$ 是一个很小的数字，为了维持数值的稳定性。

可以看出Adagrad与小批量梯度下降法的不同之处在于把原来的固定学习率 $\alpha$ 改为根据累加变量自适应修改的学习率。

RMSProp

Adagrad算法在原来的基础上加上了累加变量 $s_t$ ，作为自适应调节学习率的参数会逐渐增大，因此会导致学习率逐渐减小或不变，这会导致一种现象，前期学习率下降非常快，但是如果在学习率下降到很小的时候依然没有找到一个比较好的解时，到后期会非常缓慢，甚至找不到一个有用的解，RMSProp在Adagrad的基础上做了一些修改。

RMSProp使用了和动量法类似的思想，对梯度和累加变量利用指数加权平均，

和 Adagrad 一样，RMSProp 将目标函数自变量中每个元素的学习率通过按元素运算重新调整，然后更新自变量，

Adadelta

Adadelta和RMSProp一样，是针对Adagrad后期有可能较难找到有用解的问题进行改进，和RMSProp不同的是，Adadelta没有学习率这个参数。

和RMSProp相同点是，Adadelta也维护了一个累加变量 $s_t$ ,
$s_t \leftarrow \rho s_{t-1} + (1-\rho) \odot g_t$

和RMSProp不同的是，Adadelta还维护了一个变量 $\vartriangle{x_t}$ ,

梯度更新公式就变成了：

现在回过头看一下，可以发现，Adadelta和RMSProp的不同之处就是把学习率 $\alpha$ 修改为了

Adam

这个算法在深度学习中用的比较多，Adam是在RMSProp的基础上进行改进的，该算法与RMSProp不同的是，Adam不仅对累加状态变量 $s_t$ 进行指数加权平均，还对每一个小批量的梯度 $g_t$ 进行指数加权平均。

Adam加入了动量变量 $v_t$ ,

状态变量的指数加权平均为，

需要注意的是，当迭代次数 $t$ 较小时，过去的权值之和会较小，假设时间步 $t = 1$ , $\beta_1=0.99$ ，那么 $v_1=0.01 \beta_1$ ，为了消除这个影响Adam算法采用对变量 $v_t$ ， $s_t$ 进行修正，

更新公式为：

参考文章

[优化算法系列]机器学习\深度学习中常用的优化算法
深度学习最全优化方法总结比较（SGD，Adagrad，Adadelta，Adam，Adamax，Nadam）
从 SGD 到 Adam —— 深度学习优化算法概览(一)
深度学习中的优化算法
深度学习中7种最优化算法的可视化与理解

介绍下常见的激活函数

激活函数的性质
为了增强网络的表示能力和学习能力，激活函数需要具备以下几点性质：

连续且可导（允许少数点上不可导）的非线性函数。可导的激活函数可以直接利用数值优化的方法来学习网络参数
激活函数及其倒数要尽可能的简单，有利于提高网络计算效率
激活函数的导函数的值域要在一个合适的范围内，不能太大也不能太小，否则会影响训练的效率和稳定性

神经网络为什么需要激活函数：首先数据的分布绝大多数是非线性的，而一般神经网络的计算是线性的，引入激活函数，是在神经网络中引入非线性，强化网络的学习能力。所以激活函数的最大特点就是非线性。

不同的激活函数，根据其特点，应用也不同：Sigmoid和tanh的特点是将输出限制在(0,1)和(-1,1)之间，说明Sigmoid和tanh适合做概率值的处理，例如LSTM中的各种门；而ReLU就不行，因为ReLU无最大值限制，可能会出现很大值。同样，根据ReLU的特征，Relu适合用于深层网络的训练，而Sigmoid和tanh则不行，因为它们会出现梯度消失。

1. Sigmoid

Sigmoid函数也称为Logistic函数，因为Sigmoid函数可以从Logistic回归（LR）中推理得到，也是LR模型指定的激活函数。具体推理参考：具体推理参考：Datartisan：机器学习系列-广义线性模型

Sigmod函数的取值范围在（0, 1）之间，可以将网络的输出映射在这一范围，方便分析。

Sigmoid公式及导数：

Sigmoid及其导数曲线：

Sigmoid作为激活函数的特点：

优点：平滑、易于求导。

缺点：

激活函数计算量大（在正向传播和反向传播中都包含幂运算和除法）；
反向传播求误差梯度时，求导涉及除法；
Sigmoid导数取值范围是[0, 0.25]，由于神经网络反向传播时的“链式反应”，很容易就会出现梯度消失的情况。例如对于一个10层的网络，根据 $0.25^{10} \approx 0.000000954$ ，第10层的误差相对第一层卷积的参数 $W_1$ 的梯度将是一个非常小的值，这就是所谓的“梯度消失”。
Sigmoid的输出不是0均值（即zero-centered）；这会导致后一层的神经元将得到上一层输出的非0均值的信号作为输入，随着网络的加深，会改变数据的原始分布。

2. tanh

tanh为双曲正切函数，其英文读作Hyperbolic Tangent。tanh和 sigmoid 相似，都属于饱和激活函数，区别在于输出值范围由 (0,1) 变为了 (-1,1)，可以把 tanh 函数看做是 sigmoid 向下平移和拉伸后的结果。

tanh公式：

从公式2中，可以更加清晰看出tanh与sigmoid函数的关系（平移+拉伸）。

tanh及其导数曲线：

tanh作为激活函数的特点：

相比Sigmoid函数，

tanh的输出范围是(-1, 1)，解决了Sigmoid函数的不是zero-centered输出问题；
幂运算的问题仍然存在；
tanh导数范围在(0, 1)之间，相比sigmoid的(0, 0.25)，梯度消失（gradient vanishing）问题会得到缓解，但仍然还会存在。

3.ReLU

Relu(Rectified Linear Unit)——修正线性单元函数：该函数形式比较简单，

公式：relu=max(0, x)

ReLU及其导数曲线：

从上图可知，ReLU的有效导数是常数1，解决了深层网络中出现的梯度消失问题，也就使得深层网络可训练。同时ReLU又是非线性函数，所谓非线性，就是一阶导数不为常数；对ReLU求导，在输入值分别为正和为负的情况下，导数是不同的，即ReLU的导数不是常数，所以ReLU是非线性的（只是不同于Sigmoid和tanh，relu的非线性不是光滑的）。

ReLU在x>0下，导数为常数1的特点：

导数为常数1的好处就是在“链式反应”中不会出现梯度消失，但梯度下降的强度就完全取决于权值的乘积，这样就可能会出现梯度爆炸问题。解决这类问题：一是控制权值，让它们在（0，1）范围内；二是做梯度裁剪，控制梯度下降强度，如ReLU(x)=min(6, max(0,x))

ReLU在x<0下，输出置为0的特点：

描述该特征前，需要明确深度学习的目标：深度学习是根据大批量样本数据，从错综复杂的数据关系中，找到关键信息（关键特征）。换句话说，就是把密集矩阵转化为稀疏矩阵，保留数据的关键信息，去除噪音，这样的模型就有了鲁棒性。ReLU将x<0的输出置为0，就是一个去噪音，稀疏矩阵的过程。而且在训练过程中，这种稀疏性是动态调节的，网络会自动调整稀疏比例，保证矩阵有最优的有效特征。

但是ReLU 强制将x<0部分的输出置为0（置为0就是屏蔽该特征），可能会导致模型无法学习到有效特征，所以如果学习率设置的太大，就可能会导致网络的大部分神经元处于‘dead’状态，所以使用ReLU的网络，学习率不能设置太大。

ReLU作为激活函数的特点：

相比Sigmoid和tanh，ReLU摒弃了复杂的计算，提高了运算速度。
解决了梯度消失问题，收敛速度快于Sigmoid和tanh函数，但要防范ReLU的梯度爆炸
容易得到更好的模型，但也要防止训练中出现模型‘Dead’情况。

4. Leaky ReLU, PReLU（Parametric Relu）, RReLU（Random ReLU）, ELU

为了防止模型的‘Dead’情况，后人将x<0部分并没有直接置为0，而是给了一个很小的负数梯度值 $\alpha$ 。

Leaky ReLU中的 $\alpha$ 为常数，一般设置 0.01。这个函数通常比 Relu 激活函数效果要好，但是效果不是很稳定，所以在实际中 Leaky ReLu 使用的并不多。

PRelu（参数化修正线性单元） 中的 $\alpha$ 作为一个可学习的参数，会在训练的过程中进行更新。

RReLU（随机纠正线性单元）也是Leaky ReLU的一个变体。在RReLU中，负值的斜率在训练中是随机的，在之后的测试中就变成了固定的了。RReLU的亮点在于，在训练环节中，aji是从一个均匀的分布U(I,u)中随机抽取的数值。

ReLU及其变体图像：

另外，ELU 激活函数也是为了解决 ReLU 的 0 区间带来的影响，其数学表达为：

其函数及其导数数学形式为：

但是 ELU 相对于Leaky ReLU 来说，计算要更耗时间一些。

参考文章

激活函数总结（持续更新）
常见激活函数的介绍和总结
一文搞懂激活函数(Sigmoid/ReLU/LeakyReLU/PReLU/ELU)
从ReLU到GELU，一文概览神经网络的激活函数
常见激活函数总结
深度学习领域最常用的10个激活函数，一文详解数学原理及优缺点

介绍下常见的损失函数

损失函数用来评价模型的预测值和真实值不一样的程度，损失函数越好，通常模型的性能越好。不同的模型用的损失函数一般也不一样。

损失函数分为经验风险损失函数和结构风险损失函数。经验风险损失函数指预测结果和实际结果的差别，结构风险损失函数是指经验风险损失函数加上正则项。

常见的损失函数以及其优缺点如下：

1. 0-1损失函数(zero-one loss)

0-1损失是指预测值和目标值不相等为1，否则为0:

特点：
(1) 0-1损失函数直接对应分类判断错误的个数，但是它是一个非凸函数，不太适用.
(2) 感知机就是用的这种损失函数。但是相等这个条件太过严格，因此可以放宽条件，即满足 $∣ Y - f (X) ∣ < T$ 时认为相等，

2. 绝对值损失函数

绝对值损失函数是计算预测值与目标值的差的绝对值：

3. log对数损失函数

log对数损失函数的标准形式如下：

特点：
(1) log对数损失函数能非常好的表征概率分布，在很多场景尤其是多分类，如果需要知道结果属于每个类别的置信度，那它非常适合。
(2) 健壮性不强，相比于hinge loss对噪声更敏感。
(3) 逻辑回归的损失函数就是log对数损失函数。

4. 平方损失函数

平方损失函数标准形式如下：

特点：
(1) 经常应用于回归问题

5. 指数损失函数（exponential loss）

指数损失函数的标准形式如下：

特点：
(1)对离群点、噪声非常敏感。经常用在AdaBoost算法中。

6. Hinge 损失函数

Hinge损失函数标准形式如下：

特点：
(1) hinge损失函数表示如果被分类正确，损失为0，否则损失就为 $1 - y f (x)$ 。SVM就是使用这个损失函数。
(2) 一般的 $f (x)$ 是预测值，在-1到1之间， $y$ 是目标值(-1或1)。其含义是， $f (x)$ 的值在-1和+1之间就可以了，并不鼓励 $∣ f (x) ∣ > 1$ ，即并不鼓励分类器过度自信，让某个正确分类的样本距离分割线超过1并不会有任何奖励，从而使分类器可以更专注于整体的误差。
(3) 健壮性相对较高，对异常点、噪声不敏感，但它没太好的概率解释。

7. 感知损失(perceptron loss)函数

感知损失函数的标准形式如下：
$L (y, f (x)) = m a x (0, - y f (x))$

特点：
(1) 是Hinge损失函数的一个变种，Hinge loss对判定边界附近的点(正确端)惩罚力度很高。而perceptron loss只要样本的判定类别正确的话，它就满意，不管其判定边界的距离。它比Hinge loss简单，因为不是max-margin boundary，所以模型的泛化能力没hinge loss强。

8. 交叉熵损失函数 (Cross-entropy loss function)

交叉熵损失函数的标准形式如下:

注意公式中 $x$ 表示样本， $y$ 表示实际的标签， $a$ 表示预测的输出， $n$ 表示样本总数量。

特点：
(1) 本质上也是一种对数似然函数，可用于二分类和多分类任务中。

二分类问题中的loss函数（输入数据是softmax或者sigmoid函数的输出）：

多分类问题中的loss函数（输入数据是softmax或者sigmoid函数的输出）：

(2) 当使用sigmoid作为激活函数的时候，常用交叉熵损失函数而不用均方误差损失函数，因为它可以完美解决平方损失函数权重更新过慢的问题，具有“误差大的时候，权重更新快；误差小的时候，权重更新慢”的良好性质。

补充：对数损失函数和交叉熵损失函数应该是等价的！说明如下：

9. Contrastive Loss (对比损失)

在caffe的孪生神经网络（siamese network）中，其采用的损失函数是contrastive loss，这种损失函数可以有效的处理孪生神经网络中的paired data的关系。contrastive loss的表达式如下：
$\frac{1}{2N} \sum_{n=1}^N[yd^2 + (1-y)max(margin - d, 0)^2]$

其中 $d=||a_n−b_n||^2$ ，代表两个样本特征的欧氏距离，y为两个样本是否匹配的标签，y=1代表两个样本相似或者匹配，y=0则代表不匹配，margin为设定的阈值。

这种损失函数最初来源于Yann LeCun的Dimensionality Reduction by Learning an Invariant Mapping，主要是用在降维中，即本来相似的样本，在经过降维（特征提取）后，在特征空间中，两个样本仍旧相似；而原本不相似的样本，在经过降维后，在特征空间中，两个样本仍旧不相似。

观察上述的contrastive loss的表达式可以发现，这种损失函数可以很好的表达成对样本的匹配程度，也能够很好用于训练提取特征的模型。1）当y=1（即样本相似）时，损失函数只剩下 $\sum yd^2$ ，即原本相似的样本，如果在特征空间的欧式距离较大，则说明当前的模型不好，因此加大损失。2）而当y=0时（即样本不相似）时，损失函数为 $\sum (1-y)max(margin-d, 0)^2$ ，即当样本不相似时，其特征空间的欧式距离反而小的话，损失值会变大，这也正好符号我们的要求。

这张图表示的就是损失函数值与样本特征的欧式距离之间的关系，其中红色虚线表示的是相似样本的损失值，蓝色实线表示的不相似样本的损失值。

10. focal loss

facal loss是加权的二分类交叉熵损失，用来解决样本不均衡和困难样本学习的问题。

记：

那么focal loss的表达式为：

其中， $\gamma$ 越大，越关注难样本。某个类别 $\alpha$ 越大，越关注该类别。
在原论文中正样本的 $\alpha=0.25,\gamma=2$ , 其实是为了缓和 $\gamma$ 增加正样本的权重，所以给正样本一个较小的值。

参考文章

常见的损失函数(loss function)总结
一文看尽深度学习中的15种损失函数
常见的损失函数（loss function）
Contrastive Loss (对比损失)
何恺明大神的「Focal Loss」，如何更好地理解？

梯度爆炸和梯度消失问题

1. 梯度不稳定问题：

什么是梯度不稳定问题：深度神经网络中的梯度不稳定性，前面层中的梯度或会消失，或会爆炸。
原因：前面层上的梯度是来自于后面层上梯度的乘积。当存在过多的层次时，就出现了内在本质上的不稳定场景，如梯度消失和梯度爆炸。

2. 梯度消失和梯度爆炸的产生原因

梯度消失经常出现，一是在深层网络中，二是采用了不合适的损失函数，比如sigmoid。梯度爆炸一般出现在深层网络和权值初始化值太大的情况下。

2.1 梯度消失（vanishing gradient problem）：

因为通常神经网络所用的激活函数是sigmoid函数，这个函数有个特点，就是能将负无穷到正无穷的数映射到0和1之间，并且对这个函数求导的结果是f′(x)=f(x)(1−f(x))。因此两个0到1之间的数相乘，得到的结果就会变得很小了。神经网络的反向传播是逐层对函数偏导相乘，因此当神经网络层数非常深的时候，最后一层产生的偏差就因为乘了很多的小于1的数而越来越小，最终就会变为0，从而导致层数比较浅的权重没有更新，这就是梯度消失。

例如三个隐层、单神经元网络：

则可以得到：

然而，sigmoid方程的导数曲线为：

可以看到，sigmoid导数的最大值为1/4，通常abs（w）<1,则：

前面的层比后面的层梯度变化更小，故变化更慢，从而引起了梯度消失问题。

2.2 梯度爆炸（exploding gradient problem）：

当初始化权值过大时，前面层会比后面层梯度变化的更快，导致权值越来越大，进而引起梯度爆炸问题。

在深层网络或循环神经网络中，误差梯度可在更新中累积，变成非常大的梯度，然后导致网络权重的大幅更新，并因此使网络变得不稳定。在极端情况下，权重的值变得非常大，以至于溢出，导致 NaN 值。

网络层之间的梯度（值大于 1.0）重复相乘导致的指数级增长会产生梯度爆炸。

如何确定是否出现梯度爆炸？

训练过程中出现梯度爆炸会伴随一些细微的信号，如：

模型无法从训练数据中获得更新（如低损失）。
模型不稳定，导致更新过程中的损失出现显著变化。
训练过程中，模型损失变成 NaN。

小结：在反向传播过程中需要对激活函数进行求导，如果导数大于1，那么随着网络层数的增加梯度更新将会朝着指数爆炸的方式增加这就是梯度爆炸。同样如果导数小于1，那么随着网络层数的增加梯度更新信息会朝着指数衰减的方式减少这就是梯度消失。因此，梯度消失、爆炸，其根本原因在于反向传播训练法则，属于先天不足。

3. 梯度消失和梯度爆炸的解决办法

3.1 重新设计网络模型

梯度爆炸可以通过重新设计层数更少的网络来解决。使用更小的批尺寸对网络训练也有好处。另外也许是学习率过大导致的问题，减小学习率。

3.2 使用 ReLU 激活函数

梯度爆炸的发生可能是因为激活函数，如之前很流行的 Sigmoid 和 Tanh 函数。使用 ReLU 激活函数可以减少梯度爆炸。采用 ReLU 激活函数是最适合隐藏层的，是目前使用最多的激活函数。

relu函数的导数在正数部分是恒等于1的，因此在深层网络中使用relu激活函数就不会导致梯度消失和爆炸的问题。

ReLU的主要贡献在于：

解决了梯度消失、爆炸的问题
计算方便，计算速度快，加速了网络的训练

同时也存在一些缺点：

由于负数部分恒为0，会导致一些神经元无法激活（可通过设置小学习率部分解决）
输出不是以0为中心的

Leaky ReLU：Leaky ReLU就是为了解决 ReLU 的 0 区间带来的影响，而且包含了 ReLU 的所有优点
ELU：ELU激活函数也是为了解决 ReLU 的 0 区间带来的影响

3.3 使用长短期记忆网络

在循环神经网络中，梯度爆炸的发生可能是因为某种网络的训练本身就存在不稳定性，使用长短期记忆（LSTM）单元和相关的门类型神经元结构可以减少梯度爆炸问题。采用 LSTM 单元是适合循环神经网络的序列预测的最新最好实践。

3.4 使用梯度截断（Gradient Clipping）

梯度剪切这个方案主要是针对梯度爆炸提出的，其思想是设置一个梯度剪切阈值，然后更新梯度的时候，如果梯度超过这个阈值，那么就将其强制限制在这个范围之内。这可以防止梯度爆炸。

3.5 使用权重正则化（Weight Regularization）

如果梯度爆炸仍然存在，可以尝试另一种方法，即检查网络权重的大小，并惩罚产生较大权重值的损失函数。该过程被称为权重正则化，通常使用的是 L1 惩罚项（权重绝对值）或 L2 惩罚项（权重平方）。比如在tensorflow中，若搭建网络的时候已经设置了正则化参数，则调用以下代码可以直接计算出正则损失：

regularization_loss = tf.add_n(tf.losses.get_regularization_losses(scope='my_resnet_50'))

正则化是通过对网络权重做正则限制过拟合，仔细看正则项在损失函数的形式：

其中，α 是指正则项系数，如果发生梯度爆炸，权值的范数就会变的非常大，通过正则化项，可以部分限制梯度爆炸的发生。

注：事实上，在深度神经网络中，往往是梯度消失出现的更多一些。

3.6 预训练加finetunning

其基本思想是每次训练一层隐藏层节点，将上一层隐藏层的输出作为输入，而本层隐节点的输出作为下一层隐节点的输入，这就是逐层预训练。在预训练完成后，再对整个网络进行“微调”（fine-tunning）。Hinton在训练深度信念网络（Deep Belief Networks中，使用了这个方法，在各层预训练完成后，再利用BP算法对整个网络进行训练。此思想相当于是先寻找局部最优，然后整合起来寻找全局最优，此方法有一定的好处，但是目前应用的不是很多了。现在基本都是直接拿imagenet的预训练模型直接进行finetunning。

3.7 批量归一化

Batchnorm具有加速网络收敛速度，提升训练稳定性的效果，Batchnorm本质上是解决反向传播过程中的梯度问题。batchnorm全名是batch normalization，简称BN，即批规范化，通过规范化操作将输出信号x规范化保证网络的稳定性。from：Batch Normalization批量归一化

3.8 残差结构

残差网络的出现导致了image net比赛的终结，自从残差提出后，几乎所有的深度网络都离不开残差的身影，相比较之前的几层，几十层的深度网络，残差可以很轻松的构建几百层，一千多层的网络而不用担心梯度消失过快的问题，原因就在于残差的捷径（shortcut）部分，残差网络通过加入 shortcut connections，变得更加容易被优化。包含一个 shortcut connection 的几层网络被称为一个残差块（residual block），如下图所示：

相比较于以前网络的直来直去结构，残差中有很多这样的跨层连接结构，这样的结构在反向传播中具有很大的好处，见下式：

式子的第一个因子 $\frac{\partial loss}{\partial x_l}$ 表示的损失函数到达 L 的梯度，小括号中的1表明短路机制可以无损地传播梯度，而另外一项残差梯度则需要经过带有weights的层，梯度不是直接传递过来的。残差梯度不会那么巧全为-1，而且就算其比较小，有1的存在也不会导致梯度消失。所以残差学习会更容易。from：CNN经典模型：深度残差网络（DRN）ResNet

参考文章

详解机器学习中的梯度消失、爆炸原因及其解决方法
梯度消失、爆炸原因及其解决方法
详解梯度爆炸和梯度消失
梯度消失，梯度爆炸产生的原因及解决办法
机器学习总结（九）：梯度消失（vanishing gradient）与梯度爆炸（exploding gradient）问题

网络权重初始化为0会怎样，非0常数呢

神经网络权重不能初始化为常数，更不能全部初始化为0。

考虑全连接的深度神经网络，同一层中的任意神经元都是同构的，他们拥有相同的输入和输出，如果再将参数全部初始化为同样的值，那么无论前向传播还是反向传播的取值都是完全相同的。学习过程将永远无法打破这种对称性，最终同一网络层中的各个参数仍然是相同的。

因此，我们需要随机初始化神经网络参数的值，以打破这种对称性。简单来说，可以初始化参数为取值范围 $(-\frac{1}{\sqrt{d}},\frac{1}{\sqrt{d}})$ 的均匀分布，其中 $d$ 是一个神经元接受的输入维度。偏置可以被简单地设为0，并不会导致参数对称的问题。

参考文章

神经网络权重初始化问题思考
深度学习中神经网络的几种权重初始化方法
神经网络中权值初始化的方法
神经网络之权重初始化（附代码）
卷积神经网络的权值初始化方法
谈谈神经网络权重为什么不能初始化为0
为什么神经网络在考虑梯度下降的时候，网络参数的初始值不能设定为全0，而是要采用随机初始化思想？

Embedding如何训练

Embedding：用一个低维的向量来表示一个物体，可以是一个词，或是一个商品，一个用户。这个embedding向量的性质是能使距离相近的向量对应的物体又相近的含义。

Embedding的作用

无论embedding在模型中最终起到哪些重要的作用，在对embedding的本质理解上，它自始至终都是用一个多维稠密向量来对事物从多维度进行的特征刻画。

通过计算用户和物品或物品和物品的Embedding相似度，来缩小推荐候选库的范围。
实现高维稀疏特征向量向低维稠密特征向量的转换。
训练好的embedding可以当作输入深度学习模型的特征。

训练方法

Word Embedding的训练方法大致可以分为两类：

一类是无监督或弱监督的预训练；一类是端对端（end to end）的有监督训练。无监督或弱监督的预训练以word2vec和auto-encoder为代表。这一类模型的特点是，不需要大量的人工标记样本就可以得到质量还不错的embedding向量。不过因为缺少了任务导向，可能和我们要解决的问题还有一定的距离。因此，我们往往会在得到预训练的embedding向量后，用少量人工标注的样本去fine-tune整个模型。
相比之下，端对端的有监督模型在最近几年里越来越受到人们的关注。与无监督模型相比，端对端的模型在结构上往往更加复杂。同时，也因为有着明确的任务导向，端对端模型学习到的embedding向量也往往更加准确。例如，通过一个embedding层和若干个卷积层连接而成的深度神经网络以实现对句子的情感分类，可以学习到语义更丰富的词向量表达。

以上回答来自知乎~

参考文章

怎么形象理解embedding这个概念？
什么是 word embedding?
NLP中的Embedding方法总结
自然语言处理(NLP)之Word Embedding
[NLP] 秒懂词向量Word2vec的本质
深度学习中的embedding
推荐系统中的Embedding
推荐系统中如何做 User Embedding？
深度ctr预估中id到embedding目前工业界主流是端到端直接学习还是预训练?
深度学习中不得不学的Graph Embedding方法
万物皆Embedding，从经典的word2vec到深度学习基本操作item2vec
Airbnb如何解决Embedding的数据稀疏问题？
[推荐算法·理论篇] Airbnb如何学习embedding

Embedding如何设置维度？越大越好还是越小越好？

embedding的size我一般采用个经验值，假如embedding对应的原始feature的取值数量为 $n$ ，那么我一般会采用 $log_s(n)$ 或者 $k\sqrt[4]{n}(k \leq 16)$ 来做初始的size，然后2倍扩大或缩小，实验几次，一般就能得到一个相对较好的值。另外，embedding的初始化也是非常重要的，需要精细调参。

以上回答来自知乎

参考文章

设计embedding维数的时候有什么讲究？
embedding的size是如何确定？
推荐系统中不同 embedding 特征设置不同长度的实践

深度模型和传统ML模型对数据量的要求

待补充

你可能感兴趣的:(算法,深度学习)

【Python】一文详细介绍 py格式文件高斯小哥 Python基础【高质量合集】python 新手入门学习
【Python】一文详细介绍py格式文件个人主页：高斯小哥高质量专栏：Matplotlib之旅：零基础精通数据可视化、Python基础【高质量合集】、PyTorch零基础入门教程希望得到您的订阅和支持~创作高质量博文(平均质量分92+)，分享更多关于深度学习、PyTorch、Python领域的优质内容！（希望得到您的关注~）文章目录一、py格式文件简介二、如何创建和编辑py格式文件三、如何运行py
数据结构奇妙旅程之深入解析快速排序山间漫步人生路数据结构排序算法算法
快速排序（QuickSort）是一种高效的排序算法，它使用了分治法的策略来将一个数组排序。其基本思想是选择一个基准元素，通过一趟排序将待排序的数据分割成独立的两部分，其中一部分的所有数据都比基准元素小，另一部分的所有数据都比基准元素大，然后再按此方法对这两部分数据分别进行快速排序，整个排序过程可以递归进行，以此达到整个数据变成有序序列。工作原理选择基准：从待排序的序列中选一个元素作为基准（pivo
php 把一个数组分成有n个元素的二维数组的算法风清扬-独孤九剑 php php 算法
一、第一种解法0){$columns_map[$position]++;//这个地方格外注意,$position与$columns比较$position=($position<$columns-1)?++$position:0;$array_length--;}foreach($columns_mapas$val){$newarray[]=array_splice($array,0,$val);}
【算法分析与设计】去除重复字母五敷有你算法分析与设计 java javascript 开发语言算法数据结构
个人主页：五敷有你系列专栏：算法分析与设计⛺️稳中求进，晒太阳题目给你一个字符串s，请你去除字符串中重复的字母，使得每个字母只出现一次。需保证返回结果的字典序最小（要求不能打乱其他字符的相对位置）。示例示例1：输入：s="bcabc"输出："abc"示例2：输入：s="cbacdcbc"输出："acdb"思路贪心+单调栈实现【字符串删除一个字符使其字典序最小的贪心策略】：对于两个长度相同的字符串，
yarn的安装和使用全网最详细教程 zxj19880502 yarn npm
一、yarn的简介：Yarn是facebook发布的一款取代npm的包管理工具。二、yarn的特点：速度超快。Yarn缓存了每个下载过的包，所以再次使用时无需重复下载。同时利用并行下载以最大化资源利用率，因此安装速度更快。超级安全。在执行代码之前，Yarn会通过算法校验每个安装包的完整性。超级可靠。使用详细、简洁的锁文件格式和明确的安装算法，Yarn能够保证在不同系统上无差异的工作。三、yarn的
图论记录之最短路迪杰斯特拉 Just right 算法图论 java 开发语言
简述思想这个思想能用一句话来概括，精简到的极致:每次找到一个最短距离的点并更新起点到各个点的最短距离如果要可视化的话，B站搜索Dijksra算法，有视频讲解伪代码写到这里，其实是想整一个动画的，这样效果更好点，但由于种种原因所以就拖一下intdijkstr(){dist[1]=0;其余的点的距离全部初始化为真无穷，不要写成int的最大值迭代n次将不在s中的，且距离最近的点给tsj即先到t，再加上t
大创项目推荐深度学习 opencv python 公式识别(图像识别机器视觉) laafeer python
文章目录0前言1课题说明2效果展示3具体实现4关键代码实现5算法综合效果6最后0前言优质竞赛项目系列，今天要分享的是基于深度学习的数学公式识别算法实现该项目较为新颖，适合作为竞赛课题方向，学长非常推荐！学长这里给一个题目综合评分(每项满分5分)难度系数：3分工作量：4分创新点：4分更多资料,项目分享：https://gitee.com/dancheng-senior/postgraduate1课题
排序算法太多？常用排序都在这了，一篇文章总结和实现所有面试会考的排序算法（基于Python实现）宇宙之一粟不归路之Python #IT面试题收集与总结数据结构与算法算法数据结构排序算法 python java
文章目录排序算法1.常见的排序算法1.1选择排序1.1.1思想1.1.2实现**1.1.3选择排序分析**1.2冒泡排序**1.2.1思想****1.2.2实现****1.2.3冒泡排序分析**1.3插入排序**1.3.1思想****1.3.2实现****1.3.3插入排序分析**1.4归并排序☆☆★**1.4.1思想****1.4.2实现****1.4.3归并排序分析**1.5快速排序☆★★**
【数据结构】实验一实现顺序表各种基本运算的算法张鱼·小丸子数据结构实验 c++数据结构
题目：实现顺序表各种基本运算的算法要求：1、建立一个顺序表，输入n个元素并输出；2、查找线性表中的最大元素并输出；3、在线性表的第i个元素前插入一个正整数x；4、删除线性表中的第j个元素；5、将线性表中的元素按升序排列；6、将线性表中的元素就地逆序（只允许用一个暂存单元）；#include#defineSIZE1000usingnamespacestd;typedefstruct{int*a;//
python清华大学出版社答案_Python机器学习及实践 weixin_39805119 python清华大学出版社答案
第1章机器学习的基础知识1.1何谓机器学习1.1.1传感器和海量数据1.1.2机器学习的重要性1.1.3机器学习的表现1.1.4机器学习的主要任务1.1.5选择合适的算法1.1.6机器学习程序的步骤1.2综合分类1.3推荐系统和深度学习1.3.1推荐系统1.3.2深度学习1.4何为Python1.4.1使用Python软件的由来1.4.2为什么使用Python1.4.3Python设计定位1.4.
Java回溯知识点（含面试大厂题和源码）一成码农 java 面试开发语言
回溯算法是一种通过遍历所有可能的候选解来寻找所有解的算法，如果候选解被确认不是一个解（或至少不是最后一个解），回溯算法会通过在上一步进行一些变化来丢弃这个解，即“回溯”并尝试另一个候选解。回溯法通常用递归方法来实现，在解决排列、组合、选择问题时非常有效。回溯算法的核心要点：路径：也就是已经做出的选择。选择列表：也就是你当前可以做的选择。结束条件：也就是到达决策树底层，无法再做出选择的条件。回溯算法
深度学习项目-基于深度学习的股票价格预测研究雅致教育计算机毕业设计深度学习人工智能
概要随着经济的发展，中国股票市场的规模持续扩大，早已成为金融投资的重要部分，掌握股票市场的变化规律无论是对监管者还是投资者都具有极其重要的意义。正因如此，人们不断探索着股票市场的变化规律，其中使用深度学习预测股价是当前国内国际研究与应用的热点。本文首先从有效市场假说和分形市场假说两个角度讨论了中国股票市场的有效性，说明股票市场具有复杂的非线性特征。其次，结合股票市场特征对比了当前的预测方法
第七章索引及执行计划，存储引擎执笔为剑 #MySQL运维篇编辑器 mysql
第七章索引及执行计划，存储引擎1，索引及执行计划1，作用：提供类似书目录的作用，目的是优化查询2，所用的种类（根据算法）B树索引Hash索引R树FulltextGIS3，B树基于不同的查找算法分类介绍B-tree：在范围查询方面提供了更好的性能（>showengines;#存储引擎作用在表上，不同的表可能有不同的存储引擎mysql>select@@default_storage_engine;#查
Java面试题：解释JVM的内存结构，并描述堆、栈、方法区在内存结构中的角色和作用，Java中的多线程是如何实现的，Java垃圾回收机制的基本原理，并讨论常见的垃圾回收算法杰哥在此 Java系列 java jvm 算法面试
Java内存模型与多线程的深入探讨在Java的世界里，内存模型和多线程是开发者必须掌握的核心知识点。它们不仅关系到程序的性能和稳定性，还直接影响到系统的可扩展性和可靠性。下面，我将通过三个面试题，带领大家深入理解Java内存模型、多线程以及并发编程的相关原理和实践。面试题一：请解释JVM的内存结构，并描述堆、栈、方法区在内存结构中的角色和作用。关注点：JVM内存结构的基本组成堆、栈、方法区的功能和
ChatGPT技巧大揭秘：AI写代码新境界 2401_83550420 chatgpt4.0 chatgpt chatgpt 人工智能 AI写作
ChatGPT无限次数:点击直达ChatGPT技巧大揭秘：AI写代码新境界随着人工智能技术的不断进步，开发人员现在有了更多有趣的工具来提高他们的工作效率。其中，ChatGPT作为一种基于深度学习的自然语言处理模型，已经成为许多开发者的新宠。在本文中，我们将揭秘使用ChatGPT来帮助编写代码的技巧，探索AI在编程领域的新境界。ChatGPT简介ChatGPT是一种基于大型神经网络的对话生成模型，它
优化选址问题 | 基于和声搜索算法求解基站选址问题含Matlab源码天天酷科研优化选址问题（LP）matlab 和声搜索算法基站选址问题
目录问题代码问题和声搜索算法（HarmonySearch,HS）是一种模拟音乐创作过程中乐师们凭借自己的记忆，通过反复调整各乐器的音调，直至达到最美和声状态为启发，通过反复调整解向量的各分量来寻求全局最优解的智能优化算法。下面是一个基于和声搜索算法求解基站选址问题的Matlab伪代码框架。请注意，这个框架是一个基本的实现，你可能需要根据你的具体问题和约束条件进行调整和优化。代码%和声搜索算法求解基
AI大模型学习：开启智能时代的新篇章游向大厂的咸鱼人工智能学习
随着人工智能技术的不断发展，AI大模型已经成为当今领先的技术之一，引领着智能时代的发展。这些大型神经网络模型，如OpenAI的GPT系列、Google的BERT等，在自然语言处理、图像识别、智能推荐等领域展现出了令人瞩目的能力。然而，这些模型的背后是一系列复杂的学习过程，深度学习技术的不断演进推动了AI大模型学习的发展。首先，AI大模型学习的基础是深度学习技术。深度学习是一种模仿人类大脑结构的机器
【Python】成功解决ModuleNotFoundError: No module named ‘torchinfo‘ 高斯小哥 BUG解决方案合集 python pytorch 新手入门学习 debug
【Python】成功解决ModuleNotFoundError:Nomodulenamed‘torchinfo’个人主页：高斯小哥高质量专栏：Matplotlib之旅：零基础精通数据可视化、Python基础【高质量合集】、PyTorch零基础入门教程希望得到您的订阅和支持~创作高质量博文(平均质量分92+)，分享更多关于深度学习、PyTorch、Python领域的优质内容！（希望得到您的关注~）文
【循环神经网络rnn】一篇文章讲透 CX330的烟花 rnn 人工智能深度学习算法 python 机器学习数据结构
目录引言二、RNN的基本原理代码事例三、RNN的优化方法1长短期记忆网络（LSTM）2门控循环单元（GRU）四、更多优化方法1选择合适的RNN结构2使用并行化技术3优化超参数4使用梯度裁剪5使用混合精度训练6利用分布式训练7使用预训练模型五、RNN的应用场景1自然语言处理2语音识别3时间序列预测六、RNN的未来发展七、结论引言众所周知，CNN与循环神经网络（RNN）或生成对抗网络（GAN）等算法结
ChatGPT神技：AI成为你的编程良友 2401_83481083 chatgpt4.0 chatgpt chatgpt 人工智能 AI写作
ChatGPT无限次数:点击直达ChatGPT神技：AI成为你的编程良友近年来，人工智能技术的发展迅猛，ChatGPT作为其中一项创新技术，正逐渐走进我们的生活。在编程领域，AI不仅可以助力我们提高效率，还能成为我们的良友，帮助解决各种编程难题。一、ChatGPT简介ChatGPT是一种基于自然语言处理技术的人工智能模型，它能够生成类人对话。ChatGPT通过深度学习模型，能够理解输入的文本并生成
15届蓝桥杯备赛(3) sad_liu #sad_liu的刷题记录蓝桥杯职场和发展
文章目录15届蓝桥杯备赛(3)回溯算法组合组合总和III电话号码的字母组合组合总和组合总和II分割回文串子集子集II非递减子序列全排列全排列II贪心算法分发饼干最大子数组和买股票的最佳时机II跳跃游戏15届蓝桥杯备赛(3)提高C++程序的输入输出效率，尤其是在需要大量输入输出操作时。ios_base::sync_with_stdio(false);cin.tie(nullptr);cout.tie
深度学习如何入门？科学的N次方深度学习
入门深度学习需要系统性的学习和实践经验积累，以下是一份详细的入门指南，包含了关键的学习步骤和资源：预备知识：•编程基础：熟悉Python编程语言，它是深度学习领域最常用的编程语言。确保掌握变量、条件语句、循环、函数等基本概念，并学习如何使用Python处理数据和文件操作。•数学基础：理解线性代数（矩阵运算、向量空间等）、微积分（导数、梯度求解等）、概率论与统计学（期望、方差、概率分布、最大似然估计
深度学习与（复杂系统）事物的属性科学禅道深度学习模型专栏深度学习人工智能
深度学习与复杂系统中事物属性的关系体现在：特征学习与表示:深度学习通过多层神经网络结构，能够自动从原始输入数据中学习和提取出丰富的特征表示。每一层神经网络都可能对应着事物属性的不同抽象层次，底层可能对应简单直观的属性，而随着网络深度的增加，顶层可以学习到更抽象、复杂的属性及其相互关系。非线性关系建模:深度学习特别擅长处理非线性关系，而在复杂系统中，事物属性间的相互作用往往表现为非线性，例如，某些属
C#杨辉三角形 wenchm c#算法数据结构
目录1.杨辉三角形定义2.用数组实现10层的杨辉三角形3.使用List泛型链表集合设计10层的杨辉三角形（1）代码解释：（2）算法中求余的作用4.使用List泛型链表集合设计10层的等腰的杨辉三角形1.杨辉三角形定义杨辉三角是一个由数字排列成的三角形数表，其最本质的特征是它的两条边都是由数字1组成的，而其余的数则等于它上方的两个数之和。杨辉三角有两种常用的表示形式。2.用数组实现10层的杨辉三角形
代码随想录 day29 第七章回溯算法part05 厦门奥特曼代码随想录算法 golang 剪枝
491.递增子序列46.全排列47.全排列II1.递增子序列关联leetcode491.递增子序列本题和大家刚做过的90.子集II非常像，但又很不一样，很容易掉坑里。思路不能改变原数组顺序不能先排序去重同一层去重树枝上可以有重复元素新元素添加条件大于等于当前次收集数组最右元素value>array[right]题解funcfindSubsequences(nums[]int)[][]int{ret
分布式应用下登录检验解决方案敲键盘的小夜猫分布式 java
优缺点JWT是一个开放标准，它定义了一种用于简洁，自包含的用于通信双方之间以JSON对象的形式安全传递信息的方法。可以使用HMAC算法或者是RSA的公钥密钥对进行签名。说白了就是通过一定规范来生成token，然后可以通过解密算法逆向解密token，这样就可以获取用户信息。生产的token可以包含基本信息，比如id、用户昵称、头像等信息，避免再次查库，可以存储在客户端，不占用服务端的内存资源，在前后
数据结构——单向链表（C语言版） GG Bond.ฺ 数据结构链表 c语言
在数据结构和算法中，链表是一种常见的数据结构，它由一系列节点组成，每个节点包含数据和指向下一个节点的指针。在C语言中，我们可以使用指针来实现单向链表。下面将详细介绍如何用C语言实现单向链表。目录1.定义节点结构体2.初始化链表3.插入节点4.删除节点5.遍历链表6.主函数1.定义节点结构体首先，我们需要定义表示链表节点的结构体。每个节点包含一个数据域和一个指向下一个节点的指针域。typedefst
【牛客】SQL148 筛选昵称规则和试卷规则的作答记录 talle2021 MySQL-刷题 MySQL 数据库
描述现有用户信息表user_info（uid用户ID，nick_name昵称,achievement成就值,level等级,job职业方向,register_time注册时间）：iduidnick_nameachievementleveljobregister_time11001牛客1号19002算法2020-01-0110:00:0021002牛客2号12003算法2020-01-0110:00
C语言之猴子吃桃普通的一个普通猿 C语言算法 c语言算法开发语言
目录一简介二代码实现循环实现递归实现三时空复杂度A.循环实现B.递归实现一简介猴子吃桃问题是一个经典的递推算法题目，它描述如下：一只猴子第一天摘下若干个桃子，当天吃掉了所摘桃子数的一半多一个。之后每天早上，猴子都会吃掉前一天剩下桃子数的一半多一个。直到第十天早上，猴子只剩下了一个桃子。二代码实现使用C语言来解决这个问题，可以通过循环或者递归的方式来计算猴子第一天到底摘了多少个桃子。以下是两种方法的
【数据结构】复杂度计算一只小鹿lu 数据结构
1、时间复杂度1.1概念时间复杂度的定义：在计算机科学中，算法的时间复杂度是一个函数，它定量描述了该算法的运行时间。一个算法所花费的时间与其中语句的执行次数成正比例，算法中的基本操作的执行次数，为算法的时间复杂度。1.2大O的渐进表示法大O符号（BigOnotation）：是用于描述函数渐进行为的数学符号。推导大O阶方法：1、用常数1取代运行时间中的所有加法常数。2、在修改后的运行次数函数中，只保
解线性方程组 qiuwanchi
package gaodai.matrix; import java.util.ArrayList; import java.util.List; import java.util.Scanner; public class Test { public static void main(String[] args) { Scanner scanner = new Sc
在mysql内部存储代码 annan211 性能 mysql 存储过程触发器
在mysql内部存储代码在mysql内部存储代码，既有优点也有缺点，而且有人倡导有人反对。先看优点： 1 她在服务器内部执行，离数据最近，另外在服务器上执行还可以节省带宽和网络延迟。 2 这是一种代码重用。可以方便的统一业务规则，保证某些行为的一致性，所以也可以提供一定的安全性。 3 可以简化代码的维护和版本更新。 4 可以帮助提升安全，比如提供更细
Android使用Asynchronous Http Client完成登录保存cookie的问题 hotsunshine android
Asynchronous Http Client是android中非常好的异步请求工具除了异步之外还有很多封装比如json的处理，cookie的处理引用 Persistent Cookie Storage with PersistentCookieStore This library also includes a PersistentCookieStore whi
java面试题 Array_06 java 面试
java面试题第一，谈谈final, finally, finalize的区别。 final-修饰符（关键字）如果一个类被声明为final，意味着它不能再派生出新的子类，不能作为父类被继承。因此一个类不能既被声明为 abstract的，又被声明为final的。将变量或方法声明为final，可以保证它们在使用中不被改变。被声明为final的变量必须在声明时给定初值，而在以后的引用中只能
网站加速 oloz 网站加速
前序:本人菜鸟，此文研究总结来源于互联网上的资料，大牛请勿喷！本人虚心学习，多指教. 1、减小网页体积的大小，尽量采用div+css模式，尽量避免复杂的页面结构，能简约就简约。 2、采用Gzip对网页进行压缩； GZIP最早由Jean-loup Gailly和Mark Adler创建，用于UNⅨ系统的文件压缩。我们在Linux中经常会用到后缀为.gz
正确书写单例模式随意而生 java 设计模式单例
　　单例模式算是设计模式中最容易理解，也是最容易手写代码的模式了吧。但是其中的坑却不少，所以也常作为面试题来考。本文主要对几种单例写法的整理，并分析其优缺点。很多都是一些老生常谈的问题，但如果你不知道如何创建一个线程安全的单例，不知道什么是双检锁，那这篇文章可能会帮助到你。　　懒汉式，线程不安全　　当被问到要实现一个单例模式时，很多人的第一反应是写出如下的代码，包括教科书上也是这样
单例模式香水浓 java
懒汉调用getInstance方法时实例化 public class Singleton { private static Singleton instance; private Singleton() {} public static synchronized Singleton getInstance() { if(null == ins
安装Apache问题：系统找不到指定的文件 No installed service named "Apache2" AdyZhang apache http server
安装Apache问题：系统找不到指定的文件 No installed service named "Apache2" 每次到这一步都很小心防它的端口冲突问题，结果，特意留出来的80端口就是不能用，烦。解决方法确保几处： 1、停止IIS启动 2、把端口80改成其它（譬如90，800，，，什么数字都好） 3、防火墙(关掉试试) 在运行处输入 cmd 回车，转到apa
如何在android 文件选择器中选择多个图片或者视频？ aijuans android
我的android app有这样的需求，在进行照片和视频上传的时候，需要一次性的从照片/视频库选择多条进行上传但是android原生态的sdk中，只能一个一个的进行选择和上传。我想知道是否有其他的android上传库可以解决这个问题，提供一个多选的功能，可以使checkbox之类的，一次选择多个处理方法官方的图片选择器(但是不支持所有版本的androi，只支持API Level
mysql中查询生日提醒的日期相关的sql baalwolf mysql
SELECT sysid,user_name,birthday,listid,userhead_50,CONCAT(YEAR(CURDATE()),DATE_FORMAT(birthday,'-%m-%d')),CURDATE(), dayofyear( CONCAT(YEAR(CURDATE()),DATE_FORMAT(birthday,'-%m-%d')))-dayofyear(
MongoDB索引文件破坏后导致查询错误的问题 BigBird2012 mongodb
问题描述： MongoDB在非正常情况下关闭时，可能会导致索引文件破坏，造成数据在更新时没有反映到索引上。解决方案：使用脚本，重建MongoDB所有表的索引。 var names = db.getCollectionNames(); for( var i in names ){ var name = names[i]; print(name);
Javascript Promise bijian1013 JavaScript Promise
Parse JavaScript SDK现在提供了支持大多数异步方法的兼容jquery的Promises模式，那么这意味着什么呢，读完下文你就了解了。一.认识Promises “Promises”代表着在javascript程序里下一个伟大的范式，但是理解他们为什么如此伟大不是件简
[Zookeeper学习笔记九]Zookeeper源代码分析之Zookeeper构造过程 bit1129 zookeeper
Zookeeper重载了几个构造函数，其中构造者可以提供参数最多，可定制性最多的构造函数是 public ZooKeeper(String connectString, int sessionTimeout, Watcher watcher, long sessionId, byte[] sessionPasswd, boolea
【Java命令三】jstack bit1129 jstack
jstack是用于获得当前运行的Java程序所有的线程的运行情况(thread dump），不同于jmap用于获得memory dump [hadoop@hadoop sbin]$ jstack Usage: jstack [-l] <pid> (to connect to running process) jstack -F
jboss 5.1启停脚本　动静分离部署 ronin47
以前启动jboss，往各种xml配置文件，现只要运行一句脚本即可。start nohup sh /**/run.sh -c servicename -b ip -g clustername -u broatcast jboss.messaging.ServerPeerID=int -Djboss.service.binding.set=p
UI之如何打磨设计能力? brotherlamp UI ui教程 ui自学 ui资料 ui视频
在越来越拥挤的初创企业世界里，视觉设计的重要性往往可以与杀手级用户体验比肩。在许多情况下，尤其对于 Web 初创企业而言，这两者都是不可或缺的。前不久我们在《右脑革命：别学编程了，学艺术吧》中也曾发出过重视设计的呼吁。如何才能提高初创企业的设计能力呢?以下是 9 位创始人的体会。 1.找到自己的方式如果你是设计师，要想提高技能可以去设计博客和展示好设计的网站如D-lists或
三色旗算法 bylijinnan java 算法
import java.util.Arrays; /** 问题：假设有一条绳子，上面有红、白、蓝三种颜色的旗子，起初绳子上的旗子颜色并没有顺序，您希望将之分类，并排列为蓝、白、红的顺序，要如何移动次数才会最少，注意您只能在绳子上进行这个动作，而且一次只能调换两个旗子。网上的解法大多类似：在一条绳子上移动，在程式中也就意味只能使用一个阵列，而不使用其它的阵列来
警告:No configuration found for the specified action: \'s chiangfai configuration
1.index.jsp页面form标签未指定namespace属性。  <%@taglib prefix="s" uri="/struts-tags"%> ... <s:form action="submit" method="post"&g
redis -- hash_max_zipmap_entries设置过大有问题 chenchao051 redis hash
使用redis时为了使用hash追求更高的内存使用率，我们一般都用hash结构，并且有时候会把hash_max_zipmap_entries这个值设置的很大，很多资料也推荐设置到1000，默认设置为了512，但是这里有个坑 #define ZIPMAP_BIGLEN 254 #define ZIPMAP_END 255 /* Return th
select into outfile access deny问题 daizj mysql txt 导出数据到文件
本文转自：http://hatemysql.com/2010/06/29/select-into-outfile-access-deny%E9%97%AE%E9%A2%98/ 为应用建立了rnd的帐号，专门为他们查询线上数据库用的，当然，只有他们上了生产网络以后才能连上数据库，安全方面我们还是很注意的，呵呵。授权的语句如下： grant select on armory.* to rn
phpexcel导出excel表简单入门示例 dcj3sjt126com PHP Excel phpexcel
<?php error_reporting(E_ALL); ini_set('display_errors', TRUE); ini_set('display_startup_errors', TRUE); if (PHP_SAPI == 'cli') die('This example should only be run from a Web Brows
美国电影超短200句 dcj3sjt126com 电影
1. I see．我明白了。2. I quit! 我不干了!3. Let go! 放手!4. Me too．我也是。5. My god! 天哪!6. No way! 不行!7. Come on．来吧(赶快)8. Hold on．等一等。9. I agree。我同意。10. Not bad．还不错。11. Not yet．还没。12. See you．再见。13. Shut up!
Java访问远程服务 dyy_gusi httpclient webservice get post
随着webService的崛起，我们开始中会越来越多的使用到访问远程webService服务。当然对于不同的webService框架一般都有自己的client包供使用，但是如果使用webService框架自己的client包，那么必然需要在自己的代码中引入它的包，如果同时调运了多个不同框架的webService，那么就需要同时引入多个不同的clien
Maven的settings.xml配置 geeksun settings.xml
settings.xml是Maven的配置文件，下面解释一下其中的配置含义： settings.xml存在于两个地方： 1.安装的地方：$M2_HOME/conf/settings.xml 2.用户的目录：${user.home}/.m2/settings.xml 前者又被叫做全局配置，后者被称为用户配置。如果两者都存在，它们的内容将被合并，并且用户范围的settings.xml优先。
ubuntu的init与系统服务设置 hongtoushizi ubuntu
转载自： http://iysm.net/?p=178 init Init是位于/sbin/init的一个程序，它是在linux下，在系统启动过程中，初始化所有的设备驱动程序和数据结构等之后，由内核启动的一个用户级程序，并由此init程序进而完成系统的启动过程。 ubuntu与传统的linux略有不同，使用upstart完成系统的启动，但表面上仍维持init程序的形式。运行
跟我学Nginx+Lua开发目录贴 jinnianshilongnian nginx lua
使用Nginx+Lua开发近一年的时间，学习和实践了一些Nginx+Lua开发的架构，为了让更多人使用Nginx+Lua架构开发，利用春节期间总结了一份基本的学习教程，希望对大家有用。也欢迎谈探讨学习一些经验。目录第一章安装Nginx+Lua开发环境第二章 Nginx+Lua开发入门第三章 Redis/SSDB+Twemproxy安装与使用第四章 L
php位运算符注意事项 home198979 位运算 PHP &
$a = $b = $c = 0; $a & $b = 1; $b | $c = 1 问a,b,c最终为多少? 当看到这题时，我犯了一个低级错误，误以为位运算符会改变变量的值。所以得出结果是1 1 0 但是位运算符是不会改变变量的值的，例如： $a=1;$b=2; $a&$b; 这样a,b的值不会有任何改变
Linux shell数组建立和使用技巧 pda158 linux
1.数组定义　　[chengmo@centos5 ~]$ a=(1 2 3 4 5) 　　[chengmo@centos5 ~]$ echo $a 　　1 　　一对括号表示是数组，数组元素用“空格”符号分割开。　　 2.数组读取与赋值　　得到长度：　　[chengmo@centos5 ~]$ echo ${#a[@]} 　　5 　　用${#数组名[@或
hotspot源码(JDK7) ol_beta java HotSpot jvm
源码结构图，方便理解： ├─agent Serviceab
Oracle基本事务和ForAll执行批量DML练习 vipbooks oracle sql
基本事务的使用：从账户一的余额中转100到账户二的余额中去，如果账户二不存在或账户一中的余额不足100则整笔交易回滚 select * from account; -- 创建一张账户表 create table account( -- 账户ID id number(3) not null, -- 账户名称 nam