翻滚的老鼠屎

修正的线性激活函数（Relu）如何避免梯度消失

2019年的第一篇博客。主要译自Machine Learning Mastery，加上了一点点自己的想法。如有问题，欢迎批评指正~

消失梯度问题是在训练深度神经网络时可能遇到的不稳定问题之一。它描述了深度多层前馈网络或循环神经网络无法将有用的梯度信息从模型的输出端传播回模型输入端附近的层的情况。其结果是，具有许多层的模型通常无法在给定的数据集上学习或过早地收敛到较差的解决方案。

目前，已经提出和研究了许多解决方案和变通方法，如改变权值初始化方案、提前使用无监督、分层训练和梯度下降变体等。也许最常见的方法是使用修正的线性激活函数，它已经替代了自90年代末至21世纪初这十年一直被使用的双曲正切激活函数，成为新的默认值。

在本教程中，您将了解如何在训练神经网络模型时诊断消失梯度问题，以及如何使用其他激活函数和权重初始化方案来修复它。

完成本教程后，您将知道:

梯度消失问题限制了具有双曲正切等经典激活函数的神经网络的发展。
如何利用ReLU和He权值初始化修正深度神经网络多层感知器的分类问题。
如何利用TensorBoard对消失梯度问题进行诊断，确定ReLU对模型中梯度流动的影响。

让我们开始吧。

教程概述

本教程分为五个部分;它们是:

梯度消失问题（总体介绍）
二圆二分类问题（构建数据集）
两圆问题的多层感知器模型（构建MLP模型）
基于ReLU的两圆问题的更深层次的MLP模型（加深模型及引入Relu激活函数)
在训练中回顾平均梯度大小（使用Tensorboard对梯度进行可视化）

梯度消失问题

采用随机梯度下降方法对神经网络进行训练，这包括首先计算模型的预测误差，然后利用误差来评估用于更新网络中每个权重的梯度，从而减少下一次的误差。这个误差梯度通过网络从输出层向后传播到输入层。

对多层神经网络进行训练是可取的，因为多层神经网络的加入增加了网络的容量，使其能够学习大量的训练数据集，并能有效地表示从输入到输出的更复杂的映射函数。

多层训练网络(如深度神经网络)的一个问题是，当梯度在网络中向后传播时，梯度会急剧减小。当它到达接近模型输入的层时，误差可能非常小，以至于影响很小。因此，这个问题被称为“消失梯度”问题。

消失的梯度让我们很难知道参数应该向哪个方向移动以改善损失函数......

— Page 290, Deep Learning, 2016.

事实上，误差梯度在深度神经网络中是不稳定的，不仅会消失，而且会爆炸，梯度在网络中向后传播时呈指数增长。这就是所谓的“爆炸梯度”问题。

消失梯度一词指的是，在前馈网络(FFN)中，反向传播的误差信号通常会随着距离最后一层的距离呈指数形式减少(或增加)。

— Random Walk Initialization for Training Very Deep Feedforward Networks, 2014.

在循环神经网络中，梯度消失是一个特别的问题，因为网络的更新涉及到为每个输入时间步长展开网络，实际上创建了一个非常深的网络，需要更新权重。一个适度的循环神经网络可能有200到400个输入时间步长，在概念上产生一个非常深的网络。

梯度消失问题可能在多层感知机中表现为训练过程中模型的改进速度较慢，可能是过早收敛，例如，继续训练不会导致进一步的改进。检查训练过程中权重的变化，我们会发现在靠近输出层的层中发生了更多的变化(即更多的学习)，而在靠近输入层的层中发生的变化更少。

有许多技术可以用来减少前馈神经网络的梯度消失问题的影响，最著名的是替代权值初始化方案和使用替代激活函数。

针对消失梯度问题，研究并应用了不同的深度网络训练方法(前馈和循环)，如预处理、更好的随机初始缩放、更好的优化方法、特定的体系结构、正交初始化等。

— Random Walk Initialization for Training Very Deep Feedforward Networks, 2014.

在本教程中，我们将进一步研究如何使用其他的权值初始化方案和激活函数来训练更深层次的神经网络模型。

二圆二分类问题

作为我们探索的基础，我们将使用一个非常简单的两类或二元分类问题。

scikit-learn类提供了make_circles()函数，该函数可用于创建具有指定样本数量和统计噪声的二进制分类问题。

每个示例都有两个输入变量，用于定义二维平面上该点的x和y坐标。这两个类的点被排成两个同心圆(它们有相同的中心)。

数据集中点的数量由一个参数指定，其中一半将从每个圆中绘制。通过定义噪声标准差的“噪声”参数对采样点进行采样时，可以加入高斯噪声，其中0.0表示没有噪声，或者从圆中准确地画出点。伪随机数生成器的种子可以通过“random_state”参数指定，该参数允许每次调用函数时采样相同的点。

下面的示例从两个带有噪声和值1的循环中生成1,000个示例，用于生成伪随机数生成器。

# generate circles
X, y = make_circles(n_samples=1000, noise=0.1, random_state=1)

我们可以创建数据集的图形，绘制输入变量(x)的x和y坐标，并用类值(0或1)为每个点着色。下面列出了完整的示例。

# scatter plot of the circles dataset with points colored by class
from sklearn.datasets import make_circles
from numpy import where
from matplotlib import pyplot
# generate circles
X, y = make_circles(n_samples=1000, noise=0.1, random_state=1)
# select indices of points with each class label
for i in range(2):
	samples_ix = where(y == i)
	pyplot.scatter(X[samples_ix, 0], X[samples_ix, 1], label=str(i))
pyplot.legend()
pyplot.show()

运行该示例将创建一个绘图，显示生成的1000个数据点，每个点的类值用于为每个点着色。我们可以看到0类的点是蓝色的，代表外圆，1类的点是橙色的，代表内圆。

生成的样本的统计噪声意味着两个圆之间存在一些点的重叠，增加了问题的模糊性，使其非平凡性。这是可取的，因为神经网络可能会从许多可能的解决方案中选择一个来分类两个圆之间的点，并且总是会犯一些错误。

现在我们已经定义了一个问题作为我们探索的基础，我们可以考虑开发一个模型来解决它。

两圆问题的多层感知器模型

我们可以开发一个多层感知器模型来解决这两个圆的问题。这将是一个简单的前馈神经网络模型，就像我们在20世纪90年代末和21世纪初学到的那样。

首先，我们将从两个圆问题中生成1000个数据点，并将输入重新缩放到范围[- 1,1]（数据几乎已经在这个范围内了，做这一步仅仅是确保万无一失）。

通常，我们将使用训练数据集准备数据缩放，并将其应用于测试数据集。为了在本教程中简化流程，我们将在将所有数据分割为训练集和测试集之前，将它们缩放到一起。

# generate 2d classification dataset
X, y = make_circles(n_samples=1000, noise=0.1, random_state=1)
# scale input data to [-1,1]
scaler = MinMaxScaler(feature_range=(-1, 1))
X = scaler.fit_transform(X)

接下来，我们将把数据分为训练集和测试集。

一半的数据将用于培训和剩余的500例子将被用作测试集。在本教程中,测试集也将作为验证数据这样我们可以了解模型的执行期间如何在控制外的集上训练。

# split into train and test
n_train = 500
trainX, testX = X[:n_train, :], X[n_train:, :]
trainy, testy = y[:n_train], y[n_train:]

接下来，我们将定义模型。

对于数据集中的两个变量，该模型将有一个具有两个输入的输入层，一个具有五个节点的隐藏层，以及一个具有一个节点的输出层，用于预测类概率。隐藏层将使用双曲正切激活函数(tanh)，输出层将使用logistic激活函数(sigmoid)来预测class 0或class 1或介于两者之间的值。

在隐层中使用双曲正切激活函数是20世纪90年代和21世纪初的最佳实践，在隐层中使用双曲正切激活函数的效果通常优于logistic函数。将网络权值从均匀分布初始化为小的随机值也是一种很好的做法。在这里，我们将从范围[0.0,1.0]中随机初始化权重。

# define model
model = Sequential()
init = RandomUniform(minval=0, maxval=1)
model.add(Dense(5, input_dim=2, activation='tanh', kernel_initializer=init))
model.add(Dense(1, activation='sigmoid', kernel_initializer=init))

该模型采用二元交叉熵损失函数，采用学习速率为0.01、动量较大的随机梯度下降法进行优化。

# compile model
opt = SGD(lr=0.01, momentum=0.9)
model.compile(loss='binary_crossentropy', optimizer=opt, metrics=['accuracy'])

对模型进行500个epochs的训练，并在每个时点结束时对测试数据集和训练数据集进行评估。

# fit model
history = model.fit(trainX, trainy, validation_data=(testX, testy), epochs=500, verbose=0)

模型拟合好后，在训练数据集和测试数据集上对模型进行评估，并显示准确率得分。

# evaluate the model
_, train_acc = model.evaluate(trainX, trainy, verbose=0)
_, test_acc = model.evaluate(testX, testy, verbose=0)
print('Train: %.3f, Test: %.3f' % (train_acc, test_acc))

最后，将模型在训练过程中每一步的准确性绘制成直线图，展示了模型在学习问题时的动态。

# plot training history
pyplot.plot(history.history['acc'], label='train')
pyplot.plot(history.history['val_acc'], label='test')
pyplot.legend()
pyplot.show()

将所有这些结合在一起，下面列出了完整的示例。

# mlp for the two circles classification problem
from sklearn.datasets import make_circles
from sklearn.preprocessing import MinMaxScaler
from keras.layers import Dense
from keras.models import Sequential
from keras.optimizers import SGD
from keras.initializers import RandomUniform
from matplotlib import pyplot
# generate 2d classification dataset
X, y = make_circles(n_samples=1000, noise=0.1, random_state=1)
# scale input data to [-1,1]
scaler = MinMaxScaler(feature_range=(-1, 1))
X = scaler.fit_transform(X)
# split into train and test
n_train = 500
trainX, testX = X[:n_train, :], X[n_train:, :]
trainy, testy = y[:n_train], y[n_train:]
# define model
model = Sequential()
init = RandomUniform(minval=0, maxval=1)
model.add(Dense(5, input_dim=2, activation='tanh', kernel_initializer=init))
model.add(Dense(1, activation='sigmoid', kernel_initializer=init))
# compile model
opt = SGD(lr=0.01, momentum=0.9)
model.compile(loss='binary_crossentropy', optimizer=opt, metrics=['accuracy'])
# fit model
history = model.fit(trainX, trainy, validation_data=(testX, testy), epochs=500, verbose=0)
# evaluate the model
_, train_acc = model.evaluate(trainX, trainy, verbose=0)
_, test_acc = model.evaluate(testX, testy, verbose=0)
print('Train: %.3f, Test: %.3f' % (train_acc, test_acc))
# plot training history
pyplot.plot(history.history['acc'], label='train')
pyplot.plot(history.history['val_acc'], label='test')
pyplot.legend()
pyplot.show()

运行这个示例只需几秒钟就可以适应这个模型。计算并显示了模型在训练集和测试集上的性能。由于学习算法的随机性，具体结果可能会有所不同。考虑运行该示例几次。

我们可以看到，在这种情况下，模型很好地学习了这个问题，在训练集和测试数据集上都达到了大约81.6%的准确性。

在训练和测试集上创建了模型精度的直线图，显示了500个epochs内的性能变化。

图中显示，对于这次运行，训练集和测试集的性能在epoch=300左右开始下降，准确率都在80%左右。

现在我们已经了解了如何使用tanh激活函数开发一个经典的MLP来解决两个圆的问题，我们可以看看如何修改模型，使其具有更多的隐藏层。

两个圆问题的更深层次的MLP模型

传统上，开发深层多层感知器模型是具有挑战性的。使用双曲正切激活函数的深层模型不容易训练，这种糟糕的性能在很大程度上要归咎于渐近梯度问题。

我们可以尝试使用上一节中开发的MLP模型来研究这一点。隐藏层的数量可以从1增加到5;例如:

# define model
init = RandomUniform(minval=0, maxval=1)
model = Sequential()
model.add(Dense(5, input_dim=2, activation='tanh', kernel_initializer=init))
model.add(Dense(5, activation='tanh', kernel_initializer=init))
model.add(Dense(5, activation='tanh', kernel_initializer=init))
model.add(Dense(5, activation='tanh', kernel_initializer=init))
model.add(Dense(5, activation='tanh', kernel_initializer=init))
model.add(Dense(1, activation='sigmoid', kernel_initializer=init))

然后我们可以重新运行示例并查看结果。下面列出了更深入的MLP的完整示例。

# deeper mlp for the two circles classification problem
from sklearn.datasets import make_circles
from sklearn.preprocessing import MinMaxScaler
from keras.layers import Dense
from keras.models import Sequential
from keras.optimizers import SGD
from keras.initializers import RandomUniform
from matplotlib import pyplot
# generate 2d classification dataset
X, y = make_circles(n_samples=1000, noise=0.1, random_state=1)
scaler = MinMaxScaler(feature_range=(-1, 1))
X = scaler.fit_transform(X)
# split into train and test
n_train = 500
trainX, testX = X[:n_train, :], X[n_train:, :]
trainy, testy = y[:n_train], y[n_train:]
# define model
init = RandomUniform(minval=0, maxval=1)
model = Sequential()
model.add(Dense(5, input_dim=2, activation='tanh', kernel_initializer=init))
model.add(Dense(5, activation='tanh', kernel_initializer=init))
model.add(Dense(5, activation='tanh', kernel_initializer=init))
model.add(Dense(5, activation='tanh', kernel_initializer=init))
model.add(Dense(5, activation='tanh', kernel_initializer=init))
model.add(Dense(1, activation='sigmoid', kernel_initializer=init))
# compile model
opt = SGD(lr=0.01, momentum=0.9)
model.compile(loss='binary_crossentropy', optimizer=opt, metrics=['accuracy'])
# fit model
history = model.fit(trainX, trainy, validation_data=(testX, testy), epochs=500, verbose=0)
# evaluate the model
_, train_acc = model.evaluate(trainX, trainy, verbose=0)
_, test_acc = model.evaluate(testX, testy, verbose=0)
print('Train: %.3f, Test: %.3f' % (train_acc, test_acc))
# plot training history
pyplot.plot(history.history['acc'], label='train')
pyplot.plot(history.history['val_acc'], label='test')
pyplot.legend()
pyplot.show()

运行该示例首先在训练集和测试数据集中打印fit模型的性能。由于学习算法的随机性，具体结果可能会有所不同。考虑运行该示例几次。

在这种情况下，我们可以看到训练集和测试集的性能都很差，达到了大约50%的准确率。这表明所配置的模型不能了解问题，也不能泛化解决方案。

模型训练过程中在训练集和测试集上的精度曲线表明了相似的事情。我们可以看到，这种表现很差，而且随着训练的进行，这种表现会越来越差。

基于ReLU的两圆问题的更深层次的MLP模型

在开发多层感知器网络以及其他网络类型(如CNNs)时，校正后的线性激活函数已经取代双曲正切激活函数成为新的首选默认值。这是因为Relu的外观和行为都像一个线性函数，使得它更容易训练和不太可能饱和，但实际上，它是一个非线性函数，迫使负输入值为0。它被认为是一种可能的方法来解决消失梯度问题时，训练更深的模型。（Relu起作用的原因）

在使用修正的线性激活函数(ReLU)时，使用权重初始化方案是一种很好的做法。我们可以使用ReLU和He初始化定义带有五个隐藏层的MLP，如下所示。

# define model
model = Sequential()
model.add(Dense(5, input_dim=2, activation='relu', kernel_initializer='he_uniform'))
model.add(Dense(5, activation='relu', kernel_initializer='he_uniform'))
model.add(Dense(5, activation='relu', kernel_initializer='he_uniform'))
model.add(Dense(5, activation='relu', kernel_initializer='he_uniform'))
model.add(Dense(5, activation='relu', kernel_initializer='he_uniform'))
model.add(Dense(1, activation='sigmoid'))

下面列出了完整的代码示例。

# deeper mlp with relu for the two circles classification problem
from sklearn.datasets import make_circles
from sklearn.preprocessing import MinMaxScaler
from keras.layers import Dense
from keras.models import Sequential
from keras.optimizers import SGD
from keras.initializers import RandomUniform
from matplotlib import pyplot
# generate 2d classification dataset
X, y = make_circles(n_samples=1000, noise=0.1, random_state=1)
scaler = MinMaxScaler(feature_range=(-1, 1))
X = scaler.fit_transform(X)
# split into train and test
n_train = 500
trainX, testX = X[:n_train, :], X[n_train:, :]
trainy, testy = y[:n_train], y[n_train:]
# define model
model = Sequential()
model.add(Dense(5, input_dim=2, activation='relu', kernel_initializer='he_uniform'))
model.add(Dense(5, activation='relu', kernel_initializer='he_uniform'))
model.add(Dense(5, activation='relu', kernel_initializer='he_uniform'))
model.add(Dense(5, activation='relu', kernel_initializer='he_uniform'))
model.add(Dense(5, activation='relu', kernel_initializer='he_uniform'))
model.add(Dense(1, activation='sigmoid'))
# compile model
opt = SGD(lr=0.01, momentum=0.9)
model.compile(loss='binary_crossentropy', optimizer=opt, metrics=['accuracy'])
# fit model
history = model.fit(trainX, trainy, validation_data=(testX, testy), epochs=500, verbose=0)
# evaluate the model
_, train_acc = model.evaluate(trainX, trainy, verbose=0)
_, test_acc = model.evaluate(testX, testy, verbose=0)
print('Train: %.3f, Test: %.3f' % (train_acc, test_acc))
# plot training history
pyplot.plot(history.history['acc'], label='train')
pyplot.plot(history.history['val_acc'], label='test')
pyplot.legend()
pyplot.show()

运行该示例将在训练集和测试数据集上打印模型的性能。

由于学习算法的随机性，具体结果可能会有所不同。考虑运行该示例几次。

在这种情况下，我们可以看到这个小的变化使模型能够了解问题，在两个数据集上实现了84%的准确性，比使用tanh激活函数的单层模型的性能要好。

在训练周期内，建立了训练集和测试集模型精度的线图。这个图显示了与我们目前所看到的完全不同的动态。该模型似乎可以快速地了解问题，在大约100个epochs内汇聚到一个解决方案。

使用ReLU激活函数使我们能够为这个简单的问题拟合一个更深入的模型，但是这种能力不会无限扩展。例如，增加层的数量会导致学习速度变慢，达到大约20层，此时模型不再能够学习问题，至少对于所选的配置是这样。

例如，下面是同一模型的15个隐含层的训练和测试精度的线段图，表明该模型仍然能够学习问题。

下面是同一模型20层的具有500个epochs的训练和测试精度线图，显示配置不再能够学习问题。

虽然ReLU的使用是有效的，但是我们不能确信tanh函数的使用因为梯度的消失而失败，而ReLU的成功是因为它克服了这个问题。

在训练中回顾平均梯度大小

本节假设您正在使用带有Keras的TensorFlow后端。如果不是这样，您可以跳过这一部分。

在使用tanh激活函数的情况下，我们知道网络有足够的能力来学习这个问题，但是层数的增加阻止了它这样做。很难将消失梯度诊断为性能差的原因。一个可能的信号是检查每个训练历元每层梯度的平均大小。

我们希望靠近输出的层比靠近输入的层有更大的平均梯度。

Keras提供了TensorBoard回调函数，可用于在训练期间记录模型的属性，如每层的平均梯度。然后可以使用TensorFlow提供的TensorBoard接口查看这些统计信息。

我们可以配置这个回调函数来记录每层每训练的平均梯度，然后确保这个回调函数被用作模型训练的一部分。

# prepare callback
tb = TensorBoard(histogram_freq=1, write_grads=True)
# fit model
model.fit(trainX, trainy, validation_data=(testX, testy), epochs=500, verbose=0, callbacks=[tb])

我们可以使用这个回调函数，首先使用双曲正切激活函数研究深度模型拟合中梯度的动力学，然后使用修正的线性激活函数将动力学与相同的模型拟合进行比较。

首先，下面列出了使用tanh和TensorBoard回调的deep MLP模型的完整示例。

# deeper mlp for the two circles classification problem with callback
from sklearn.datasets import make_circles
from sklearn.preprocessing import MinMaxScaler
from keras.layers import Dense
from keras.models import Sequential
from keras.optimizers import SGD
from keras.initializers import RandomUniform
from keras.callbacks import TensorBoard
# generate 2d classification dataset
X, y = make_circles(n_samples=1000, noise=0.1, random_state=1)
scaler = MinMaxScaler(feature_range=(-1, 1))
X = scaler.fit_transform(X)
# split into train and test
n_train = 500
trainX, testX = X[:n_train, :], X[n_train:, :]
trainy, testy = y[:n_train], y[n_train:]
# define model
init = RandomUniform(minval=0, maxval=1)
model = Sequential()
model.add(Dense(5, input_dim=2, activation='tanh', kernel_initializer=init))
model.add(Dense(5, activation='tanh', kernel_initializer=init))
model.add(Dense(5, activation='tanh', kernel_initializer=init))
model.add(Dense(5, activation='tanh', kernel_initializer=init))
model.add(Dense(5, activation='tanh', kernel_initializer=init))
model.add(Dense(1, activation='sigmoid', kernel_initializer=init))
# compile model
opt = SGD(lr=0.01, momentum=0.9)
model.compile(loss='binary_crossentropy', optimizer=opt, metrics=['accuracy'])
# prepare callback
tb = TensorBoard(histogram_freq=1, write_grads=True)
# fit model
model.fit(trainX, trainy, validation_data=(testX, testy), epochs=500, verbose=0, callbacks=[tb])

运行该示例将创建一个新的“logs/”子目录，其中包含训练期间回调记录的统计信息。我们可以在TensorBoard web界面中查看统计数据。可以从命令行启动该接口，这要求您指定到日志目录的完整路径。

例如，如果您在“/code”目录中运行代码，那么日志目录的完整路径将是“/code/logs/”。

下面是在命令行(命令提示符/powershell)上启动TensorBoard接口的命令。请确保将路径更改为您的logs目录。

python -m tensorboard.main --logdir=/code/logs/

接下来，在命令行（命令提示符/powershell)中将出现一个网址，复制并在浏览器打开。如果一切顺利，您将看到TensorBoard web界面。

这里可能会有小问题。比如我刚刚开始打开时是酱紫的：

后来参考了一下tensorboard 无法显示的问题这篇博客，原来问题出现在了路径上。所以，我的解决方法是：在logs的上一层目录shift+右击-在此处打开powershell窗口（当然也可能是cmd或者其他），输入：

python -m tensorboard.main --logdir=logs

复制网址在浏览器打开后即可看到：

在界面的“DISTRIBUTIONS”和“HISTOGRAMS”选项卡中可以查看每个训练历元每层的平均梯度图。可以使用搜索过滤器“kernel_0_grad”过滤这些图，使其仅显示密集层的梯度，排除偏差。

我提供了下面的图的副本，尽管由于学习算法的随机性，您的具体结果可能会有所不同。

首先，为6个层(5个隐藏层，1个输出层)中的每个层创建行图。图的名称表示层，其中“dense_1”表示输入层之后的隐藏层，“dense_6”表示输出层。

我们可以看到输出层在整个运行过程中有很多活动，每个历元的平均梯度在0.05到0.1之间。我们还可以在第一个隐藏层中看到类似范围的一些活动。因此，渐变到达第一个隐藏层，但是最后一层和最后一层看到的是大部分活动。

我们可以利用ReLU激活函数从深层MLP中收集相同的信息。下面列出了完整的示例。

# deeper mlp with relu for the two circles classification problem with callback
from sklearn.datasets import make_circles
from sklearn.preprocessing import MinMaxScaler
from keras.layers import Dense
from keras.models import Sequential
from keras.optimizers import SGD
from keras.callbacks import TensorBoard
# generate 2d classification dataset
X, y = make_circles(n_samples=1000, noise=0.1, random_state=1)
scaler = MinMaxScaler(feature_range=(-1, 1))
X = scaler.fit_transform(X)
# split into train and test
n_train = 500
trainX, testX = X[:n_train, :], X[n_train:, :]
trainy, testy = y[:n_train], y[n_train:]
# define model
model = Sequential()
model.add(Dense(5, input_dim=2, activation='relu', kernel_initializer='he_uniform'))
model.add(Dense(5, activation='relu', kernel_initializer='he_uniform'))
model.add(Dense(5, activation='relu', kernel_initializer='he_uniform'))
model.add(Dense(5, activation='relu', kernel_initializer='he_uniform'))
model.add(Dense(5, activation='relu', kernel_initializer='he_uniform'))
model.add(Dense(1, activation='sigmoid'))
# compile model
opt = SGD(lr=0.01, momentum=0.9)
model.compile(loss='binary_crossentropy', optimizer=opt, metrics=['accuracy'])
# prepare callback
tb = TensorBoard(histogram_freq=1, write_grads=True)
# fit model
model.fit(trainX, trainy, validation_data=(testX, testy), epochs=500, verbose=0, callbacks=[tb])

如果你是新手，TensorBoard界面可能会让你感到困惑。为了简单起见，在运行第二个示例之前删除“logs”子目录。一旦运行，您可以以相同的方式启动TensorBoard接口，并通过web浏览器访问它。

与使用tanh的深度模型的梯度相比，每个训练历元的每层平均梯度图显示了不同的情况。

我们可以看到，第一个隐藏层的梯度更大，与较大的扩展更一致，可能是0.2到0.4，而tanh的梯度为0.05和0.1。我们还可以看到中间的隐藏层有很大的渐变。

ReLU激活函数允许在训练过程中有更多的梯度向后流过模型，这可能是性能提高的原因。

拓展

本节列出了一些扩展教程的想法，您可能希望对其进行研究。

Weight Initialization：使用tanh激活更新deep MLP，使用Xavier均匀权值初始化并报告结果。
Learning Algorithm：.使用tanh激活更新deep MLP，使用Adam等自适应学习算法并报告结果。
Weight Changes：更新tanh和relu的例子，记录并绘制模型权值每一历元的L1向量范数，作为训练过程中每一层变化量的代理，并比较结果。
Study Model Depth：使用激活tanh的MLP创建一个实验，当隐藏层的数量从1增加到10时，报告模型的性能。
Increase Breadth：激活tanh后，将MLP隐藏层中的节点数量从5个增加到25个，当层数从1个增加到10个时，报告性能。

总结

在本教程中，您了解了如何在训练神经网络模型时诊断消失梯度问题，以及如何使用备用激活函数和权重初始化方案来修复它。具体来说,你学会了:

梯度消失问题限制了具有双曲正切等经典激活函数的神经网络的发展。
如何利用ReLU和He权值初始化修正深度神经网络多层感知器的分类问题。
如何利用Relu对消失梯度问题进行诊断，确定ReLU对模型中梯度流动的影响。

你可能感兴趣的:(machine,learning,deep,learning,深度学习入门)

Deepseek技术深化：驱动大数据时代颠覆性变革的未来引擎荣华富贵8 spring boot 搜索引擎后端缓存 redis
在大数据时代，信息爆炸和数据驱动的决策逐渐重塑各行各业。作为一项前沿技术，Deepseek正在引领新一轮技术革新，颠覆传统数据处理与分析方式。本文将从理论原理、应用场景和前沿代码实践三个层面，深入剖析Deepseek技术如何为大数据时代提供颠覆性变革的解决方案。一、技术背景与核心思想1.1大数据挑战与机遇在数据量呈指数级增长的背景下，传统数据处理方法面临数据存储、计算效率和信息提取精度的诸多挑战。
学C++的五大惊人好处
为什么要学c++学c++有什么用学习c++的好处有1.中考可以加分2.高考可能直接录取3.就业广且工资高4.在未来30--50年c++一定是一个很受欢迎的职业5.c++成功的例子deepsick等AI智能C++语言兼备编程效率和编译运行效率的语言C++语言是C语言功能增强版,在c语言的基础上添加了面向对象编程和泛型编程的支持既继承了C语言高效，简洁，快速和可移植的传统,又具备类似Java、Go等其
基于DeepSeek的下一代大型游戏开发革命：架构、核心技术与项目管理实践 Liudef06小白特殊专栏人工智能 AIGC 架构人工智能 deepseek
基于DeepSeek的下一代大型游戏开发革命：架构、核心技术与项目管理实践DeepSeek大模型正重塑游戏开发范式，本文将深入解析如何利用这一革命性技术构建下一代大型游戏，涵盖从架构设计到项目管理的全流程实践。目录DeepSeek游戏引擎核心架构1.1神经符号系统融合架构1.2动态世界生成引擎智能NPC与剧情系统2.1角色人格建模技术2.2动态叙事生成算法大型项目管理体系3.1敏捷-AI混合开发流
19.0-《超越感觉》-说服他人 SAM52
Becausethoughtfuljudgmentsdeservetobeshared,andthewaytheyarepresentedcanstronglyinfluencethewayothersreacttothem.因为经过深思熟虑的判断值得分享，而这些判断的呈现方式会强烈影响其他人对它们的反应。Bylearningtheprinciplesofpersuasionandapplying
2018年中南大学中英翻译某翁
参考：20180827235856533.jpg【1】机器学习理论表明，机器学习算法能从有限个训练集样本上得到较好的泛化【1】Machinelearningtheoryshowsthatmachinelearningalgorithmcangeneralizewellfromfinitetrainingsetsampleslimited有限的infinite无限的【2】这似乎违背了一些基本的逻辑准
DeepBI助力亚马逊广告投放：精准获取竞品ASIN，抢占更多流量新置元创业创新 amazon 亚马逊广告
想在亚马逊广告投放中抢占更多流量？关键就在于精准添加竞品ASIN！通过DeepBI，你可以轻松找到与你产品高度相关的竞品，自动添加到广告中，提升曝光率。系统不仅智能分析竞品，还根据最新的数据调整出价策略，让你以最低成本获取最大回报。想要在竞争激烈的市场中脱颖而出，提升广告效果，DeepBI帮你精准定位、优化投放，让每一笔广告投入都物超所值！一、精准获取与添加竞品ASIN的重要性在亚马逊广告投放中，
如何在 Ubuntu 24.04 或 22.04 Linux 上安装和使用 NoMachine 山岚的运维笔记 Linux 运维及使用 linux ubuntu 运维 nomachine 远程连接
NoMachine是一款适用于Linux（Ubuntu）及其他支持的操作系统的远程桌面应用程序，允许用户通过本地或远程系统从世界任何地方控制计算机。它可以在低带宽连接下工作，被专业人士和家庭用户广泛使用。NoMachine的主要功能高性能远程访问跨平台兼容性易于使用，因为用户界面友好提供强大的加密协议，如SSH、SSL及其他安全标准支持远程文件传输和打印服务允许从远程计算机进行音频和视频流媒体传输
Python STL概念学习与代码实践体制教科书
本文还有配套的精品资源，点击获取简介：通过”py_stl_learning”项目，学习者可以使用Python实现和理解C++STL的概念，包括数据结构、算法、容器适配器、模板和泛型容器等。Python中的列表、集合、字典等数据结构与STL中的vector、set、map等类似，而Python的itertools和functools模块提供了STL风格的算法功能。Python通过其面向对象的特性以及
Day 2-DeepMind and London hospital focus AI on spotting eye diseases from scans 罗禹
篇章分析段落大意总起1.What-讲述DeepMindAI在健康领域的运用，及地位。分论现状及已有成果2.How-DeepMind如何运转，与过往方式人工诊断比较的优势。3.What-现阶段成果及未来发展：临床实践运用转化为学术成果，文章发表。未来将进一步进行临床实验。引用+前景4.通过引用DeepMindHealth负责人的话，来阐明未来前景。实操阐述5.What-算法机械学习的具体材料，及临床
4.ESP32-按键实验老蒋精髓 microPython 4.ESP32
4.ESP32-按键实验"""按键实验2022.10.9"""frommachineimportPinimporttimekey1=Pin(4,Pin.IN,Pin.PULL_UP)#GPIO2，设置为输出模式，输入模式为Pin.IN,设置为上拉key2=Pin(5,Pin.IN,Pin.PULL_UP
智慧建筑：科技引领房地产与建筑业的未来 RedPhoenix45
最新接入DeepSeek-V3模型，点击下载最新版本InsCodeAIIDE智慧建筑：科技引领房地产与建筑业的未来随着科技的飞速发展，人工智能（AI）和智能化工具正以前所未有的速度改变着各行各业。在房地产与建筑领域，这种变革尤为显著。从建筑设计到施工管理，再到物业管理，智能化技术正在重塑行业的每一个环节。本文将探讨如何利用先进的智能化工具提升房地产与建筑行业的效率，并介绍一款革命性的开发工具——它
智慧施工：AI技术赋能建筑安全监测新纪元
开发AI智能应用，就下载InsCodeAIIDE，一键接入DeepSeek-R1满血版大模型！智慧施工：AI技术赋能建筑安全监测新纪元在现代建筑行业中，施工安全始终是核心关注点之一。随着科技的飞速发展，人工智能（AI）和大数据分析逐渐成为提升施工安全的重要工具。本文将探讨如何利用智能化软件和大模型API来构建高效的施工安全监测系统，并介绍一款强大的开发工具——InsCodeAIIDE的应用场景及其
每周一段仿写-181028 Zeroun_Ph
Theneedfornewlearningstylesdoesnotmeanignoringthewaysinthepast.TheInternetagebringssomechallengesnotseenbefore,mostobviouslyandmostworryinglyuselessinformationblast.Butfragmentationoflearningandtheine
八大国产 AI 模型全景对比：阿里 Qwen、百度文心、腾讯混元、字节豆包、华为盘古、DeepSeek、Kimi、MiniMax 的技术解析与选型指南 charles666666 人工智能百度交互语言模型 transformer 产品经理
“在国产AI模型百花齐放的今天，企业技术决策者稍有不慎，就可能陷入性能与成本的双重困境。如何穿越技术迷雾，找到真正适配业务场景的那把钥匙？”一、开篇引言当技术选型决定企业AI落地成败，你还在凭感觉决策吗？当前国产AI模型市场，模型同质化现象严重，各厂商宣传资料中充满夸张的性能指标，但真正落地到企业实际业务场景中，却常常出现适配性不佳、部署成本不可控等问题。企业急需一份基于真实数据与场景验证的深度解
考研长难句-1-29 EasyNetCN
Onfirstlearning,thiswasthesociallyconcernedchancellortryingtochangelivesforthebetter,completewith"reforms"toanobviouslyindulgentsystemthatdemandstoolittleeffortfromthenewlyunemployedtofindwork,andsubs
Mamba架构的模型（内容由deepseek辅助汇总） Jiang_Immortals 人工智能
基于Mamba架构的模型近年来在效率和性能上展现出显著突破，以下按架构类型分类列出当前表现最出色的代表模型及其核心特点：一、纯SSM架构模型FalconMamba-7B关键创新：首个通用大规模纯Mamba模型，由阿布扎比TII开发，基于Mamba-1改进，增加RMS归一化层提升训练稳定性13。性能表现：在综合基准（IFEval、BBH、MMLU-PRO等）平均得分15.04，超越Llama3.1-
DeepSeek在大数据领域正掀起一场深刻的变革智海观潮 AI 大数据 deepseek AI
随着人工智能技术的飞速发展，DeepSeek作为一款行业领先的开源大模型，正在大数据领域掀起一场深刻的变革。其强大的数据处理和分析能力，为各行业带来了新的机遇和变革，推动数据与业务的深度融合。以下是DeepSeek在大数据领域的一些典型的潜在应用：1.加速数据处理与分析流程在传统的大数据应用中，数据收集、预处理和分析往往是一个繁琐且耗时的工程。DeepSeek凭借其高效的算法和强大的计算能力，极大
强化学习入门三（SARSA）第六五签算法模型算法人工智能
SARSA算法详解SARSA是强化学习中另一种经典的时序差分（TD）学习算法，与Q-Learning同属无模型（model-free）算法，但在更新策略上有显著差异。SARSA的名称来源于其更新公式中涉及的五个元素：状态（State）、动作（Action）、奖励（Reward）、下一状态（NextState）、下一动作（NextAction），即(S,A,R,S’,A’)。SARSA与Q-Lear
2025年最新五大顶级大模型技术对比分析报告 it_czz 人工智能
2025年最新五大顶级大模型技术对比分析报告执行摘要本报告基于2025年最新数据，深度分析当前最顶尖的5个已发布大语言模型：KimiK2(月之暗面)、Claude3.5Sonnet、GPT-4o、Gemini2.5Pro、DeepSeekR1，从技术架构、成本效益、性能表现、适配场景等多个维度进行全面对比。核心发现KimiK2：中文优化最强，超长上下文处理能力突出，本土化程度最高Claude3.5
RAGFlow 框架调研报告 it_czz 架构
RAGFlow框架调研报告1.概述RAGFlow是一个开源的检索增强生成（RAG）框架，专注于深度文档理解和高精度检索。它通过先进的文档解析能力和可视化调试功能，为企业提供了一个强大的知识库问答解决方案。1.1核心特性深度文档处理：内置DeepDoc引擎，支持复杂文档解析高精度检索：提供可视化分块和引用追踪多模态支持：支持文本、图片、PDF、Excel等多种格式开源自托管：完全开源，支持私有化部署
如何评价开课吧机器学习特训营这个课程？ cda2024 机器学习人工智能
开场：点明主题，吸引眼球在当今数据驱动的时代，机器学习（MachineLearning）已经成为各个行业不可或缺的技术之一。无论是金融、医疗、制造还是零售，机器学习的应用都为这些领域带来了巨大的变革。面对这样的趋势，许多人都希望能够掌握这门技术，从而提升自己的职业竞争力。那么，当我们谈论“如何评价开课吧机器学习特训营这个课程”时，实际上是在探讨一个非常具体且重要的问题：对于那些希望进入或深入机器学
表征学习：机器认知世界的核心能力与前沿突破大千AI助手人工智能 #OTHER Python 学习人工智能机器学习神经网络表征学习 RL 特征工程
一、定义与背景：从特征工程到自动化学习表征学习（RepresentationLearning），又称特征学习（FeatureLearning），是机器学习的核心技术领域，其核心目标是通过算法自动学习数据的内在特征表示，将复杂多变的原始数据（如图像、文本、语音）转化为低维、富含语义信息的向量形式，从而提升下游任务（如分类、回归、聚类）的效率和精度。与传统依赖人工设计特征的特征工程（FeatureEn
Crome：因果鲁棒奖励建模框架——破解LLM对齐中的奖励黑客难题大千AI助手人工智能 #OTHER Python 人工智能深度学习神经网络大模型因果推断奖励黑客 RewardHacking
Crome（CausalRobustRewardModeling）是由GoogleDeepMind联合麦吉尔大学和魁北克人工智能研究所（MILA）于2025年提出的创新框架，旨在解决大语言模型（LLM）对齐中奖励模型（RM）的奖励黑客（RewardHacking）问题。该框架通过因果数据增强与反事实训练机制，显著提升RM对真实质量属性（如事实性、安全性）的敏感性，同时抑制对虚假属性（如文本长度、格
踏上人工智能之旅（一）-----机器学习之knn算法 Sunhen_Qiletian 人工智能机器学习算法 python
目录一、机器学习是什么（1）概述（2）三种类型1.监督学习（SupervisedLearning）：2.无监督学习（UnsupervisedLearning）：3.强化学习（ReinforcementLearning）：二、KNN算法的基本原理：1.距离度量：2.K值的选择：3.投票机制和投票：三、Python实现KNN算法1.导入必要的库和数据：2.提取特征和标签：3.导入KNN分类器并训练模型
大模型基础知识（万字详解）掘金安东尼 python 机器学习人工智能
在数学上，deepseek多轮自蒸馏可以理解为对学生模型施加一系列滚动KL散度约束：LMSD=∑i=1nαi⋅KL(pTi(x)∥pSi(x))\mathcal{L}_{MSD}=\sum_{i=1}^{n}\alpha_i\cdot\text{KL}(p_{T_i}(x)\parallelp_{S_i}(x))LMSD=i=1∑nαi⋅KL(pTi(x)∥pSi(x))其中，TiT_iTi和Si
Spring AI 实战：第六章、Spring AI源码浅析之一山可容二虎 liaokailin Spring AI 实战人工智能 spring java
目录（如果文章对您有一丢丢输入，请点赞、收藏、转发吧~）源码开篇、大模型时代：我们正站在浪潮之巅第一章、SpringAI入门之DeepSeek调用第二章、SpringAI提示词之玩转AI占卜的艺术第三章、SpringAI结构化输出之告别杂乱无章第四章、SpringAI多模态之看图说话第五
Place JillionZ
PLACE是美国的JayMcSwain提出的开发子女才能的工具。PLACE是指在五个领域发现子女的才能。P（Personalitydiscovery)性格类型L（Learningspiritualgifts)天生的才能A（AbilitiesAwareness)能力C（Connectingpassionwithministry)热情E（Experiencesoflife)人生经历作为父母，要充分了解
生成式引擎优化（GEO）在 Google Gemini 中的实践与探索 GEO优化助手生成式引擎优化 AI搜索优化 GEO优化人工智能生成式引擎优化搜索引擎 AI搜索营销 GEO优化 Google Gemini
2025年，生成式AI（如GoogleGemini、ChatGPT、DeepSeek）已占据全球63%的互联网用户信息获取入口。用户行为从"浏览多个网页"转向"直接获取AI生成的精准答案"，这一转变使传统SEO（搜索引擎优化）面临失效风险——即使内容优质，若未被AI模型识别为"可信信源"，仍可能被淹没在信息洪流中。在此背景下，生成式引擎优化（GEO,GenerativeEngineOptimiza
谷歌官网app适配Android 15的官方指南
deepseek回答：谷歌官网提供了完整的Android15应用适配官方指南，涵盖兼容性测试工具、API迁移规范及商店审核要求，核心内容如下：一、官方适配指南入口访问Android15开发者网站核心内容：功能解读、API变更、安全策略及适配工具说明关键资源：适配工具链（兼容性框架、ADB调试）GSI系统映像下载虚拟设备配置教程⚙️二、适配工具链兼容性框架工具支持在不修改targetSdkVersi
Android项目如果项目中使用的so库都是第三方的aar包里才有so库，那么Android studio是不是可以不用安装ndk？ yzpyzp android android studio ndk
Android项目如果项目中使用的so库全都是第三方的aar包里才有so库，那么Androidstudio是不是可以不用安装ndk？deepseek回答：是的，如果项目中使用的.so库完全来自第三方aar包（即库文件已预编译并包含在aar中），那么AndroidStudio无需安装NDK。原因在于：NDK的核心作用是编译和调试原生代码（如C/C++），生成.so文件；但第三方aar包已包含编译好的
JAVA中的Enum 周凡杨 java enum 枚举
Enum是计算机编程语言中的一种数据类型---枚举类型。在实际问题中，有些变量的取值被限定在一个有限的范围内。例如，一个星期内只有七天我们通常这样实现上面的定义： public String monday; public String tuesday; public String wensday; public String thursday
赶集网mysql开发36条军规 Bill_chen mysql 业务架构设计 mysql调优 mysql性能优化
(一)核心军规 (1)不在数据库做运算 cpu计算务必移至业务层； (2)控制单表数据量 int型不超过1000w，含char则不超过500w；合理分表；限制单库表数量在300以内； (3)控制列数量字段少而精，字段数建议在20以内
Shell test命令 daizj shell 字符串 test 数字文件比较
Shell test命令 Shell中的 test 命令用于检查某个条件是否成立，它可以进行数值、字符和文件三个方面的测试。数值测试参数说明 -eq 等于则为真 -ne 不等于则为真 -gt 大于则为真 -ge 大于等于则为真 -lt 小于则为真 -le 小于等于则为真实例演示： num1=100 num2=100if test $[num1]
XFire框架实现WebService(二) 周凡杨 java webservice
有了XFire框架实现WebService(一)，就可以继续开发WebService的简单应用。 Webservice的服务端(WEB工程)：两个java bean类： Course.java package cn.com.bean; public class Course { private
重绘之画图板朱辉辉33 画图板
上次博客讲的五子棋重绘比较简单，因为只要在重写系统重绘方法paint（）时加入棋盘和棋子的绘制。这次我想说说画图板的重绘。画图板重绘难在需要重绘的类型很多，比如说里面有矩形，园，直线之类的，所以我们要想办法将里面的图形加入一个队列中，这样在重绘时就
Java的IO流西蜀石兰 java
刚学Java的IO流时，被各种inputStream流弄的很迷糊，看老罗视频时说想象成插在文件上的一根管道，当初听时觉得自己很明白，可到自己用时，有不知道怎么代码了。。。每当遇到这种问题时，我习惯性的从头开始理逻辑，会问自己一些很简单的问题，把这些简单的问题想明白了，再看代码时才不会迷糊。 IO流作用是什么？答：实现对文件的读写，这里的文件是广义的； Java如何实现程序到文件
No matching PlatformTransactionManager bean found for qualifier 'add' - neither 林鹤霄
java.lang.IllegalStateException: No matching PlatformTransactionManager bean found for qualifier 'add' - neither qualifier match nor bean name match! 网上找了好多的资料没能解决，后来发现：项目中使用的是xml配置的方式配置事务，但是
Row size too large (> 8126). Changing some columns to TEXT or BLOB aigo column
原文：http://stackoverflow.com/questions/15585602/change-limit-for-mysql-row-size-too-large 异常信息： Row size too large (> 8126). Changing some columns to TEXT or BLOB or using ROW_FORMAT=DYNAM
JS 格式化时间 alxw4616 JavaScript
/** * 格式化时间 2013/6/13 by 半仙 [email protected] * 需要 pad 函数 * 接收可用的时间值. * 返回替换时间占位符后的字符串 * * 时间占位符:年 Y 月 M 日 D 小时 h 分 m 秒 s 重复次数表示占位数 * 如 YYYY 4占4位 YY 占2位<p></p> * MM DD hh mm
队列中数据的移除问题百合不是茶队列移除
队列的移除一般都是使用的remov();都可以移除的,但是在昨天做线程移除的时候出现了点问题,没有将遍历出来的全部移除, 代码如下; // package com.Thread0715.com; import java.util.ArrayList; public class Threa
Runnable接口使用实例 bijian1013 java thread Runnable java多线程
Runnable接口 a. 该接口只有一个方法：public void run(); b. 实现该接口的类必须覆盖该run方法 c. 实现了Runnable接口的类并不具有任何天
oracle里的extend详解 bijian1013 oracle 数据库 extend
扩展已知的数组空间，例： DECLARE TYPE CourseList IS TABLE OF VARCHAR2(10); courses CourseList; BEGIN -- 初始化数组元素，大小为3 courses := CourseList('Biol 4412 ', 'Psyc 3112 ', 'Anth 3001 '); --
【httpclient】httpclient发送表单POST请求 bit1129 httpclient
浏览器Form Post请求浏览器可以通过提交表单的方式向服务器发起POST请求，这种形式的POST请求不同于一般的POST请求 1. 一般的POST请求，将请求数据放置于请求体中，服务器端以二进制流的方式读取数据，HttpServletRequest.getInputStream()。这种方式的请求可以处理任意数据形式的POST请求，比如请求数据是字符串或者是二进制数据 2. Form
【Hive十三】Hive读写Avro格式的数据 bit1129 hive
1. 原始数据 hive> select * from word; OK 1 MSN 10 QQ 100 Gtalk 1000 Skype 2. 创建avro格式的数据表 hive> CREATE TABLE avro_table(age INT, name STRING)STORE
nginx+lua+redis自动识别封解禁频繁访问IP ronin47
在站点遇到攻击且无明显攻击特征，造成站点访问慢，nginx不断返回502等错误时，可利用nginx+lua+redis实现在指定的时间段内，若单IP的请求量达到指定的数量后对该IP进行封禁，nginx返回403禁止访问。利用redis的expire命令设置封禁IP的过期时间达到在指定的封禁时间后实行自动解封的目的。一、安装环境： CentOS x64 release 6.4(Fin
java-二叉树的遍历-先序、中序、后序（递归和非递归）、层次遍历 bylijinnan java
import java.util.LinkedList; import java.util.List; import java.util.Stack; public class BinTreeTraverse { //private int[] array={ 1, 2, 3, 4, 5, 6, 7, 8, 9 }; private int[] array={ 10,6,
Spring源码学习-XML 配置方式的IoC容器启动过程分析 bylijinnan java spring IOC
以FileSystemXmlApplicationContext为例，把Spring IoC容器的初始化流程走一遍： ApplicationContext context = new FileSystemXmlApplicationContext ("C:/Users/ZARA/workspace/HelloSpring/src/Beans.xml&q
[科研与项目]民营企业请慎重参与军事科技工程 comsci 企业
军事科研工程和项目并非要用最先进，最时髦的技术，而是要做到“万无一失” 而民营科技企业在搞科技创新工程的时候，往往考虑的是技术的先进性，而对先进技术带来的风险考虑得不够，在今天提倡军民融合发展的大环境下，这种“万无一失”和“时髦性”的矛盾会日益凸显。。。。。。所以请大家在参与任何重大的军事和政府项目之前，对
spring 定时器-两种方式 cuityang spring quartz 定时器
方式一：间隔一定时间运行 <bean id="updateSessionIdTask" class="com.yang.iprms.common.UpdateSessionTask" autowire="byName" /> <bean id="updateSessionIdSchedule
简述一下关于BroadView站点的相关设计 damoqiongqiu view
终于弄上线了，累趴，戳这里http://www.broadview.com.cn 简述一下相关的技术点前端：jQuery+BootStrap3.2+HandleBars，全站Ajax（貌似对SEO的影响很大啊！怎么破？），用Grunt对全部JS做了压缩处理，对部分JS和CSS做了合并（模块间存在很多依赖，全部合并比较繁琐，待完善）。后端：U
运维 PHP问题汇总 dcj3sjt126com windows2003
1、Dede(织梦)发表文章时,内容自动添加关键字显示空白页解决方法：后台>系统>系统基本参数>核心设置>关键字替换（是/否），这里选择“是”。后台>系统>系统基本参数>其他选项>自动提取关键字，这里选择“是”。 2、解决PHP168超级管理员上传图片提示你的空间不足网站是用PHP168做的，反映使用管理员在后台无法
mac 下安装php扩展 - mcrypt dcj3sjt126com PHP
MCrypt是一个功能强大的加密算法扩展库，它包括有22种算法，phpMyAdmin依赖这个PHP扩展，具体如下：下载并解压libmcrypt-2.5.8.tar.gz。在终端执行如下命令： tar zxvf libmcrypt-2.5.8.tar.gz cd libmcrypt-2.5.8/ ./configure --disable-posix-threads --
MongoDB更新文档 [四] eksliang mongodb Mongodb更新文档
MongoDB更新文档转载请出自出处：http://eksliang.iteye.com/blog/2174104 MongoDB对文档的CURD，前面的博客简单介绍了，但是对文档更新篇幅比较大，所以这里单独拿出来。语法结构如下： db.collection.update( criteria, objNew, upsert, multi) 参数含义参数
Linux下的解压，移除，复制，查看tomcat命令 y806839048 tomcat
重复myeclipse生成webservice有问题删除以前的，干净 1、先切换到：cd usr/local/tomcat5/logs 2、tail -f catalina.out 3、这样运行时就可以实时查看运行日志了 Ctrl+c 是退出tail命令。有问题不明的先注掉 cp /opt/tomcat-6.0.44/webapps/g
Spring之使用事务缘由(3-XML实现) ihuning spring
用事务通知声明式地管理事务事务管理是一种横切关注点。为了在 Spring 2.x 中启用声明式事务管理，可以通过 tx Schema 中定义的 <tx:advice> 元素声明事务通知，为此必须事先将这个 Schema 定义添加到 <beans> 根元素中去。声明了事务通知后，就需要将它与切入点关联起来。由于事务通知是在 <aop:
GCD使用经验与技巧浅谈啸笑天 GC
前言 GCD(Grand Central Dispatch)可以说是Mac、iOS开发中的一大“利器”，本文就总结一些有关使用GCD的经验与技巧。 dispatch_once_t必须是全局或static变量这一条算是“老生常谈”了，但我认为还是有必要强调一次，毕竟非全局或非static的dispatch_once_t变量在使用时会导致非常不好排查的bug，正确的如下： 1
linux（Ubuntu）下常用命令备忘录1 macroli linux 工作 ubuntu
在使用下面的命令是可以通过--help来获取更多的信息1,查询当前目录文件列表：ls ls命令默认状态下将按首字母升序列出你当前文件夹下面的所有内容，但这样直接运行所得到的信息也是比较少的，通常它可以结合以下这些参数运行以查询更多的信息： ls / 显示/.下的所有文件和目录 ls -l 给出文件或者文件夹的详细信息 ls -a 显示所有文件，包括隐藏文
nodejs同步操作mysql qiaolevip 学习永无止境每天进步一点点 mysql nodejs
// db-util.js var mysql = require('mysql'); var pool = mysql.createPool({ connectionLimit : 10, host: 'localhost', user: 'root', password: '', database: 'test', port: 3306 });
一起学Hive系列文章 superlxw1234 hive Hive入门
[一起学Hive]系列文章目录贴，入门Hive，持续更新中。 [一起学Hive]之一—Hive概述，Hive是什么 [一起学Hive]之二—Hive函数大全-完整版 [一起学Hive]之三—Hive中的数据库(Database)和表(Table) [一起学Hive]之四-Hive的安装配置 [一起学Hive]之五-Hive的视图和分区 [一起学Hive
Spring开发利器：Spring Tool Suite 3.7.0 发布 wiselyman spring
Spring Tool Suite(简称STS)是基于Eclipse，专门针对Spring开发者提供大量的便捷功能的优秀开发工具。在3.7.0版本主要做了如下的更新：将eclipse版本更新至Eclipse Mars 4.5 GA Spring Boot(JavaEE开发的颠覆者集大成者，推荐大家学习)的配置语言YAML编辑器的支持(包含自动提示，