yucicheung

机器学习笔记(二)

Lecture2.Where does the error come from
- Variance
- Bias
- 综合考虑
Lecture3.Gradient Descent
- why does gradient descent work
Lecture 4. Classification1：Probabilistic Generative Model
Lecture5. Classification2：Logistic Regression
Lecture 6.Introduction of deep learning
- Development
- Three steps for deep learning
  - Step1(structure : Fully Connect Feedforward Network)
lecture7.Backpropagation
Lecture8：“Hello world”of deep learning
Lecture 9： Tips for Deep Learning
- - Why Vanishing Gradient exists?
    - substitution activation function
    - Adaptive learning rate
- What does the machine learn?
  - Appliccations of forementioned content

Lecture2.Where does the error come from

机器学习笔记(1)：回归Regression中讨论的情况显示，模型越复杂并不一定error越小。那所以这些error到底来自什么地方呢？
1. bias
2. variance
在具体训练过程中，如果可以诊断error的来源就可以选择合适的方法来improve你的model。

假设真实模型（or函数）是 f^ 而预测模型是 f∗ ，我们把 f^ 当作是靶子的靶心，而 f∗ 是我们在靶子上预测的一个点，那么它们之间的距离就是 bias+variance 决定的。

Variance

用的数据不一样，即使是用一样的模型( y=b+wxcp )来预测，最后求解出来的参数 F∗ (estimator)也是不一样的，贯彻不同模型下的100个estimator：

模型越来越复杂的时候，实际上上variance容易比较大，就是说，找到的estimator都比较散的开。简单的model比较不会受sample的影响，但是复杂的model会容易受到sample的影响。我们直接考虑最简单的模型 y=C ，不论输入多少数据都不会对模型有影响，而模型越复杂的话，稍微输入不同的数据就容易拟合成不同的参数。

Bias

把所有的 f∗ 进行平均得到 f¯ ，会接近 f^ ，这个 f¯ 和 f^ 之间的差就可以认为是bias。
而对于越简单的模型来说，bias可能是越大的，对于更复杂的模型， f¯ 的bias会更小。

直观的解释，在定义一个model的时候，其实就是定义了一个function set，那么我们求解的 f∗ 就是从中找到距离 f^ 最近的一个函数，那么如果function set中没有包含这个 f^ ，那么怎么找都找不到最优。但是在模型复杂的时候，function space就比较大，可能会包含这个target，那这个时候可能由于training data不够所以每一次找到的 f∗ 都不一样，但是如果 f∗ 是都散布在target附近的话(其实只要包含了target在function space里面，就一定会有 f∗ 散布在附近的)，平均之后就会获得target的function。

综合考虑

随模型变复杂，error from variance变得越来越大，而error from bias变得越来越小，如果要取得一个trade-off，就要综合两者error一起考虑。
如果error来自于variance很大，这个状况就是overfitting。
如果error来自于bias很大，这个状况叫做underfitting。
那怎么知道状况是bias大还是variance大呢？
如果模型没有fit这些训练样本，就说明bias很大，即underfitting。
在training data上error小，但是在testing data上拟合不好，这就说明variance大，即overfitting。
当bias大的时候，需要重新设计你的模型，因为这个时候target不在function set中。
- 加入更多的特征作为输入
- 将模型变得更复杂

当variance大的时候，

增加training data
是一个很有效的控制variance的方法，但不一定现实。maybe你可以generate false data according to your knowledge.
正则化regularization
在model后面加一个term，term前面含一个weight，weight代表你希望这个曲线有多平滑，weight越大曲线越平滑，则variance会更小，但是在调整weight的时候就相当于只包含了比较平滑的function，那么有可能损害到bias(function space中可能不再包含 f^ )，所以选择的weight就需要在bias和variance之间取得一个平衡(trade-off between bias and variance to minimize the total error )。

Attention
在training data上，训练model，然后在testing data上做测试，求得model能在testing data(public set)上error最小的在未知testing data(private set)上的error未必是最小的，通常private set上的error是大于public set 上的error的。
rank in the public leaderboard doesn’t fit in the private leaderboard.

Solution：Cross Validation
将training data分为两组，一组(training set)拿来train model，一组(validation set)拿来选model(用error)，（如果担心training data变少了，就可以在选定model后利用全部的training data去训练model一次）。
这个时候的testing set上的error会大于validation上的error，但是只有这个时候的error才能反应在private set上的error。
不建议采用public set的error去调整模型参数，就相当于把public set上的error考虑进去了，调整以后，public set上的error就不能再反映private set上的error了。
public set上的结果不是最终的结果，有时无法避免要把testing error调整好(to look good)，但是实际上benchmark上的error是应该会大于在实际application上的error的，因为存在已经根据testing error去修改参数的这种手段。
如果validation set上的结果分错(bias不合理)，可以做下面这件事N-fold Cross Validation，操作举例three-fold validation（training set分为三分，其中两份为training set，一份为validation set，交替进行），不同的模型在不同的training+validation的分配下的error均进行求解，最后求出一个average error，average error最小的认为是最小的model，则将整个training data在best model上完整train一遍，之后在testing set(public)上进行测试，不要继续因为testing error调整参数的话，这个时候在public和private set上的error会比较接近。

Lecture3.Gradient Descent

之前介绍过整体框架，之后要介绍一些tips讲如何把它做得更好。
在ML的整个框架中的第三步中，是要找一个最好的function，即解一个optimization的问题。损失函数是model中的参数的函数，

θ * = a r g m a x t h e t a L (θ)

L(θ) L ( θ ) 就是评价一组参数

θ θ 有多不好，所以loss function是要minimize的。如果是要maximize的话，即参数越好函数值越大，就可以叫做objective function

Tip1：learning rate
1. 每过几个epoch就减少一次learning rate，因为在离local minimum比较远的时候，选择learning rate比较大，可以让收敛的速度比较快，而在靠近minimum的时候呢，因为靠近minimum了，就让learning rate小一点，可以最后收敛到minimum。
2. 但是1也不是最好的方法，而是给不同的参数以不同的learning rate，最简单的叫做adagrad(不是说最强，但是是一个根据参数确定不同学习率的一个好例子)，即每一个参数的learning rate ηt=ηt+1√ 都除以之前的导数的root mean squar σt 。（这中间就有 η 是time-dependent，而 σ 是parameter dependent的， t+1−−−−√ 抵消后，最后学习率就是parameter dependent的）比adagrad更强的一般可以采用adam
3. 参数更新主要受到两个因素影响，一件是lr，一件是gradient，vanilla中是g越大就更新越快。

w t + 1 \leftarrow w t - η t g t

(Vanilla GD)
但是新的更新法则Adagrad

w t + 1 \leftarrow w t - η \sum t i = 0 ( g i ) 2 - - - - - - - - \sqrt g t

gt g t 就告诉我们梯度越大会导致下降越快(larger step)，但是

η∑ti=0(gi)2√ η ∑ i = 0 t ( g i ) 2 中显然又有梯度越大下降越慢(smaller step)，这个矛盾在，怎么直观的解释一下这件事情呢。adagrad考虑的事情就是今天这个grad有多surprise，有多反差，实际上求平均就是为了将每一次的grad都考虑进去，当反差很大的时候会导致两者一起控制变化速度而最终有一个合适的速度。
4. 在模型只有一个参数时，算出来的梯度越大就离最好的solution越远这件事情是只有一个参数时才成立的，而如果是有多个参数(cross parameters)的话，是不一定成立的，也就是不能根据梯度大小决定步长大小。参考自二次函数，

thebeststep=|1stderivative2ndderivative t h e b e s t s t e p = | 1 s t d e r i v a t i v e 2 n d d e r i v a t i v e ，所以adagrad就是在模拟这种形式，考虑进去一次和二次导数，但是又不增加额外的计算开销。
Tip2：Stochastic Gradient Descent(SGD)
首先loss是在所有的训练examples上面的loss做总和，那么区别就是
Gradient Descent：做的是

θi=θi−1−η∇L(θi−1) θ i = θ i − 1 − η ∇ L ( θ i − 1 )
stochastic gradient descent：每一次拿一个example

xn x n ，可以随机或者按照顺序取，如果说不是convex的函数，而是很崎岖的那种那么随机取就是会有帮助的。这个算法的loss只考虑对一个example的loss

Ln L n 。
主要差异就是GD中算完所有example的loss才update一次参数(会走得比较稳定)，而SGD中是随机取一个example后就update一次参数，天下武功唯快不破，最终其实是SGD的方向可能不是最好的方向，但是走的会比较快。
Tip3:feature scaling
今天假设要做regression：

y=b+w1x1+w2x2 y = b + w 1 x 1 + w 2 x 2
如果输入的数据

x1 x 1 和

x2 x 2 的分布是很不一样的，建议做scaling，使两者range分布一样。（类BN）
这个对GD的效果是，本来loss是一个椭圆，就是说一组lr可能搞不定它，需要一直变化，但是在做scaling之后，update会比较快，因为梯度是垂直等高线的方向走的，在椭圆的时候不是直指local minimum去走的，但是在做scaling 之后却可以直指minimum走下去。
feature scaling的方法是有很多种的，一种是

xri←xri−miσi x i r ← x i r − m i σ i
where

mi m i is the mean of dimension

i i ，

σi σ i is the standard deviation of dimension

i i 。做完这步骤之后，所有dimension的mean是0，variance equals 1。

why does gradient descent work

每一次在更新参数的时候，其实新的参数 θ 不一定会使 L(θ) 更小，尤其是用SGD做的时候。
在做GD的时候不是一次到位走到最低点的，而是一点一点移动过去的，在这个小范围内该如何才能让它更新的最快呢。
根据任何函数都能表示成泰勒展开式的形式，当 x 接近 x0 时， h(x)≈h(x0)+h′(x0)(x−x0)
在多变量的泰勒展开式中，最终形式就能推导出是gradient descent的形式。
因为要满足taylor series的前提，接近初始点，所以要求lr η 是足够小的，这个时候的taylor展开式的approximation才是准确的，所以只有在 η 无穷小的时候才能够保证每次参数更新后 L(θ) 是减小的。
那可以考虑展开式中二次项的影响(牛顿法)，就可以将学习率 η 设置大一些，这个想法是合理的，却不是practical的，因为在计算时需要计算二次微分，极大增大了计算代价，在做Deep Learning是无法承受的。

Lecture 4. Classification1：Probabilistic Generative Model

分类的任务：输入一个object x ，输出是一个类别class(descript)。
regression时，output是number
如果硬要把classification当作是regression去做，我们举一个图示的例子，如果是classification，那么如图绿色的线应该最好的分类结果，而如果是作为regression，就要求所有的点离线不能太远，因为error要比较小，那么这个时候为了减小error，结果求出来就应该是紫色的线的结果会更好（注：regression是和类没有关系的，只是要找到能够拟合所有的点拟合得最好的线）。
那么对于分类的问题的loss应该定义成以下这个样子会是最合适的：

L (f) = \sum n δ (f (x n) \neq y^n)

即分类错误的总次数，那我们希望在做分类任务的时候，这个loss值，即错误次数可以尽量小。
给出的这个loss是不可微分的，那有什么办法可以解决分类问题的求解呢，比较好的方法有：感知机perceptron，支持向量机SVM。但今天先介绍用概率的方法来解决这个问题。

对于概率模型求解，根据已经给定的 x ，它属于类型 C1 的概率是多大，即求解 P(C1|x) ，而要求解这个概率模型就要求解其他四个概率。这个模型就叫做一个generative model，因为有了这个模型就能根据 P(x) generate一个 x 出来。
以pokeman为例，每一只宝可梦都是以一堆vector来描述的，这一堆vector叫做feature，probability ≠ density of probability
利用gaussian模型估计，需要找到均值 μ ，和协方差 Σ ，然后根据 x 在高斯模型中的分布确定分布在某个位置的概率大小。
要求解这个高斯模型最常用的方法是最大似然估计(Maximum likelihood)找一个分布能使得取到这么多个sample的likelihood能够最大，采用两个feature 分不开时，试下采用多个feature在高维空间中可能分开，继续失败的话尝试不同的模型去进行分类（不同的class有同一个covariance matrix Σ ，否则参数太多，就容易variance大即overfitting）。

Three steps：
- model(you can pick any distribution you like)
- Loss(Probabilistic function)
- train
为什么考虑covariance之后分界线会变成是直线呢，那就是因为说，最后形式会变为 P(C1|x)=σ(w⋅x+b) 的形式，那如果是这样，为什么不直接找到 w,b 呢，这就到下一节要讲的内容了。

Lecture5. Classification2：Logistic Regression

根据ML的3个步骤，对logistic regression和linear regression做对比：
step1：model
step2：loss function
step3：train

	logistic regression	linear regression
model	fw,b(x)=σ(∑iwixi+b) (output 0,1)	fw,b(x)=∑iwixi+b
loss	training data: (xn,y^n) y^=0,1 , L(f)=∑n−[y^nlnfw,b(xn)+(1−y^n)ln(1−fw,b(xn))] (cross entropy between two Bernoulli distribution)	y^n is real number L(f)=12∑n(f(xn)−y^n)2
train/minimize	wi←wi−η∑n−(y^n−fw,b(xn))xni y^∈{0,1},fw,b(xn)∈(0,1)	same updating rule y^,fw,b(xn)∈R

reminder:
Bernoulli distribution(0-1 distribution) p is like
p(x=1)=y^n
p(x=0)=1−y^n
Bernoulli distribution q is like
q(x=1)=f(xn)
q(x=0)=1−f(xn)
Cross Entropy
H(p,q)=−∑xp(x)ln(q(x))
If two distribution are same,cross entropy equals 0.
Deep learning 是没有(known)真正的最优解。
What’s the problem with Logistic Regression+Square Error?
会导致梯度消失，在离目标很远的时候，梯度已经为0，参数不再更新。
梯度会非常小，就不知道lr应该设大还是小，并且由于梯度很小，更新速度会非常慢，不容易得到好的结果，用cross entropy会让整个参数更新的过程顺利很多(就是找到合适的loss function)。

Discriminative & Generative
以上logistic regression的方法是discriminative的方法，而之前用Gaussian描述posterior probability是generative的方法。实际上只要在probabilistic model中把协方差设置成share，其实generative 和 discriminative model是一样的，均为 σ(w⋅x+b) 。
在generative model中，找到Gaussian matrix的参数，而在计算logistic regression中，用GD下降的方法可以直接求出 w,b ，当用generative model中计算出的 μ1,μ2,Σ−1 ，再去计算 w,b 得出的值并不一样。因为虽然是同意个function set和同一个training set，但是做出的假设是不同的，因此最后求出来的 w,b 也会不一样。在logistic regression中是没有假设的，但在probabilistic model中是有假设的比如是Gaussian或者Bernoulli。
常常是discriminative model的表现会比generative model要好。（my thoughts：可以理解为是在未知实际分布的情况下，对分布做出假设实际会干扰到数据的被分类情况，而logistic regression的情况是完全无认为参与的，这种全自动化式的效果可以达到更好）。
举个例子说明，在例子中用Naive Bayes的方法(前提是假设其中的所有变量都是互相独立的，实际并不是)会进行错误的判断。
generative model有优势的时候：
1. with the assumption of probability distribution

1. 当training data 很少的时候，需要用几率模型来脑补没有观察到的特性，来得到更准确的判断，所有在比较少的训练数据的时候是可以应该discriminative model的。
 2. 对噪声更加鲁棒。

2. posterior probability can be estimated by priors and class-dependent probabilities from different sources.

Multi-class Classification(3 as example)
softmax：对输入的所有值做normalization，实际上在概率模型中去计算 P(Ci|x) 就是 softmax 的输出。
当 softmax 减少到只有两类的时候，就reduce到logistic regression的情况(reduce 到sigmoid function)，此时 w1,b1,w2,b2 之间是可以合并的。
Cross entropy就是在maximize likelihood（maximize probability y1 ）

!Limitation of Logistic Regression（简单神经元的限制）
简单的神经元无法实现的一个操作是异或。
因为一条直线没法将两边（两个类别）分开。
How to deal with it?
可以把试着做一下feature transformation(特征转换），转换成logistic regression可以处理的问题。(this is not always easy,domain knowledge can be helpful.)这个问题实际上可以看作是多个logistic regression的堆叠。
conclusion：**logistic regression虽然是没有办法做太复杂的事情的，但是能串联起多个单元，一部分负责做**feature transformation，一部分是做classification就能够做很复杂的任务。把其中的所有参数全部联合起来，一起学习，这就是deep learning。每一个logistic regression就是一个neuron，总的叫做neural network完成的工作叫做deep learning。

Lecture 6.Introduction of deep learning

Development

perceptron(1958) → perceptron(1969) → Multi-layer perceptron(1980s) → backpropagation(1986) → 1 hidden layer is “good enough”(1989) → RBM-Restricted Boltzman Machine initialization(breakthrough)(of little use)(2006) → GPU(2009) → start to be popular in speech recognition(2011) → win ILSVRC image competition(2012)

Three steps for deep learning

step1	step2	step3
define a set of function(NN)	goodness of function	pick the best function

Step1(structure : Fully Connect Feedforward Network)

先决定一个网络结构的话，就是定义一个function set，然后如果通过各种算法找到optimal solution就是找到一个optimal function that applies to the specific task.
每一层神经元的数目都相同，神经元之间是全连接的结构。
输入层(input layer)实际上并不算是一个层，因为输入曾并不是由神经元组成的，因此神经元层数的计算是从input layer以后的hidden layer 开始往后直到output layer的层数来统计的。
deep learning = many hidden layers
the famous NN originates from the ILSVRC :
AlexNet → VGG → GoogleNet → ResNet
FCFN的计算常用series of Matrix operation 表示，正因为是一连串的矩阵运算所以可以利用GPU加速。
the job of the hidden layers is to implement feature extraction or feature engineering(feature transformation)，and that of the the output layer is a multi-class classifier, like softmax layer .

Example application:
Input is to computer a vector,stretched into a line of numbers, the output layer is then regarded as the probability(confidence) of corresponding digit.
The function or NN given in example represents a function set containing the candidates for Handwriting Digit Recognition. The only prerequisite for the NN is input and output shape, so how should the structure(function) be designed is especially important to achieve good performance.
Q&A
**Q:**How many layers？How many neurons for each layer?
**A:**Trial and Error+ Intuition+Domain knowledge. So ML is not much easier, the reason it gets popular is the feature extraction is no longer hand-crafted(however the network still needs to be designed).
**Q:**Can the structure be automatically determined?
**A:**E.g. Evolutionary ANN
**Q:**Can we design the network structure?
**A:**Sure you can, a special connection make it CNN.

Step2: Goodness of function(structure multi-class classification)
A sudden thought: cross entropy is more often applied to classification and MSE is more often applied to regression problem.
HTML grammar also applies.
We use loss function + gradient descent to find the optimal solution for the problem. Gradient Descent is the most common way to train the model in deep learning.
It’s like all tools offered online is to help researchers implement BP(to implement GD) more conveniently.
**Q:Deeper is Better?
A:Yes if you have enough training data.**
实际上有一个univesality theorem，只要hidden layer中神经元的数目够多，那么就可以实现任意function，那么为什么要做deep而不是fat呢？这部分留给后续再讲。

lecture7.Backpropagation

review the Chain Rule

case1:
$y = g (x), z = h (y), d z d x = d z d y d y d x$
case2:
$x = g (s), y = h (s), z = k (x, y), d z d s = \partial z \partial x d x d s + \partial z \partial y d y d s$
Therefore：
z=xqw1+x2w2+b,loss=label−activation(z)
∂z∂w∂l∂z

two steps of BP:
1. Forward pass
compute ∂z∂w for all parameters (ans is the value of the input connected by the weight) trivial

2. Backward pass
compute ∂l∂z for all activation function input z , z is determined in the forward pass
∂l∂a∂a∂z where a=σ(z) ， ∂a∂z is trivial
∂l∂a=∂l∂z′w3+∂l∂z′′w4 （一直循环直到碰到output layer）compute ∂l∂z recursively
it’s much easier to compute ∂l∂z from the output layer. 因为是从后往前的计算（更简便），所以叫backward propagation。
最后求出 ∂l∂w 这个偏微分，用GD来求解参数。

Lecture8：“Hello world”of deep learning

TensorFlow and theano are both very flexible，可以把它们当作是微分器，它们完全可以做deep learning以外的事情，因为它主要的任务就是算微分，把微分的值计算出来以后，就可以用来做Gradient Descent，正因为是灵活所以才困难。
但是Keras是有可能在很短的时间内熟悉并且implement自己的DNN，Keras实际上就是Interface of TensorFlow or Theano，所以Keras就是在使用TF，只不过有人把TF的操作都写好了，所以会好学，也比较灵活。You can modify it if you can write TensorFlow or Theano.
Rumor has it that Keras might become the official api of TensorFlow.

Handwritting Digit Recognition is the prime task for Deep-learning learner like “hello world”.
在MNIST任务中就是要做输入一张数字图片，输出image是0-9的哪一个数字。
Step1 : define a set of function → Step2 : goodness of function → pick the best function.
建立一个网络结构为：
28 × 28 image → 500-neuron layer → 500-neuron layer → Softmax(output probability)

//---Step 1 : Define a set of function----//
model = Sequential()//establish a model
model.add(Dense(input_dim=28*28,
                output_dim=500))//dense represents a fully connected layer
model.add(Activation('sigmoid'))//tells the model which activation function it should choose
model.add(Dense(output_dim=500))//define another fc layer without defining another input dim cause it's connected to top of last layer
model.add(Activation('sigmoid'))
//output classifying results
model.add(Dense(output_dim=10))
model.add(Activation('softmax'))
//-------------End of Step1------------//
//--Step2: evaluate the goodness of the function---//
model.compile(loss='categorical_crossentropy',
              optimizer='adam',
              metrics=['accuracy'])
//----------End of Step2------------//
//----Step3: pick the best function---//
//configuration:in compile 'optimizer'part, different optimizer offers different ways of updating learning rate
model.fit(x_train,y_train,batch_size=100,nb_epoch=10)\\train operation

Mini-batch
we don’t really minimize total loss

in practice，把training data分成一个一个的batch

randomly initialize network parameters
pick the 1st batch to sum up the loss of each elements in the batch L′=l1+l31+..... , update parameters once.
pick the 2nd batch L′′=l2+l16+...... ,update parameters once
until all mini-batches have been picked
this is one epoch process,then repeat the above procedure

if batch_size=1,then it equals to Stochastic Gradient Descent(much faster，每次update的方向不一样，但是更新很快)
Why mini-batch is necessary?

Speed:smaller batch size means more updates in one epoch

1.batch size 很小的时候，一个epoch上更新参数所需要的时间会很长(owe credit to GPU)
1. batch size稍大一些其实会使训练更加稳定，收敛更快(但是同时考虑超大的batch size时，有可能爆显存，而且在整体一起考虑的时候很容易卡住由于沿着total loss的路线走，却不是convex的，而SGD是有一定的随机性的)

GPU如何平行加速的？
因为NN就是setries of Matrix Operation
why mini-batch is faster than SGD?
SGD:每一组参数主次更新
mini-batch：把不同组的参数组合成一个vector，然后进行矩阵运算，运算时间开销和上述一组参数的计算是一致的，但mini-batch同时进行了多组数据的运算。GPU+mini-batch kills

Lecture 9： Tips for Deep Learning

DL没有那么简单，如果得到的结果不是很好，该从那个方向来做改进呢。
仍然是三个步骤：1. define a set of function 2. evaluate the goodness of function 3. find the best function
这就得到一个NN，接下来第一步要做的事情就是要检查模型是否能在training set上取得好的结果（因为在训练的时候可能收敛在local minimum或者saddle point这些地方，所以训练完NN之后不一定就会得到好的performance），如果结果不好，就需要看看哪一个步骤修改后可以在training data上面可以得到好的结果；如果在Training data上的结果好，那么就要看看在testing data上的结果怎样（如果在testing data上的结果不好那就是overfitting，结果也好就是一个成功的NN）
跟一般ML的方法不一样，如decision tree只要树够深，或者SVM只要用RBF kernel，只要你想可以轻易在training set上得到100%正确率，但在deep learning中不是这样。
所谓overfitting是会在training data上performance好但是testing data上performance差，因此overfitting的判定是需要同时观测两边的performance的。
针对在不同set(training or testing)上的效果提升，有不同的方法：
1. 在training set上的结果不好（Deeper usually does not imply better）
- New activation function
- Adaptive Learning Rate
2.在testing set上的结果不好
- Early stopping
- Regularization
- Dropout

Vanishing Gradient Problem
Demonstration:
network很深的时候，有可能出现梯度消失，靠近输入层的几层gradient是比较小的，而在靠近输出层的几层的gradient是比较大的，如果每个参数的learning rate都是一样大，靠近input layer的几层学习速度是非常慢的，靠近output层的那几层相对来说是比前面几层学习要快得多的。所以会出现一种现象，就是在前面几层的参数几乎还没有更新的时候还是随机的状态（randomly initialized），最后几层的参数就已经几乎收敛，这个时候的整个training 就停下来了，但是表现并不好，因为后面的结果的是由前面的output作为input得到的，前面的特征提取不好，虽然这层参数正确，但是结果会不好。

Why Vanishing Gradient exists?

这个问题是来自于sigmoid函数，a little trick for you : 所谓的gradient，如果要计算某个参数对loss的偏微分(derivative)，就把参数小小地变化一下，然后看看loss 的变化有多大，就可以估测一下这个参数的微分（ ∂l∂w≈ΔlΔw ）。
sigmoid会使输入的 Δw 衰减，所以每通过一个layer，变化都会衰减一点，到最后 Δl 就很小，所以造成在靠近input的地方算出来的梯度( ∂l∂w )很小。（改变activation function来结局这个问题，也可以设计dynamic的learning rate(可以解决vanishing问题还能学的更好)）

substitution activation function

ReLU(Rectified Linear Unit)（如果是激活函数的输入小于0，就输出0对后面没有影响，等同于不存在，但是如果是大于0，就是一个linear function，最后整个网络只含有linear的neuron，整个网络就在特定输入下变成一个thinner linear network，那么input layer的参数就不会比output layer那边变化小，就不存在梯度消失的问题了，即小范围线性但是整体还是非线性）
- fast to compute
- biological reason
- infinite sigmoid with different biases
- Vanishing gradient problem
- variants：Leaky ReLU，parametric ReLU，Exponential Linear Unit
Maxout(可以让network学习自己的activation function，ReLU是一个special case，Ｍaxout实际上会需要更多的参数，几乎是两倍的关系，因为这个时候maxout函数也是需要自己学习的，you can have more than 2 elements in a group。但是这个时候应该怎么微分呢？它不是在每一个地方都可以微分，但是可以算出参数的变化对loss的变化就可以用GD来train网络，可以这么理解在给定input的时候整个网络可以当作是一个linear的function)对同一幅图片来说是一个linear function\thinner linear network，但是对于一个batch来说就是non-linear的。
- Learnable activation funcntion
- pixel-wise linear activation function
- how many pieces depend on how many elements in one group

Adaptive learning rate

Review Adagrad:

w t + 1 \leftarrow w t - η \sum t i = 0 ( g i ) 2 - - - - - - - - \sqrt g t

用一次微分的值估计二次微分的值，因为二次微分的值影响着在梯度下降时采取的步长。
想要有效训练Deep Learning的话，会需要比Adagrad更有效的方法。
RMSProp(Hinton在他的课上propose)

w1←w0−ησ0g0 ， σ0=g0

w2←w1−ησ1g1 ， σ1=α(σ0)2+(1−α)(g1)2−−−−−−−−−−−−−−−−−√

w3←w2−ησ2g2 ， σ2=α(σ1)2+(1−α)(g2)2−−−−−−−−−−−−−−−−−√ wt+1←wt−ησtgt ， σt=α(σt−1)2+(1−α)(gt)2−−−−−−−−−−−−−−−−−−√ **！！！Momentum（惯性）** 我们发现在minimize loss function去找local minimum的过程中，这个过程虽然被我们比作是找最低点的过程，但是实际上又跟物理上的下落到最低点的运动不同，因为实际物体的运动是有惯性的，于是在optimizing求loss最小值的过程中将**下降时前行的惯性**考虑进去，或可帮助跨过local minimum甚至可以达到global minimum，但是不能确保。这就是Momentum的含义和用途。 **Vanilla Gradient Descent：** compute gradient at θ0← Move to θ1=θ0−η∇L(θ0) （沿负梯度方向走） → compute gradient at θ1→ Move to θ2=θ1−η∇L(θ1)…→ till ∇L(θt)≈0 **Momentum** 考虑两件事情：1.Gradient的方向;2.惯性Momentum(用上一步的运动作为惯性) start at point θ0 Movement v0=0 compute gradient at θ0 Movement v1=λv0−η∇L(θ0) move to θ1=θ0+v1 compute gradient at θ1 Movement v2=λv1−η∇L(θ1) move to θ2=θ1+v2 这样一来运动就不仅基于梯度，也基于之前的运动。 vi 其实是之前所有的梯度的加权和，所以是每一次的移动都有把之前所有的梯度给考虑进来。

#### Adam(RMSProp+Momentum) 算法超复杂的！！！ ### Overtfitting(train好但是test不好) **1. early stopping** 假设lr设置的很对，那么在training set上的error就会慢慢减小，直到后来loss没办法下降，但在testing data上的data上的error会慢慢变小然后最终变大。那我们关注的主要是testing error，那么停在testing error最低的地方，在实验中，就应该用validation set 去取代这里的testing set，也就是说在训练时到validation set上的error到最小时就应该停下整个训练过程。 **2. regularization** 在人脑的发育过程中，从出生到6岁会发现神经元间的联结越来越多，但是在从6岁到14岁的过程中，这些联结又会慢慢地减少. Our brain prunes out the useless link between neurons.如果对ML中的神经元做同样的事情，也会改善效果。正则化就是希望参数的norm能越接近0越好，

L′(θ)=L(θ)+λ12∥θ∥n L ′ ( θ ) = L ( θ ) + λ 1 2 ‖ θ ‖ n 常取L1-norm和L2-norm 1. 如果是L2-norm，其中

θ={w1,w2,…} θ = { w 1 , w 2 , … } 则

∥θ∥2=(w1)2+(w2)2+… ‖ θ ‖ 2 = ( w 1 ) 2 + ( w 2 ) 2 + … (通常是hi不考虑biases的) 这个时候的new loss是

L′(θ)=L(θ)+λ12∥θ∥2 L ′ ( θ ) = L ( θ ) + λ 1 2 ‖ θ ‖ 2 Gradient：

∂L′∂w=∂L∂w+λw ∂ L ′ ∂ w = ∂ L ∂ w + λ w Update：

wt+1←wt−η∂L′∂w=wt−η(∂L∂w+λwt)=(1−ηλ)wt−η∂L∂w w t + 1 ← w t − η ∂ L ′ ∂ w = w t − η ( ∂ L ∂ w + λ w t ) = ( 1 − η λ ) w t − η ∂ L ∂ w 所以参数更新策略中由

wt−η∂L∂w w t − η ∂ L ∂ w 变成了

(1−ηλ)wt−η∂L∂w ( 1 − η λ ) w t − η ∂ L ∂ w 而其中的

1−ηλ 1 − η λ 是小于1大于0的数，所以

(1−ηλ)wt ( 1 − η λ ) w t 就越来越小，但是更新策略的右边两项前一项越来越小，后面一项要与前面一项取得平衡，导致参数不再更新，就完成训练。如果说有参数对loss的导数

∂L∂w ∂ L ∂ w 为0，那么就说明这个参数对loss没有影响，最终这个参数就会变为0，但是有用的参数会在右边两项中最终取得平衡。**L2-norm的regularization又叫做weight decay。** 2. 如果是L1-norm

∥θ∥1=|w1|+|w2|+… ‖ θ ‖ 1 = | w 1 | + | w 2 | + … New loss

L′(θ)=L(θ)+λ∥θ∥1 L ′ ( θ ) = L ( θ ) + λ ‖ θ ‖ 1 Gradient

∂L′∂w=∂L∂w+λsgn(w) ∂ L ′ ∂ w = ∂ L ∂ w + λ s g n ( w ) Update:

wt+1←wt−η∂L′∂w=wt−η∂L∂w−ληsgn(wt) w t + 1 ← w t − η ∂ L ′ ∂ w = w t − η ∂ L ∂ w − λ η s g n ( w t ) 那么参数更新规则中就多了

−ηλsgn(wt) − η λ s g n ( w t ) 这一项，具体实现的效果就是大于0就减去一个

ηλ η λ ，小于0就加上一个

ηλ η λ ，也就是让参数尽量靠近0，这个功能和L2-norm类似。 3. 差别：L2-norm会使参数最终接近0，而L1-norm会让参数差异很大，有些参数很大，一些参数接近0。 4. 帮助其实是很有限的，如果是SVM，扔进去一个问题就能输出结果，regularization是对SVM很重要的。但是对NN，因为有初始化，用GD做优化，initial value已经都是接近0开始，early stopping 和regularization的角色蛮重叠的，所以其实regularization在DNN中是没有那么有用的。 **3. dropout** 有DL特色的方法。运作方式： -train:对每一个neuron做sampling，甚至对input做sampling，每一个神经元有p的概率被drop，所以与之相连的权重也会失去作用，那么网络架构就直接改变了thinner，就相当于每次训练用的都是thinner的network，**每一次(每一轮新的mini-batch)参数更新之前都要做一次dropout，每次drop的神经元都不同** -test:**测试时不dropout，并且如果在训练时的dropout rate=p%，那么测试时所有权重都乘以1-p%。**原因是在test时不乘1-p，那么导致输出值会比train的时候大，只有乘1-p之后才能使状况和训练时一致。原理 Dropout is a kind of ensemble. 把training set分成几个part分别进入不同network进行训练，所有训练结果进行平均的结果会很好bias很小。虽然参数复杂，variance大但是平均以后会bias小（ **权重乘以1-p就模拟了平均的过程**）。一个batch训练一个网络会不会太少次训练？不会，因为参数是share的，就是说用很多个batch去训练了一个参数，并不存在training data太少的问题。 **权重乘以1-p就模拟了平均的过程理论上只是linear activation function才work，但是实际上对于non-linear activation function也是work的** maxout+dropout 效果很好(对linear activation function效果很好) # Lecture 10：CNN CNN(NN应用在图像处理上)是一个很好的例子告诉我们说，network的架构我们是可以自己设计的。如果直接设计fully connected network，就是一个超大的function set里面找到optimal function，如果是CNN就是在很大的function space中，只有少量function 是需要考虑的，其他function在实际apply之前就知道效果会不好，所以直接不进行考虑，这样会比较容易learn到好的参数，比较不容易overfitting，variance会比较小。 CNN其实是FCN的一个简化版本，参数是比较少的。 ## Why CNN for image?(CNN设计的motivation) CNN通常用在影像的辨识上面，给machine一张image(一个matrix)，network（比如说分类network）根据matrix来决定网络里面的内容是什么。 1. Some patterns are much smaller than the whole image. 比如说一个神经元的作用是识别鸟嘴，那鸟嘴占的部分输入神经元就会产生很大的输出，或者说要识别鸟嘴，只要把鸟嘴的部分输入神经元而不需要整张图片输入进去。 2. The same patterns appear in different regions. 仍以鸟嘴为例，我们如果要识别鸟嘴，用同一个神经元和同一组参数就可以实现，而不需要分成不同位置的鸟嘴（对应不同未知的神经元）来侦测（识别）。 3. Subsampling the pixels will not change the object. 对于图像来说有一个特性，就是沿横纵轴做下采样时，图像中物体的形状不会改变，但是有一个好处是，图像变小了，那么网络中需要的参数也相应变少了，但是却不影响影像辨识的结果。 **总结一下**，其实这3个理由都是要让网络的参数变少。 ## The whole CNN image

→ → Convolution

→ → Max pooling

→ → Convolution

→ → Max pooling(C+M can repeat many times)

→ → Flatten

→ → Fully Connected Feedforward Network

→ → Classification result 以上网络的所有参数是被一起找出来的（同时train）。 convolution考虑的是上面的property 1（识别特征只需要一小部分的图片）和2（识别同一个特征只需要同一个神经元同一组参数），而Max pooling则是考虑到property 3（图像下采样之后其中物体的形状不变）。 ### CNN-Convolution 实际的操作是怎么做的呢？在convolution layer里面，有一把filter，每一组filter其实就是一个矩阵，filter有多少个和其尺寸都是预先决定好的（超参数？，就像是hidden layer的size一样），但是其中的参数是learn到的。 filter的size(**property 1**)，比如

3×3 3 × 3 意味着尺寸这么大的filter就苦于把特征给提取出来，也就是说pattern的size是小于

3×3 3 × 3 的。 **那有了这些filter应该怎么去使用呢？** 按如图的filter，一个filter要找的部分就是跟这个filter做卷积之后结果会使最大的region，because it contains the corresponding pattern of the filter（

3×3 3 × 3 的矩阵的对角为1，其余为

−1 − 1 ，那么作用就是寻找对角为1的region）。这样就能用同一组参数，同一个kernel寻找特定的pattern，这就**对应了property2。** filter里面只有1和-1，但是在初始pic里面只有0和1，这样就不存在说有

−1×−1=1 − 1 × − 1 = 1 的这种情况来使响应最大。（为什么filter会学习成这样呢？？？） ***filter和图片按stride做convolution之后的结果叫做feature map。***这个feature map可以当作一个新的图片，那么得到的这个新的image是会比原来的图片要小；原来的图片每个位置只有一个数值来描述它，但是因为有

n n 个filter，那么就相应地会有

n n 个feature map，因此在新的图中，每个位置会有

n n 个数值来描述它。 **对RGB图像和灰度图像的卷积的差别** 对灰度图片的卷积过程如上已经陈述清楚，那么RGB彩色图像其实就是有3个channel的图像，相当于3幅并列的灰度图，如果在灰度图filter size是

3×3 3 × 3 ，对彩色图filter就变成

3×3×3 3 × 3 × 3 ，就是说会有3个size为

3×3 3 × 3 的filter，每个通道上的灰度图对应一个filter，当然这个filter中间的参数都是训练出来的。 #### Convolution v.s. Fully Connected convolution是fully connected network的简化版，FCN的话就是对于输入层之后接神经元，然后每个神经元和前一层全连接，但是换成是CNN之后，卷积kernel和图片输入层的连接只有filter_size

× × filter_size个，这就导致less parameters。再有一点是convolution里的kernel因为只有一个，也就是后层神经元和前一层神经元之间的权重是repeat的，这就导致even less parameters。所以可以理解为CNN是FCN的简化版本。 ### CNN-Max Pooling Max-Pooling就是把feature map里面几个位置一组，进行max out，一个值得思考的问题就是在进行max的操作时，是否还能顺利进行GD，之前在激活函数Max-out part已经讲过，用

∇L∇w ∇ L ∇ w 模拟

∂L∂w ∂ L ∂ w 。除了Max Pooling 还有Average Pooling，两者其实可以一起使用，就是用两个值去代表那个group。 convolution+max pooling之后得到的feature map就认为是一个相对原图要小得多的image，其channel数就取决于filter的个数。 ### Flatten 在经过不断的卷积和pooling层之后，得到的image足够小了，就可以放心地把图片给flatten成一个vector，把这个vector作为FCN的输入，最后FCN就会给我们一个输出。 ## CNN in Keras

model2.add(Convolution2D(25,3,3,input_shape=(28,28,1)))
model2.add(MaxPooling2D((2,2)))
model2.add(Flatten())
// Fully Connected Feedforward Network
model2.add(Dense(output_dim=100))
model2.add(Activation('relu'))
model2.add(Dense(output_dim=10))
model2.add(Activation('softmax'))

通常filter的设定是靠近input的地方filter少，越往后的地方filter越多，这也是有道理的，因为在最开始的pattern是相对简单和basic的feature，basic的feature是比较少的，越往后的feature是越来越抽象的（是之前的feature的组合），所以后来的feature会越来越多，因此需要的filter也就越多。在做pooling的时候如果

What does the machine learn?

可以直接拿kernel里的权重过来，看看里面是什么内容，就知道学习的是什么，这一般只是适用于与输入层相连的layer。对于第二层以后的layer就要知道前一层的输出是什么才能知道后一层的output是什么。
但是对于高层的网络，我们应该怎么分析它们相应的功能是什么呢？举例来说，我们可以把某一个神经元拿出来，然后把某个filter在某个位置的输出拿出来，把所有图片输进去CNN，观察neuron(就是filter，之前已经讲到CNN是FCN的简化形式)什么时候activated最强，就知道其功能是什么，比如在论文“Rich feature hierarchies for accurate object detection and semantic segmentation”中，这个例子里框的左上角是激活的强度，白色框的大小是检测的范围(因为高层检测的是前一层的输出，所以检测的范围是比较大的)，那么观测同一个filter响应强的地方，就会知道该filter的功能是什么。
还有其他的分析方法，比如这个梯度上升(gradient ascent)的方法。
我们假设第k个filter的输出是一个11 × 11的滤波器，并且定义第 k 个滤波器的激活程度是 $a k = \sum i = 1 11 \sum j = 1 11 a k i j$
要求解某一个filter的作用是什么，就先固定住网络的参数，不断改变输入已知到使得该filter输出的图得到的激活程度能最大，也就是求解这样一个函数的解
$x * = a r g m a x x a k$
用梯度上升的方法尽心那个求解，得到相应的 x∗ 之后就能观察出相应filter的功能是什么。对于FCN的分析也是一样的，选取FCN某一层的某一个neuron，然后计算出使其激活程度最大的图片，就能知道该神经元感兴趣的特征是什么。
$x * = a r g m a x x a j$
要检测输出层的每一个神经元对应什么类别，如果也采用相应的方法，就会发现结果并不如我们想象的那样，会是标准的数字图片，反而是一堆看起来没有实际意义的噪声，甚至会以超高的置信率进行错判。可以参考这段视频Deep Neural Networks are Easily Fooled，那就显示其实DNN不是那么好的一个识别工具，是很容易被骗过的，但我们也同样可以理解为DNN并没有把输入的图片背下来，它采用了一种我们不能理解的方法去识别。
在这种时候，加入constraints(其实就似乎domain knowledge)是会很有帮助的，在CNN的基础上再加入视觉图像的一些基本规律，就能够产生更符合人体直觉感官的图片，比如计入一个条件
$x * = a r g m a x x (y i + \sum i, j | x i j |)$
就会产生一个更为合理的图片。
但是选择输入彩色图片时，如果用相同的办法去可视化就能够得到以下这样相对美好的结果。
图片来自Deep Inside Convolutional Networks:Visualising Image Classification Models and Saliency Maps
在这里注意一点，网络对物体的识别方法可能会和我们进行物体分类采取的依据不一样，举个例子，我们可能说要看到这个物体的第一眼就把物体给识别出来了，但是有可能网络会根据图片上的小logo来识别物体的种类。
4.原理类似上面，但不采用生成，而采用改变图像上某个像素的值的方法来判断对分类结果最重要的像素。即根据 $| \partial y k \partial x i j$ 的值来决策某一个像素对分类结果的影响程度。有人用这个方法来判断saliency，但是人不一定会值关注到物体本身，人有可能被其他部分distract，同样网络不一定会根据物体分类，网络有可能根据对人来说非slient的部分进行分类。所以在准备数据的时候需要尤其注意，而可视化训练过程也由此对我们改进训练过程有很重要的作用。
要判断网络识别依据的最简单的一种方法就是，对输入图片进行遮挡，在遮挡到哪个部位时，网络会对图片进行错误分类，那个部位就是准确分类的关键部位。这个方法来自论文Visualizing and understanding convolutional networks

Appliccations of forementioned content

Deep Dream
reference site
实现原理：在分类CNN中，将某个filter的输出值进行夸张化（符号不变，令绝对值增大），由这部分网络参数去修改输入图片(gradient ascend)，就可以得到神奇的效果。
Deep Style
reference site
实现原理：网络提出的原理是这样，文章认为CNN的filter提取的一部分是content，另一部分是style，那么我们只要找到另一个CNN，让网络提取的content像一张图，提取的style像另一张图，再利用gradient ascend的方法，实现图片风格的转换。
reference paper
playing Go
用来下围棋这个应用是非常popular的啦，围棋棋盘是19 × 19的一个分布，如果用FCN去训练的话，就把输入当作一个19 × 19的vector训练，如果是用CNN训练，就把输入当作一个19 × 19的matrix训练，而实际CNN的参数会更少，用CNN训练可以更优。就是根据特定输入，制定特定输出，使loss最小的方式训练。（而最强alpha go是利用增强学习的方式来训练的）。
同时，训练围棋的domain knowledge也是和CNN的前提要求是一致的，for convolution,因为patterns are smaller than the whole pic& same patterns appear in different regions。
For max pooling,subampling will not change the object，那这一点就让人想不通了，围棋上如果随意增减行数怎么会不影响下一步进行落子的位置呢？
而实际上这一点在alpha go的网络设计结构中，也是没有max pooling这一项的。那给我们的启发就是，对于一个有specific 应用的task，我们应该根据问题的具体内容结合相应的domain knowledge去设计task-specific的网络结构，而不是直接生搬硬套。
Speech recognition
用CNN也可以用来做语音识别？当把声音这种一维信号，做一些简单的变换，变成二维的图像(spectrogram)，就可以利用识别图像的方法来进行语音识别。到目前，state-of-the-art的语音识别系统都是在底层运用到CNN的。

你可能感兴趣的:(机器学习)

Anaconda 和 Miniconda：功能详解与选择建议古月฿ python入门 python conda
Anaconda和Miniconda详细介绍一、Anaconda的详细介绍1.什么是Anaconda？Anaconda是一个开源的包管理和环境管理工具，在数据科学、机器学习以及科学计算领域发挥着关键作用。它以Python和R语言为基础，为用户精心准备了大量预装库和工具，极大地缩短了搭建数据科学环境的时间。对于那些想要快速开展数据分析、模型训练等工作的人员来说，Anaconda就像是一个一站式的“数
机器学习必备数学与编程指南：从入门到精通 a小胡哦机器学习基础机器学习人工智能
一、机器学习核心数学基础1.线性代数（神经网络的基础）必须掌握：矩阵运算（乘法、转置、逆）向量空间与线性变换特征值分解与奇异值分解(SVD)为什么重要：神经网络本质就是矩阵运算学习技巧：用NumPy实际操作矩阵运算2.概率与统计（模型评估的关键）核心概念：条件概率与贝叶斯定理概率分布（正态、泊松、伯努利）假设检验与p值应用场景：朴素贝叶斯、A/B测试3.微积分（优化算法的基础）重点掌握：导数与偏导
AI 生成虚拟宠物：24 小时陪你聊天解闷大力出奇迹985 人工智能宠物
本文围绕AI生成虚拟宠物展开，介绍这类依托人工智能技术诞生的虚拟伙伴，能实现24小时不间断陪伴聊天，为人们解闷。文中详细阐述其技术基础，包括自然语言处理、机器学习等；分析多样功能，如个性化互动、情绪回应等；探讨在独居人群、压力大者等不同群体中的应用场景，最后总结其为人们生活带来的积极影响及未来发展潜力，展现AI虚拟宠物在陪伴领域的独特价值。一、AI生成虚拟宠物的诞生背景与技术基石在快节奏的现代社会
基于Python的AI健康助手：开发与部署全攻略 AI算力网络与通信 AI算力网络与通信原理 AI人工智能大数据架构 python 人工智能开发语言 ai
基于Python的AI健康助手：开发与部署全攻略关键词：Python、AI健康助手、机器学习、自然语言处理、Flask、部署、健康管理摘要：本文将详细介绍如何使用Python开发一个AI健康助手，从需求分析、技术选型到核心功能实现，再到最终部署上线的完整过程。我们将使用自然语言处理技术理解用户健康咨询，通过机器学习模型提供个性化建议，并展示如何用Flask框架构建Web应用接口。文章包含大量实际代
数据分析领域中AI人工智能的发展前景展望 AI大模型应用工坊 AI大模型开发实战数据分析人工智能数据挖掘 ai
数据分析领域中AI人工智能的发展前景展望关键词：数据分析、人工智能、机器学习、深度学习、数据挖掘、预测分析、自动化摘要：本文深入探讨了人工智能在数据分析领域的发展现状和未来趋势。我们将从核心技术原理出发，分析AI如何改变传统数据分析范式，详细讲解机器学习算法在数据分析中的应用，并通过实际案例展示AI驱动的数据分析解决方案。文章还将探讨行业应用场景、工具生态以及未来发展面临的挑战和机遇，为数据分析师
AI人工智能中的数据挖掘：提升智能决策能力
AI人工智能中的数据挖掘：提升智能决策能力关键词：数据挖掘、人工智能、机器学习、智能决策、数据分析、特征工程、模型优化摘要：本文深入探讨了数据挖掘在人工智能领域中的核心作用，重点分析了如何通过数据挖掘技术提升智能决策能力。文章从基础概念出发，详细介绍了数据挖掘的关键算法、数学模型和实际应用场景，并通过Python代码示例展示了数据挖掘的全流程。最后，文章展望了数据挖掘技术的未来发展趋势和面临的挑战
数据中台中的数据科学工作台：Jupyter集成方案 AI大数据智能洞察大数据与AI人工智能 jupyter 信息可视化 ide ai
数据中台中的数据科学工作台：Jupyter集成方案关键词：数据中台、数据科学工作台、JupyterNotebook、数据科学、机器学习、数据可视化、协作开发摘要：本文深入探讨了在数据中台架构中集成JupyterNotebook作为数据科学工作台的完整解决方案。我们将从数据中台的基本概念出发，详细分析Jupyter在数据科学工作流中的核心作用，介绍多种集成方案和技术实现细节，并通过实际案例展示如何构
2018年中南大学中英翻译某翁
参考：20180827235856533.jpg【1】机器学习理论表明，机器学习算法能从有限个训练集样本上得到较好的泛化【1】Machinelearningtheoryshowsthatmachinelearningalgorithmcangeneralizewellfromfinitetrainingsetsampleslimited有限的infinite无限的【2】这似乎违背了一些基本的逻辑准
今年校招竞争真激烈 12_05
程序员满大街，都要找不到工作了。即使人工智能满大街，我也后悔当初没学机器学习，后悔当初没学Java。C++真难找工作。难道毕了业就失业吗？好担心！
基于随机森林的白酒风味智能分类系统：从数据到洞察的完整实践笙囧同学 python
作者：笙囧同学|中科院计算机大模型方向硕士|全栈开发爱好者座右铭：偷懒是人生进步的阶梯联系方式：[email protected]各大平台账号/公众号：笙囧同学前言大家好，我是笙囧同学！今天给大家分享一个超级有趣且技术含量爆表的项目——白酒风味智能分类系统。作为一个既爱技术又爱美酒的程序员，我花了大量时间研究如何用机器学习的方法来"品酒"，让AI帮我们识别白酒的风味特征。这个项目融合了机器学习、数
Spring AI与机器学习：智能应用开发新范式 tmjpz04412 人工智能 spring 机器学习
SpringAI与机器学习的整合SpringAI是一个基于Spring生态的AI开发框架，旨在简化智能应用的开发流程。通过SpringAI，开发者可以快速集成机器学习模型，构建高效的智能应用。SpringAI支持多种机器学习库和框架，如TensorFlow、PyTorch和Scikit-learn，提供统一的API接口。SpringAI的核心优势在于其模块化设计和自动化配置。开发者无需关心复杂的依
PyTorch 使用指南
PyTorch是一个功能强大且灵活的Python开源机器学习库，以其动态计算图和直观的Pythonic接口而闻名。本指南将带您了解PyTorch的基础操作，包括张量创建、自动求导，以及如何构建、训练和优化神经网络模型。我们还将深入探讨其在图像分类（以CIFAR-10为例）和自然语言处理（以灾难推文分类为例）等特定领域的应用，并概述其在图像分割和强化学习等其他领域的应用。PyTorch使用指南1.P
Python 4.0新特性解析：性能优化与语法升级知识产权13937636601 计算机 python 性能优化开发语言
本文针对Python4.0的核心升级展开系统性分析，从性能优化与语法革新两个维度揭示其技术突破。首先解析新型解释器架构对运算效率的提升路径，其次探讨模式匹配、异步编程简化和类型系统强化等语法特性，最后结合机器学习与高并发场景验证新版本的实践价值。研究发现，Python4.0通过JIT编译器与内存管理重构实现3倍以上性能跃升，同时静态类型推导的完善显著提升大型项目维护效率，标志着Python从"胶水
Python,C++,go语言开发社会犯罪人群回归社会跟踪与辅助管理APP Geeker-2025 python c++golang
开发一款用于**社会犯罪人群回归社会跟踪与辅助管理**的App，结合Python、C++和Go语言的优势，可以实现高效的数据处理、实时的跟踪监控以及用户友好的前端界面。以下是一个详细的开发方案，涵盖技术选型、功能模块、开发步骤等内容。##技术选型###后端（Python+Go）-**编程语言**：-**Python**：用于数据处理、机器学习（如风险评估、行为预测）、脚本编写等。-**Go**：用
IoTDB智能分析节点AINode：时序数据分析的新引擎时序数据说 iotdb 数据分析数据挖掘时序数据库数据库大数据 ai
在大数据与物联网的驱动下，时序数据处理需求激增，如何高效存储、管理并实时分析海量时序数据成为技术挑战。作为专为时序数据设计的数据库，IoTDB通过引入智能分析节点（AINode），将机器学习能力原生集成到数据库中，实现了“数据存储-分析-决策”的一体化闭环。本文将深入解析AINode的核心功能、技术优势及实际应用场景。AINode：IoTDB的智能分析引擎AINode是IoTDB推出的第三种内生节
【免费下载】探索PlantVillage-Dataset：深度学习在植物病害检测中的革命性突破
探索PlantVillage-Dataset：深度学习在植物病害检测中的革命性突破在这个数字化时代，人工智能正逐步改变我们的生活，其中深度学习在农业领域的应用尤其引人注目。PlantVillage-Dataset是一个开放源代码的项目，它提供了一个庞大的植物病害识别数据集，旨在帮助开发人员和研究者利用机器学习技术改善农作物健康状况的监测。本文将深入探讨该项目的技术细节、应用价值及其独特之处。项目简
Python 的 GIL 时代即将终结，迈向真正的多线程时代技术狂潮AI Python开发实战 AI编程实战 AI应用实战开发语言 GIL Python
Python功能强大、灵活且对程序员友好，广泛应用于从Web开发到机器学习的各个领域。根据引用次数最多的两项指标，Python甚至超越了Java和C等语言，成为最流行的编程语言。经过多年的流行，Python似乎势不可挡。但Python作为一种编程语言的未来发展至少面临一个重大障碍。它被称为GIL，即全局解释器锁，几十年来，Python开发人员一直试图将其从Python的默认实现中删除。虽然GIL在
如何从零开始入行机器学习
在当今的科技浪潮中，机器学习无疑是最耀眼的明星之一。它不仅引领了人工智能的发展，还在各个行业中催生了大量的创新和变革。对于那些对技术充满热情、渴望在这个领域有所作为的人来说，“如何从零开始入行机器学习”成为了最热门的话题之一。这不仅仅是技术上的挑战，更是一个职业生涯的新起点。想象一下，在未来的工作中，你能够开发出自动识别图像的应用程序，或者设计一个可以预测市场趋势的智能系统，这一切都源于你现在迈出
如何评价开课吧机器学习特训营这个课程？ cda2024 机器学习人工智能
开场：点明主题，吸引眼球在当今数据驱动的时代，机器学习（MachineLearning）已经成为各个行业不可或缺的技术之一。无论是金融、医疗、制造还是零售，机器学习的应用都为这些领域带来了巨大的变革。面对这样的趋势，许多人都希望能够掌握这门技术，从而提升自己的职业竞争力。那么，当我们谈论“如何评价开课吧机器学习特训营这个课程”时，实际上是在探讨一个非常具体且重要的问题：对于那些希望进入或深入机器学
Anaconda（AI生成测试） harrio_ python
技术文章大纲：Anaconda插件开发挑战赛引言Anaconda作为数据科学与机器学习的核心工具，其插件生态系统的扩展性为开发者提供了广阔的创新空间。插件开发挑战赛旨在激励开发者探索Anaconda的潜力，解决实际场景中的技术痛点。以下为技术文章的核心框架。Anaconda插件开发的核心价值插件开发能够增强Anaconda的功能模块化，例如集成新的编程语言支持、优化包管理流程或扩展可视化工具。通过
Python与机器学习库Scikit-learn进阶 master_chenchengg python python Python python开发 IT
Python与机器学习库Scikit-learn进阶Scikit-learn进阶之旅：从新手到高手的必经之路为什么选择Scikit-learn？安装与环境设置特征工程的艺术：打造更强大的预测模型数据清洗特征构造模型调优秘籍：网格搜索与交叉验证的最佳实践网格搜索交叉验证集成学习的魅力：提升模型性能的组合拳随机森林梯度提升机堆叠实战案例解析：使用Scikit-learn解决真实世界问题数据准备模型训练
表征学习：机器认知世界的核心能力与前沿突破大千AI助手人工智能 #OTHER Python 学习人工智能机器学习神经网络表征学习 RL 特征工程
一、定义与背景：从特征工程到自动化学习表征学习（RepresentationLearning），又称特征学习（FeatureLearning），是机器学习的核心技术领域，其核心目标是通过算法自动学习数据的内在特征表示，将复杂多变的原始数据（如图像、文本、语音）转化为低维、富含语义信息的向量形式，从而提升下游任务（如分类、回归、聚类）的效率和精度。与传统依赖人工设计特征的特征工程（FeatureEn
踏上人工智能之旅（一）-----机器学习之knn算法 Sunhen_Qiletian 人工智能机器学习算法 python
目录一、机器学习是什么（1）概述（2）三种类型1.监督学习（SupervisedLearning）：2.无监督学习（UnsupervisedLearning）：3.强化学习（ReinforcementLearning）：二、KNN算法的基本原理：1.距离度量：2.K值的选择：3.投票机制和投票：三、Python实现KNN算法1.导入必要的库和数据：2.提取特征和标签：3.导入KNN分类器并训练模型
【Python】pandas.cut()函数的用法
pandas.cut()函数是一个非常有用的工具，用于将数值型数据按照指定的分箱或区间进行分割，从而将连续的数值变量转换为离散的类别变量。这在数据分析和机器学习的特征工程中尤其有用，因为它可以帮助揭示不同区间内的数据分布特征，或者简化模型的输入。基本用法pandas.cut()的基本语法如下：pandas.cut(x,bins,right=True,labels=None,retbins=Fals
以AI人工智能为核心，发展空间智能 AI智能探索者 AI Agent 智能体开发实战人工智能 ai
以AI人工智能为核心，发展空间智能关键词：人工智能、空间智能、智能系统、机器学习、计算机视觉、物联网、自动化技术摘要：本文围绕"以AI人工智能为核心发展空间智能"这一主题，系统解析空间智能的技术架构与实现路径。通过揭示AI与空间智能的核心关联，深入探讨机器学习、计算机视觉、数字孪生等关键技术如何赋能空间数据的感知、处理与决策。结合智能建筑、智慧城市等实际场景，展示从算法原理到工程落地的完整技术链条
Python金融分析：情感分析在量化价值投资中的完整实现 AI量化价值投资入门到精通 python 金融开发语言 ai
Python金融分析：情感分析在量化价值投资中的完整实现关键词：Python金融分析、情感分析、量化投资、价值投资、自然语言处理、机器学习、金融文本挖掘摘要：本文系统解析如何将情感分析技术深度整合到量化价值投资体系中，通过Python实现从金融文本数据采集、预处理、情感建模到策略回测的完整流程。详细阐述基于规则引擎、机器学习和深度学习的多维度情感分析方法，结合财务指标构建复合投资模型，并通过实战案
通用图片 OCR 到 Word API 数据接口 2301_78772565 ocr
通用图片OCR到WordAPI数据接口高可用图像识别引擎，基于机器学习，超精准识别率。1.产品功能通用的识别接口，支持多种图片格式；支持中英文字符混合识别；支持Base64以及网络地址传参；基于机器学习不断提高的识别率；输出的Word文件永久存储；数据持续更新与维护；全接口支持HTTPS（TLSv1.0/v1.1/v1.2/v1.3）；全面兼容AppleATS；全国多节点CDN部署；接口极速响应，
机器学习模型评估：交叉验证、混淆矩阵、ROC曲线及其在医学影像领域的应用猿享天开机器学习矩阵人工智能 DICOM医学影像模型评估
博主简介：CSDN博客专家、CSDN平台优质创作者，高级开发工程师，数学专业，10年以上C/C++,C#,Java等多种编程语言开发经验，拥有高级工程师证书；擅长C/C++、C#等开发语言，熟悉Java常用开发技术，能熟练应用常用数据库SQLserver,Oracle,mysql,postgresql等进行开发应用，熟悉DICOM医学影像及DICOM协议,业余时间自学JavaScript,Vue,
深入详解：决策树在医学影像分割特征选择中的应用与实现猿享天开决策树算法机器学习人工智能
深入详解：决策树在医学影像分割特征选择中的应用与实现决策树（DecisionTree）作为一种经典的机器学习算法，以其简单、直观和可解释性强的特点，在医学影像分割的特征选择中扮演了重要角色。医学影像分割（如分割脑肿瘤、肝脏、肺结节等）需要从高维影像数据中提取关键特征，以提升分割模型的精度和效率。决策树通过构建树形结构，筛选对分割任务最重要的特征，降低数据维度，同时提供可解释的规则。本文将从原理、实
机器学习概述炀水机器学习人工智能
一、机器学习算法与流程（一）、机器学习的主要流程：1.明确分析目标，2.数据收集，3.数据预处理，4.建模分析，5.结果评估，6.部署使用以及学习更新。1.明确分析目标：客观反映用户需求，通过对各类人群的深入分析，为相关部门制订资费、服务、市场策略提供基础。2.数据收集：收集相关的数据，充足、全面的高质量数据是机器学习的基础。3.数据预处理：数据可能存在着噪声、不一致、异常、个人隐私保护等各类问题
关于旗正规则引擎中的MD5加密问题何必如此 jsp MD5 规则加密
一般情况下，为了防止个人隐私的泄露，我们都会对用户登录密码进行加密，使数据库相应字段保存的是加密后的字符串，而非原始密码。在旗正规则引擎中，通过外部调用，可以实现MD5的加密，具体步骤如下： 1.在对象库中选择外部调用，选择“com.flagleader.util.MD5”，在子选项中选择“com.flagleader.util.MD5.getMD5ofStr({arg1})”； 2.在规
【Spark101】Scala Promise/Future在Spark中的应用 bit1129 Promise
Promise和Future是Scala用于异步调用并实现结果汇集的并发原语，Scala的Future同JUC里面的Future接口含义相同，Promise理解起来就有些绕。等有时间了再仔细的研究下Promise和Future的语义以及应用场景，具体参见Scala在线文档：http://docs.scala-lang.org/sips/completed/futures-promises.html
spark sql 访问hive数据的配置详解 daizj spark sql hive thriftserver
spark sql 能够通过thriftserver 访问hive数据，默认spark编译的版本是不支持访问hive，因为hive依赖比较多，因此打的包中不包含hive和thriftserver,因此需要自己下载源码进行编译，将hive，thriftserver打包进去才能够访问，详细配置步骤如下： 1、下载源码 2、下载Maven,并配置此配置简单，就略过
HTTP 协议通信周凡杨 java httpclient http 通信
一：简介 HTTPCLIENT，通过JAVA基于HTTP协议进行点与点间的通信！二：代码举例测试类： import java
java unix时间戳转换 g21121 java
把java时间戳转换成unix时间戳： Timestamp appointTime=Timestamp.valueOf(new SimpleDateFormat("yyyy-MM-dd HH:mm:ss").format(new Date())) SimpleDateFormat df = new SimpleDateFormat("yyyy-MM-dd hh:m
web报表工具FineReport常用函数的用法总结（报表函数）老A不折腾 web报表 finereport 总结
说明：本次总结中，凡是以tableName或viewName作为参数因子的。函数在调用的时候均按照先从私有数据源中查找，然后再从公有数据源中查找的顺序。 CLASS CLASS(object):返回object对象的所属的类。 CNMONEY CNMONEY(number,unit)返回人民币大写。 number:需要转换的数值型的数。 unit:单位，
java jni调用c++ 代码报错墙头上一根草 java C++jni
# # A fatal error has been detected by the Java Runtime Environment: # # EXCEPTION_ACCESS_VIOLATION (0xc0000005) at pc=0x00000000777c3290, pid=5632, tid=6656 # # JRE version: Java(TM) SE Ru
Spring中事件处理de小技巧 aijuans spring Spring 教程 Spring 实例 Spring 入门 Spring3
Spring 中提供一些Aware相关de接口，BeanFactoryAware、 ApplicationContextAware、ResourceLoaderAware、ServletContextAware等等，其中最常用到de匙ApplicationContextAware.实现ApplicationContextAwaredeBean，在Bean被初始后，将会被注入 Applicati
linux shell ls脚本样例 annan211 linux linux ls源码 linux 源码
#! /bin/sh - #查找输入文件的路径 #在查找路径下寻找一个或多个原始文件或文件模式 # 查找路径由特定的环境变量所定义 #标准输出所产生的结果通常是查找路径下找到的每个文件的第一个实体的完整路径 # 或是filename :not found 的标准错误输出。 #如果文件没有找到则退出码为0 #否则即为找不到的文件个数 #语法 pathfind [--
List,Set,Map遍历方式 (收集的资源,值得看一下) 百合不是茶 list set Map遍历方式
List特点：元素有放入顺序，元素可重复 Map特点：元素按键值对存储，无放入顺序 Set特点：元素无放入顺序，元素不可重复（注意：元素虽然无放入顺序，但是元素在set中的位置是有该元素的HashCode决定的，其位置其实是固定的） List接口有三个实现类：LinkedList，ArrayList，Vector LinkedList：底层基于链表实现，链表内存是散乱的，每一个元素存储本身
解决SimpleDateFormat的线程不安全问题的方法 bijian1013 java thread 线程安全
在Java项目中，我们通常会自己写一个DateUtil类，处理日期和字符串的转换，如下所示： public class DateUtil01 { private SimpleDateFormat dateformat = new SimpleDateFormat("yyyy-MM-dd HH:mm:ss"); public void format(Date d
http请求测试实例（采用fastjson解析） bijian1013 http 测试
在实际开发中，我们经常会去做http请求的开发，下面则是如何请求的单元测试小实例，仅供参考。 import java.util.HashMap; import java.util.Map; import org.apache.commons.httpclient.HttpClient; import
【RPC框架Hessian三】Hessian 异常处理 bit1129 hessian
RPC异常处理概述 RPC异常处理指是，当客户端调用远端的服务，如果服务执行过程中发生异常，这个异常能否序列到客户端？如果服务在执行过程中可能发生异常，那么在服务接口的声明中，就该声明该接口可能抛出的异常。在Hessian中，服务器端发生异常，可以将异常信息从服务器端序列化到客户端，因为Exception本身是实现了Serializable的
【日志分析】日志分析工具 bit1129 日志分析
1. 网站日志实时分析工具 GoAccess http://www.vpsee.com/2014/02/a-real-time-web-log-analyzer-goaccess/ 2. 通过日志监控并收集 Java 应用程序性能数据(Perf4J) http://www.ibm.com/developerworks/cn/java/j-lo-logforperf/ 3.log.io 和
nginx优化加强战斗力及遇到的坑解决 ronin47 nginx 优化
　　　先说遇到个坑，第一个是负载问题，这个问题与架构有关，由于我设计架构多了两层，结果导致会话负载只转向一个。解决这样的问题思路有两个：一是改变负载策略，二是更改架构设计。　　　由于采用动静分离部署，而nginx又设计了静态，结果客户端去读nginx静态，访问量上来，页面加载很慢。解决：二者留其一。最好是保留apache服务器。　　　来以下优化：　　　
java-50-输入两棵二叉树A和B，判断树B是不是A的子结构 bylijinnan java
思路来自： http://zhedahht.blog.163.com/blog/static/25411174201011445550396/ import ljn.help.*; public class HasSubtree { /**Q50. * 输入两棵二叉树A和B，判断树B是不是A的子结构。例如，下图中的两棵树A和B，由于A中有一部分子树的结构和B是一
mongoDB 备份与恢复开窍的石头 mongDB备份与恢复
Mongodb导出与导入 1: 导入/导出可以操作的是本地的mongodb服务器,也可以是远程的. 所以,都有如下通用选项: -h host 主机 --port port 端口 -u username 用户名 -p passwd 密码 2: mongoexport 导出json格式的文件
[网络与通讯]椭圆轨道计算的一些问题 comsci 网络
如果按照中国古代农历的历法，现在应该是某个季节的开始，但是由于农历历法是3000年前的天文观测数据，如果按照现在的天文学记录来进行修正的话，这个季节已经过去一段时间了。。。。。也就是说，还要再等3000年。才有机会了，太阳系的行星的椭圆轨道受到外来天体的干扰，轨道次序发生了变
软件专利如何申请 cuiyadll 软件专利申请
软件技术可以申请软件著作权以保护软件源代码，也可以申请发明专利以保护软件流程中的步骤执行方式。专利保护的是软件解决问题的思想，而软件著作权保护的是软件代码（即软件思想的表达形式）。例如，离线传送文件，那发明专利保护是如何实现离线传送文件。基于相同的软件思想，但实现离线传送的程序代码有千千万万种，每种代码都可以享有各自的软件著作权。申请一个软件发明专利的代理费大概需要5000-8000申请发明专利可
Android学习笔记 darrenzhu android
1.启动一个AVD 2.命令行运行adb shell可连接到AVD,这也就是命令行客户端 3.如何启动一个程序 am start -n package name/.activityName am start -n com.example.helloworld/.MainActivity 启动Android设置工具的命令如下所示： # am start -
apache虚拟机配置，本地多域名访问本地网站 dcj3sjt126com apache
现在假定你有两个目录，一个存在于 /htdocs/a，另一个存在于 /htdocs/b 。现在你想要在本地测试的时候访问 www.freeman.com 对应的目录是 /xampp/htdocs/freeman ,访问 www.duchengjiu.com 对应的目录是 /htdocs/duchengjiu。 1、首先修改C盘WINDOWS\system32\drivers\etc目录下的
yii2 restful web服务[速率限制] dcj3sjt126com PHP yii2
速率限制为防止滥用，你应该考虑增加速率限制到您的API。例如，您可以限制每个用户的API的使用是在10分钟内最多100次的API调用。如果一个用户同一个时间段内太多的请求被接收，将返回响应状态代码 429 (这意味着过多的请求)。要启用速率限制, [[yii\web\User::identityClass|user identity class]] 应该实现 [[yii\filter
Hadoop2.5.2安装——单机模式 eksliang hadoop hadoop单机部署
转载请出自出处：http://eksliang.iteye.com/blog/2185414 一、概述 Hadoop有三种模式单机模式、伪分布模式和完全分布模式，这里先简单介绍单机模式，默认情况下，Hadoop被配置成一个非分布式模式，独立运行JAVA进程，适合开始做调试工作。二、下载地址 Hadoop 网址http:
LoadMoreListView+SwipeRefreshLayout（分页下拉）基本结构 gundumw100 android
一切为了快速迭代 import java.util.ArrayList; import org.json.JSONObject; import android.animation.ObjectAnimator; import android.os.Bundle; import android.support.v4.widget.SwipeRefreshLayo
三道简单的前端HTML/CSS题目 ini html Web 前端 css 题目
使用CSS为多个网页进行相同风格的布局和外观设置时，为了方便对这些网页进行修改，最好使用（）。http://hovertree.com/shortanswer/bjae/7bd72acca3206862.htm 在HTML中加入<table style=”color:red; font-size:10pt”>，此为（）。http://hovertree.com/s
overrided方法编译错误 kane_xie override
问题描述：在实现类中的某一或某几个Override方法发生编译错误如下： Name clash: The method put(String) of type XXXServiceImpl has the same erasure as put(String) of type XXXService but does not override it 当去掉@Over
Java中使用代理IP获取网址内容（防IP被封，做数据爬虫） mcj8089 免费代理IP 代理IP 数据爬虫 JAVA设置代理IP 爬虫封IP
推荐两个代理IP网站： 1. 全网代理IP：http://proxy.goubanjia.com/ 2. 敲代码免费IP：http://ip.qiaodm.com/ Java语言有两种方式使用代理IP访问网址并获取内容，方式一，设置System系统属性 // 设置代理IP System.getProper
Nodejs Express 报错之 listen EADDRINUSE qiaolevip 每天进步一点点学习永无止境 nodejs 纵观千象
当你启动 nodejs服务报错： >node app Express server listening on port 80 events.js:85 throw er; // Unhandled 'error' event ^ Error: listen EADDRINUSE at exports._errnoException (
C++中三种new的用法 _荆棘鸟_ C++new
转载自：http://news.ccidnet.com/art/32855/20100713/2114025_1.html 作者: mt 其一是new operator，也叫new表达式；其二是operator new，也叫new操作符。这两个英文名称起的也太绝了，很容易搞混，那就记中文名称吧。new表达式比较常见，也最常用，例如： string* ps = new string("
Ruby深入研究笔记1 wudixiaotie Ruby
module是可以定义private方法的 module MTest def aaa puts "aaa" private_method end private def private_method puts "this is private_method" end end