零基础"机器学习"自学笔记|Note3:梯度下降法

写在前面

这个系列为我在自学【机器学习】时的个人笔记。因为本人为医学相关专业，故学习过程中可能会有较多的纰漏，希望各位读者不吝赐教。本系列以吴恩达老师的【“机器学习”课程】为纲，辅以黄海广老师的【斯坦福大学 2014 机器学习教程个人笔记（V5.51）】，中间会穿插相关数理知识。该系列笔记为实时同步更新，故与本人的学习进度息息相关，希望同在学习相关知识的朋友能多多督促，共同进步。

03梯度下降

3.1梯度下降(Gradient Descent）

例1.

假设这样一个场景：一个人被困在山上，需要从山上下来。但此时山上的浓雾很大，导致可视度很低。因此，下山的路径就无法确定，他必须利用自己周围的信息去找到下山的路径。这个时候，他就可以利用梯度下降算法来帮助自己下山。具体来说就是，以他当前的所处的位置为基准，寻找这个位置最陡峭的地方，然后朝着山的高度下降的地方走，同理，如果我们的目标是上山，也就是爬到山顶，那么此时应该是朝着最陡峭的方向往上走。然后每走一段距离，都反复采用同一个方法，最后就能成功的抵达山谷。

我们同时可以假设这座山最陡峭的地方是无法通过肉眼立马观察出来的，而是需要一个复杂的工具来测量，同时，这个人此时正好拥有测量出最陡峭方向的能力。所以，此人每走一段距离，都需要一段时间来测量所在位置最陡峭的方向，这是比较耗时的。那么为了在太阳下山之前到达山底，就要尽可能的减少测量方向的次数。这是一个两难的选择，如果测量的频繁，可以保证下山的方向是绝对正确的，但又非常耗时，如果测量的过少，又有偏离轨道的风险。所以需要找到一个合适的测量方向的频率，来确保下山的方向不错误，同时又不至于耗时太多！

梯度下降的基本过程就和下山的场景很类似。

首先，我们有一个可微分的函数。这个函数就代表着一座山。我们的目标就是找到这个函数的最小值，也就是山底。根据之前的场景假设，最快的下山的方式就是找到当前位置最陡峭的方向，然后沿着此方向向下走，对应到函数中，就是找到给定点的梯度，然后朝着梯度相反的方向，就能让函数值下降的最快！因为梯度的方向就是函数之变化最快的方向。

所以，我们重复利用这个方法，反复求取梯度，最后就能到达局部的最小值，这就类似于我们下山的过程。而求取梯度就确定了最陡峭的方向，也就是场景中测量方向的手段。

3.1.1微分

看待微分的意义，可以有不同的角度，最常用的两种是：

函数图像中，某点的切线的斜率

函数的变化率

3.1.2梯度

函数f的梯度表示为∇f，它是f所有偏微分的集合组成一个向量。

例如：

它的梯度是:

我们可以看到，梯度就是分别对每个变量进行微分，说明梯度其实一个向量。

梯度是微积分中一个很重要的概念，之前提到过梯度的意义：在单变量的函数中，梯度其实就是函数的微分，代表着函数在某个给定点的切线的斜率。在多变量函数中，梯度是一个向量，向量有方向，梯度的方向就指出了函数在给定点的上升最快的方向。对于函数f，在输入点(x0,y0),求得的梯度，其方向为最快上升的方向（steepest ascent）。

这也就说明了为什么我们需要千方百计的求取梯度！我们需要到达山底，就需要在每一步观测到此时最陡峭的地方，梯度就恰巧告诉了我们这个方向。梯度的方向是函数在给定点上升最快的方向，那么梯度的反方向就是函数在给定点下降最快的方向，这正是我们所需要的。所以我们只要沿着梯度的方向一直走，就能走到局部的最低点！

3.1.3批量梯度下降公式

此公式的意义是：J是关于Θ的一个函数，我们当前所处的位置为Θ0点，要从这个点走到J的最小值点，也就是山底。首先我们先确定前进的方向，也就是梯度的反向，然后走一段距离的步长，也就是α，走完这个段步长，就到达了Θ1这个点！

α在梯度下降算法中被称作为学习率或者步长，意味着我们可以通过α来控制每一步走的距离以保证不要走太快，错过了最低点。同时也要保证不要走的太慢，浪费时间。所以α的选择在梯度下降法中往往是很重要的！

梯度前加一个负号，就意味着朝着梯度相反的方向前进！我们在前文提到，梯度的方向实际就是函数在此点上升最快的方向！而我们需要朝着下降最快的方向走，自然就是负的梯度的方向，所以此处需要加上负号。

#例1#

我们假设有一个目标函数：

现在要通过梯度下降法计算这个函数的最小值。我们通过观察就能发现最小值其实就是 (0,0)点。但是接下来，我们会从梯度下降算法开始一步步计算到这个最小值！

我们假设初始的起点为：

初始的学习率为：

α = 0.1

函数的梯度为：

进行多次迭代：

我们发现，已经基本靠近函数的最小值点

3.1.4梯度下降的线性回归

对我们之前的线性回归问题运用梯度下降法，关键在于求出代价函数的导数，即：

则算法改写成：

推导过程如下：

— END —

往期 · 推荐

零基础"机器学习"自学笔记|Note1:机器学习绪论

零基础"机器学习"自学笔记|Note2:单变量线性回归

零基础"机器学习"自学笔记|Note3:梯度下降法

你可能感兴趣的:(零基础"机器学习"自学笔记|Note3:梯度下降法)