机器学习第二讲 稀疏学习Lasso Regression和正则化regularization 的Ridge Regression

lasso (least absolute shrinkage and selection operator)要是能把全称背下来你能一直记住LASSO的原理是absolute shrinkage以及它有selection的作用。

Lasso来自least squares models(最小二乘法线性回归)
①常规的线性回归的做法是最小化下面这个损失函数:

机器学习第二讲 稀疏学习Lasso Regression和正则化regularization 的Ridge Regression_第1张图片
②Lasso回归的损失函数则多了一个对于回归系数的约束条件
机器学习第二讲 稀疏学习Lasso Regression和正则化regularization 的Ridge Regression_第2张图片
③岭回归(Ridge Regression)的损失函数也是添加了对于回归系数的约束条件:
机器学习第二讲 稀疏学习Lasso Regression和正则化regularization 的Ridge Regression_第3张图片
Lasso回归加的是系数绝对值,而岭回归加的是系数的平方。
很显然,在损失函数中加入系数并附带限制条件会使最后的回归系数比最小二乘法回归得到的系数要小。

为什么LASSO回归能够进行变量选择(feature selection),而岭回归只能使系数接近零而不为零呢?

下面我举一个例子:
假设只有两个特征,X1和X2
机器学习第二讲 稀疏学习Lasso Regression和正则化regularization 的Ridge Regression_第4张图片
由高中数学知识我们知道,损失函数f(x,y)=c是个椭圆。左边是lasso对应的误差等位线和正方形限制区域,右边是ridge对应的等位线和圆形限制区域。 上面图中围绕在β^周围的椭圆表示有相同RSS的参数估计。随着椭圆的扩大,对应的RSS增加。lasso和ridge的估计值就是在一定的限制区域下,椭圆不断扩张的过程中和限制区域的第一个接触点。

由图中我们可以知道,椭圆可以和正方形的顶点有交点,这个交点在y轴或x轴上,就导致有一个系数beta1或者beta1为0。
另一方面,由于ridge的限制区域是圆形,所以真正的触点无法落在坐标轴上,可能无限接近,但就是到不了。所以ridge无法将参数收缩成0,而lasso可以。

综上,LASSO是L1正则,Ridge是L2正则。L1会趋向于产生少量的特征,而其他的特征都是0,而L2会选择更多的特征,这些特征都会接近于0。Lasso在特征选择时候非常有用,而Ridge就只是一种规则化而已。

你可能感兴趣的:(机器学习第二讲 稀疏学习Lasso Regression和正则化regularization 的Ridge Regression)