暴走的鹏鹏哥哥

[Python嗯~机器学习]---L1正则化和L2正则化

正则化解决过拟合问题

正则化（Regularization）是机器学习中一种常用的技术，其主要目的是控制模型复杂度，减小过拟合。
最基本的正则化方法是在原目标（代价）函数中添加惩罚项，对复杂度高的模型进行“惩罚”。
数学表达式：

式中  、为训练样本和相应标签，  为权重系数向量；  为目标函数，  即为惩罚项，可
理解为模型“规模”的某种度量；参数控制控制正则化强弱。不同的  函数对权重  的最优解有不同的
偏好，因而会产生不同的正则化效果。最常用的  函数有两种，即范数和  范数，相应称之为  正则
化和  正则化。

一、、正则化来源推导

可从带约束条件的优化求解和最大后验概率两种思路来推导、正则化，下面将予以详细分析。

1、正则化理解之基于约束条件的最优化

对于模型权重系数求解是通过最小化目标函数实现的，即求解：

我们知道，模型的复杂度可用 VC维来衡量。通常情况下，模型 VC维与系数  的个数成线性关系：
即  数量越多，VC维越大，模型越复杂。因此，为了限制模型的复杂度，很自然的思路是减少系数
的个数，即让  向量中一些元素为 0 或者说限制  中非零元素的个数。为此，我们可在原优化问题中加
入一个约束条件：

范数表示向量中非零元素的个数。但由于该问题是一个NP问题，不易求解，为此我们需要稍微“放松”
一下约束条件。为了达到近似效果，我们不严格要求某些权重为0，而是要求权重应接近于0，即尽量小。
从而可用、范数来近似范数，即：

或

使用范数时，为方便后续处理，可对进行平方，此时只需调整的取值即可。利用拉格朗日算子法，
我们可将上述带约束条件的最优化问题转换为不带约束项的优化问题，构造拉格朗日函数：

或

其中，我们假设的最优解为，则对拉格朗日函数求最小化等价于：

或

可以看出，上式与等价。

故此，我们得到对、正则化的第一种理解：

正则化等价于在原优化目标函数中增加约束条件
正则化等价于在原优化目标函数中增加约束条件

2、正则化理解之最大后验概率估计

在最大似然估计中，是假设权重是未知的参数，从而求得对数似然函数：

通过假设的不同概率分布，即可得到不同的模型。例如若假设的高斯分布，则有：

$l\left( w \right) =\text{log}\left[ \prod_{i}\frac{1}{\sqrt{2\pi}\sigma} e^{-\frac{\left( y^{i}-w^{T}x^{i} \right)^{2}}{2\sigma^{2}}} \right]=-\frac{1}{2\sigma^{2}}\sum_{i}{\left( y^{i}-w^{T}x^{i} \right)^{2}}+C$

式中为常数项，由于常数项和系数项不影响的解，因而可令即可得到
线性回归的代价函数。

在最大后验概率估计中，则将权重看作随机变量，也具有某种分布，从而有：

同样取对数有：

可以看出后验概率函数为在似然函数的基础上增加了一项  。  的意义是对权重系数  的概率
分布的先验假设，在收集到训练样本  后，则可根据  在  下的后验概率对  进行修正，从而
做出对  更好地估计。

若假设的先验分布为0均值的高斯分布，即，则有：

$\text{log}P\left( w \right)=\text{log}\prod_{j}P\left( w_{j} \right)=\text{log}\prod_{j}\left[ \frac{1}{\sqrt{2\pi}\sigma} e^{-\frac{\left( w_{j} \right)^{2}}{2\sigma^{2}}} \right]=-\frac{1}{2\sigma^{2}}\sum_{j}{w_{j}^{2}}+C'$

可以看到，在高斯分布下的效果等价于在代价函数中增加正则项。

若假设服从均值为0、参数为的拉普拉斯分布，即：

则有：

可以看到，在拉普拉斯分布下的效果等价于在代价函数中增加正则项。

故此，我们得到对于、正则化的第二种理解：

正则化可通过假设权重的先验分布为拉普拉斯分布，由最大后验概率估计导出；
正则化可通过假设权重的先验分布为高斯分布，由最大后验概率估计导出。

二、、正则化效果分析

本文将从直观分析和理论推导两个角度来说明、正则化的效果。

1、直观理解

考虑带约束条件的优化解释，对正则化为：

该问题的求解示意图如下所示：

图中椭圆为原目标函数  的一条等高线，圆为半径  的范数球。由于约束条件的限制，  必须
位于  范数球内。考虑边界上的一点  ，图中蓝色箭头为  在该处的梯度方向  ，红色箭头
为  范数球在该处的法线方向。由于  不能离开边界（否则违反约束条件），因而在使用梯度下降法更新
时，只能朝  在范数球上  处的切线方向更新，即图中绿色箭头的方向。如此  将沿着边界移
动，当  与范数球上  处的法线平行时，此时  在切线方向的分量为0，  将无法继续移动，
从而达到最优解（图中红色点所示）。

对于正则化：

同理，其求解示意图如下所示：

其主要差别在于  、  范数球的形状差异。由于此时每条边界上  的切线和法线方向保持不变，在图中
将一直朝着  在切线方向的分量沿着边界向左上移动。当  跨过顶点到达  时，  在
切线方向的分量变为右上方，因而  将朝右上方移动。最终，  将稳定在顶点处，达到最优解  。此时，
可以看到  ，这也就是采用  范数会使产生稀疏性的原因。

以上分析虽是基于二维的情况，但不难将其推广到多维情况，其主要目的是为了直观地说明、正则化最
优解的差异，以及范数为什么为产生稀疏性。

2、理论分析

假设原目标函数的最优解为，并假设其为二阶可导，将在处进行二阶泰勒展开有：

式中为在处的Hessian矩阵，注意为的最优解，其一阶导数为0，因而式中无一阶
导数项。取得最小值时有：

由于正则化的目标函数为在中添加，因而有：

设其最优解为，则有：

由于是对称矩阵，可对其作特征值分解，即，其中为正交矩阵，且每一列为的特征
向量，代入上式有：

为对角矩阵，且对角线元素为的特征值。

可在  为正交基上作线性展开，由上式可知  为  在  的每个特征向量上的分量以  比例放缩
得到。若  ，则  受正则化的影响较小；若  ，则受正则化的影响较大，将收缩到接近于
0的值。同时，若  ，则  ，因而  正则化不会产生稀疏性的效果。

对于正则化，只需将替换为的范数，同理可以得到：

其最优解满足：

为了简化讨论，我们假设为对角阵，即，。此时的不同分量
之间没有相关性，该假设可通过对输入特征进行预处理（例如使用PCA）得到，此时的解为：

当时，可知，因而正则化会使最优解的某些元素为0，从而产生稀疏性；时，
会在原有最优解上偏移一个常数值。

综上，正则化的效果是对原最优解的每个元素进行不同比例的放缩；正则化则会使原最优解的元素产生不同量的
偏移，并使某些元素为0，从而产生稀疏性。

你可能感兴趣的:(10分钟一篇机器学习,菜鸟鹏鹏哥哥的机器学习)

html 周华华 html
js 1，数组的排列 var arr=[1,4,234,43,52,]; for(var x=0;x<arr.length;x++){ for(var y=x-1;y<arr.length;y++){ if(arr[x]<arr[y]){ &
【Struts2 四】Struts2拦截器 bit1129 struts2拦截器
Struts2框架是基于拦截器实现的，可以对某个Action进行拦截，然后某些逻辑处理，拦截器相当于AOP里面的环绕通知，即在Action方法的执行之前和之后根据需要添加相应的逻辑。事实上，即使struts.xml没有任何关于拦截器的配置，Struts2也会为我们添加一组默认的拦截器，最常见的是，请求参数自动绑定到Action对应的字段上。 Struts2中自定义拦截器的步骤是：
make:cc 命令未找到解决方法 daizj linux 命令未知 make cc
安装rz sz程序时，报下面错误： [root@slave2 src]# make posix cc -O -DPOSIX -DMD=2 rz.c -o rz make: cc：命令未找到 make: *** [posix] 错误 127 系统：centos 6.6 环境：虚拟机错误原因：系统未安装gcc，这个是由于在安
Oracle之Job应用周凡杨 oracle job
最近写服务，服务上线后，需要写一个定时执行的SQL脚本，清理并更新数据库表里的数据，应用到了Oracle 的 Job的相关知识。在此总结一下。一：查看相关job信息 1、相关视图 dba_jobs all_jobs user_jobs dba_jobs_running 包含正在运行
多线程机制朱辉辉33 多线程
转至http://blog.csdn.net/lj70024/archive/2010/04/06/5455790.aspx 程序、进程和线程：程序是一段静态的代码，它是应用程序执行的蓝本。进程是程序的一次动态执行过程，它对应了从代码加载、执行至执行完毕的一个完整过程，这个过程也是进程本身从产生、发展至消亡的过程。线程是比进程更小的单位，一个进程执行过程中可以产生多个线程，每个线程有自身的
web报表工具FineReport使用中遇到的常见报错及解决办法（一）老A不折腾 web报表 finereport java报表报表工具
FineReport使用中遇到的常见报错及解决办法（一）这里写点抛砖引玉，希望大家能把自己整理的问题及解决方法晾出来，Mark一下，利人利己。出现问题先搜一下文档上有没有，再看看度娘有没有，再看看论坛有没有。有报错要看日志。下面简单罗列下常见的问题，大多文档上都有提到的。 1、address pool is full：含义：地址池满，连接数超过并发数上
mysql rpm安装后没有my.cnf 林鹤霄没有my.cnf
Linux下用rpm包安装的MySQL是不会安装/etc/my.cnf文件的，至于为什么没有这个文件而MySQL却也能正常启动和作用，在这儿有两个说法，第一种说法，my.cnf只是MySQL启动时的一个参数文件，可以没有它，这时MySQL会用内置的默认参数启动，第二种说法，MySQL在启动时自动使用/usr/share/mysql目录下的my-medium.cnf文件，这种说法仅限于r
Kindle Fire HDX root并安装谷歌服务框架之后仍无法登陆谷歌账号的问题 aigo root
原文：http://kindlefireforkid.com/how-to-setup-a-google-account-on-amazon-fire-tablet/ Step 4: Run ADB command from your PC On the PC, you need install Amazon Fire ADB driver and instal
javascript 中var提升的典型实例 alxw4616 JavaScript
// 刚刚在书上看到的一个小问题,很有意思.大家一起思考下吧 myname = 'global'; var fn = function () { console.log(myname); // undefined var myname = 'local'; console.log(myname); // local }; fn() // 上述代码实际上等同于以下代码 m
定时器和获取时间的使用百合不是茶时间的转换定时器
定时器:定时创建任务在游戏设计的时候用的比较多 Timer();定时器 TImerTask();Timer的子类由 Timer 安排为一次执行或重复执行的任务。定时器类Timer在java.util包中。使用时，先实例化，然后使用实例的schedule(TimerTask task, long delay)方法，设定
JDK1.5 Queue bijian1013 java thread java多线程 Queue
JDK1.5 Queue LinkedList： LinkedList不是同步的。如果多个线程同时访问列表，而其中至少一个线程从结构上修改了该列表，则它必须保持外部同步。（结构修改指添加或删除一个或多个元素的任何操作；仅设置元素的值不是结构修改。）这一般通过对自然封装该列表的对象进行同步操作来完成。如果不存在这样的对象，则应该使用 Collections.synchronizedList 方
http认证原理和https bijian1013 http https
一.基础介绍在URL前加https://前缀表明是用SSL加密的。你的电脑与服务器之间收发的信息传输将更加安全。 Web服务器启用SSL需要获得一个服务器证书并将该证书与要使用SSL的服务器绑定。 http和https使用的是完全不同的连接方式，用的端口也不一样,前者是80，后
【Java范型五】范型继承 bit1129 java
定义如下一个抽象的范型类，其中定义了两个范型参数，T1，T2 package com.tom.lang.generics; public abstract class SuperGenerics<T1, T2> { private T1 t1; private T2 t2; public abstract void doIt(T
【Nginx六】nginx.conf常用指令(Directive) bit1129 Directive
1. worker_processes 8; 表示Nginx将启动8个工作者进程，通过ps -ef|grep nginx,会发现有8个Nginx Worker Process在运行 nobody 53879 118449 0 Apr22 ? 00:26:15 nginx: worker process
lua 遍历Header头部 ronin47 lua header 遍历　
local headers = ngx.req.get_headers() ngx.say("headers begin", "<br/>") ngx.say("Host : ", he
java-32.通过交换a,b中的元素，使[序列a元素的和]与[序列b元素的和]之间的差最小(两数组的差最小)。 bylijinnan java
import java.util.Arrays; public class MinSumASumB { /** * Q32.有两个序列a,b，大小都为n,序列元素的值任意整数，无序. * * 要求：通过交换a,b中的元素，使[序列a元素的和]与[序列b元素的和]之间的差最小。 * 例如: * int[] a = {100,99,98,1,2,3
redis 开窍的石头 redis
在redis的redis.conf配置文件中找到# requirepass foobared 把它替换成requirepass 12356789 后边的12356789就是你的密码打开redis客户端输入config get requirepass 返回 redis 127.0.0.1:6379> config get requirepass 1) "require
[JAVA图像与图形]现有的GPU架构支持JAVA语言吗？ comsci java语言
无论是opengl还是cuda，都是建立在C语言体系架构基础上的，在未来，图像图形处理业务快速发展，相关领域市场不断扩大的情况下，我们JAVA语言系统怎么从这么庞大，且还在不断扩大的市场上分到一块蛋糕，是值得每个JAVAER认真思考和行动的事情
安装ubuntu14.04登录后花屏了怎么办 cuiyadll ubuntu
这个情况，一般属于显卡驱动问题。可以先尝试安装显卡的官方闭源驱动。按键盘三个键：CTRL + ALT + F1 进入终端，输入用户名和密码登录终端：安装amd的显卡驱动 sudo apt-get install fglrx 安装nvidia显卡驱动 sudo ap
SSL 与数字证书的基本概念和工作原理 darrenzhu 加密 ssl 证书密钥签名
SSL 与数字证书的基本概念和工作原理 http://www.linuxde.net/2012/03/8301.html SSL握手协议的目的是或最终结果是让客户端和服务器拥有一个共同的密钥，握手协议本身是基于非对称加密机制的，之后就使用共同的密钥基于对称加密机制进行信息交换。 http://www.ibm.com/developerworks/cn/webspher
Ubuntu设置ip的步骤 dcj3sjt126com ubuntu
在单位的一台机器完全装了Ubuntu Server，但回家只能在XP上VM一个，装的时候网卡是DHCP的，用ifconfig查了一下ip是192.168.92.128,可以ping通。转载不是错： Ubuntu命令行修改网络配置方法 /etc/network/interfaces打开后里面可设置DHCP或手动设置静态ip。前面auto eth0，让网卡开机自动挂载. 1. 以D
php包管理工具推荐 dcj3sjt126com PHP Composer
http://www.phpcomposer.com/ Composer是 PHP 用来管理依赖（dependency）关系的工具。你可以在自己的项目中声明所依赖的外部工具库（libraries），Composer 会帮你安装这些依赖的库文件。中文文档入门指南下载安装包列表 Composer 中国镜像
Gson使用四（TypeAdapter） eksliang json gson Gson自定义转换器 gsonTypeAdapter
转载请出自出处：http://eksliang.iteye.com/blog/2175595 一.概述 Gson的TypeAapter可以理解成自定义序列化和返序列化二、应用场景举例例如我们通常去注册时（那些外国网站），会让我们输入firstName，lastName,但是转到我们都
JQM控件之Navbar和Tabs gundumw100 html xml css
在JQM中使用导航栏Navbar是简单的。只需要将data-role="navbar"赋给div即可： <div data-role="navbar"> <ul> <li><a href="#" class="ui-btn-active&qu
利用归并排序算法对大文件进行排序 iwindyforest java 归并排序大文件分治法 Merge sort
归并排序算法介绍，请参照Wikipeida zh.wikipedia.org/wiki/%E5%BD%92%E5%B9%B6%E6%8E%92%E5%BA%8F 基本思想：大文件分割成行数相等的两个子文件，递归（归并排序）两个子文件，直到递归到分割成的子文件低于限制行数低于限制行数的子文件直接排序两个排序好的子文件归并到父文件直到最后所有排序好的父文件归并到输入
iOS UIWebView URL拦截啸笑天 UIWebView
本文译者：candeladiao，原文：URL filtering for UIWebView on the iPhone说明：译者在做app开发时，因为页面的javascript文件比较大导致加载速度很慢，所以想把javascript文件打包在app里，当UIWebView需要加载该脚本时就从app本地读取，但UIWebView并不支持加载本地资源。最后从下文中找到了解决方法，第一次翻译，难免有
索引的碎片整理SQL语句 macroli sql
SET NOCOUNT ON DECLARE @tablename VARCHAR (128) DECLARE @execstr VARCHAR (255) DECLARE @objectid INT DECLARE @indexid INT DECLARE @frag DECIMAL DECLARE @maxfrag DECIMAL --设置最大允许的碎片数量,超过则对索引进行碎片
Angularjs同步操作http请求with $promise qiaolevip 每天进步一点点学习永无止境 AngularJS 纵观千象
// Define a factory app.factory('profilePromise', ['$q', 'AccountService', function($q, AccountService) { var deferred = $q.defer(); AccountService.getProfile().then(function(res) {
hibernate联合查询问题 sxj19881213 sql Hibernate HQL 联合查询
最近在用hibernate做项目，遇到了联合查询的问题，以及联合查询中的N+1问题。针对无外键关联的联合查询，我做了HQL和SQL的实验，希望能帮助到大家。（我使用的版本是hibernate3.3.2） 1 几个常识：（1）hql中的几种join查询，只有在外键关联、并且作了相应配置时才能使用。（2）hql的默认查询策略，在进行联合查询时，会产
struts2.xml wuai struts
<?xml version="1.0" encoding="UTF-8" ?> <!DOCTYPE struts PUBLIC "-//Apache Software Foundation//DTD Struts Configuration 2.3//EN" "http://struts.apache