统计学习方法笔记之逻辑斯谛模型与最大熵模型

更多文章可以访问我的博客Aengus | Blog

逻辑斯谛回归(Logistic Regression)模型是经典的分类方法,而最大熵则是概率模型中学习的一个准则,将其推广到分类问题得到最大熵模型(maximum entropy model)。两者都属于对数线性模型。

逻辑斯谛模型

逻辑斯谛分布

设是连续随机变量,服从逻辑斯谛分布是指具有以下分布函数和密度函数:

其中,是位置参数,为形状参数。

逻辑斯谛分布的密度函数和分布函数如下所示。分布函数属于逻辑斯谛函数,其图像是一条形曲线,该曲线以为中心对称,即满足:

曲线在中心附近增长速度较快,在两端增长速度较慢。形状参数的值越小,曲线在中心附近增长越快。

逻辑斯谛分布

二项逻辑斯谛回归

二项逻辑斯谛回归模型是一种分类模型,由条件概率分布表示,形式为参数化的逻辑斯谛分布,的取值范围为实数,的取值为1或0,那么如下的条件概率分布:

其中表示内积,,和是参数,称为权值向量,称为偏置。

对于输入的实例,逻辑斯谛模型计算其条件概率与,通过比较大小将分到概率值大的那一类。

有时为了方便,将权值向量与输入实例进行扩充,仍记作,即,,这时,逻辑斯谛模型就变成了:

模型特点

一个事件的几率是指该事件发生的概率和不发生的概率的比值。如果一个事件发生的概率是,那么该事件的几率就是,该事件的对数几率就是:

对于逻辑斯谛模型来说,的几率就是:

也就是说,在逻辑斯谛模型中,输出的对数几率是输入的线性函数。考虑到公式

可以得到,线性函数的值越接近于正无穷,概率值就越接近1;线性函数的值越接近负无穷,概率值就越接近0。

多项逻辑斯谛回归

设随机变量的取值集合为,那么多项逻辑斯谛回归模型是:

其中,。

模型参数估计

可以应用极大似然估计模型参数。

设:

似然函数为:

对数似然函数为:
\begin{align} L(w) &= \sum^N_{i=1}[y_i \log \pi(x_i) + (1-y_i)\log(1-\pi(x_i))] \\ &=\sum^N_{i=1}\left[ y_i\log \frac{\pi(x_i)}{1-\pi(x_i)} + \log(1-\pi(x_i)) \right] \\ &= \sum^N_{i=1}[y_i(w \cdot x_i) - \log (1+\exp(w \cdot x_i))] \end{align}
对求极大值,得到的估计值。这样,问题就变成了以对数似然函数为目标函数的最优化问题。逻辑斯谛回归学习中通常采用的方法是梯度下降法及拟牛顿法。

最大熵模型

最大熵原理认为,学习概论模型时,在所有可能的概率模型分布中,熵最大的模型时最好的模型。

假设离散随机变量的概率分布是,则其熵为:

熵满足下列不等式:

式中,是的取值个数,当且仅当的分布是均匀分布时右边的等号成立,这就是说服从均匀分布时,熵最大。换句话说,最大熵原理认为要选择的概率模型首先必须满足已有的事实,在没有更多信息的情况下,那些不确定的部分都是等可能的。

定义

首先考虑模型应该满足的条件。给定数据集,可以确定联合分布的经验分布和的经验分布,记作和:

表示样本出现的频数;表示训练数据中样本出现的频数,代表训练样本容量。

特征函数描述输入与输出是否满足某一事实:

代表特征函数对的期望值:

代表关于模型特征函数关于模型与的期望值:

如果模型能够获取训练数据中的信息,那么就可以假设这两个期望值想等,即:

将上式作为模型学习的约束条件,假设有个特征函数,那么就有个约束条件。

设满足所有约束条件的模型集合为:

定义在条件概率分布上的条件熵为:

则模型集合中条件熵最大的模型称为最大熵模型。式中的对数为自然对数。

模型的学习

最大熵模型的学习也就是求解最大熵模型的过程。对于给定的数据集以及特征函数,最大熵模型的学习等价于约束最优化问题:

按照最优化问题的习惯,将求最大值问题改写为等价的求最小值问题:

这里,将约束最优化的原始问题转化为无约束最优化的对偶问题。首先,引入拉格朗日乘子,定义拉格朗日函数:

最优化的原始问题是,对偶问题是。

首先,求解对偶问题的极小化问题。是的函数,将其记作:

称为对偶函数,同时将其解记作:

具体地,求对的偏导数并令其等于0,在的情况下,解得:

由于,得:

其中:

称为规范化因子。

然后求解对偶问题外部的极大化问题,

将其解记为,即,也就是说,可以应用最优化算法求对偶函数的极大化,得到,即最大熵模型。

最优化算法

改进的迭代尺度算法IIS

假设输入特征函数,经验分布,模型,按以下步骤求解:

(1)对所有,取初值;

(2)对每一,

​ (a)令是方程

的解,其中:

​ (b)更新值:;

(3)如果不是所有的都收敛,重复(2)步;

拟牛顿法

对于最大熵模型而言,

目标函数:

梯度:

其中

响应的拟牛顿法BFGS如下:

假设输入特征函数,经验分布,目标函数,梯度,精度要求,按以下步骤求解:

(1)选定初始点,取为正定对称矩阵,置;

(2)计算。若,则停止计算,得;否则转(3);

(3)由,求出;

(4)一维搜索:求使得:

(5)置;

(6)计算,若,则停止计算,得;否则,按下式求出:

其中,

(7)置,转(3);

参考

李航《统计学习方法(第二版)》第六章

你可能感兴趣的:(统计学习方法笔记之逻辑斯谛模型与最大熵模型)