更多文章可以访问我的博客Aengus | Blog

决策树的概念比较简单，可以将决策树看做一个if-then集合：如果“条件1”，那么...。决策树学习的损失函数通常是正则化后极大似然函数，学习的算法通常是一个递归的选择最优特征，并根据该特征对训练数据进行分割，使得对各个子数据集有一个最好的分类的过程。可以看出，决策树算法一般包含特征选择，决策树的生成与决策树的剪枝过程。

特征选择

信息增益

熵和条件熵

在了解信息增益之前需先给出熵和条件熵的定义。

熵代表随机变量不确定性的度量，设在一个有限个值的离散随机变量，其概率分布为

则随便变量的熵定义为

如果，则定义；对数一般取以2为底或者以为底，这时候熵的单位分别称作比特（bit）和纳特（nat）。由定义可知，熵只依赖于的分布，而和的取值无关，因此也可以将的熵记作，即：

熵越大，随机变量的不确定性就越大，根据定义可以得到：

条件熵表示在已知随机变量的条件下，随机变量的不确定性。随机变量给定的条件下随机变量的条件熵，定义为给定条件下的条件概率分布的熵对的数学期望：

其中，。

当熵和条件熵中的概率由数据估计（尤其是极大似然估计）得到时，所对应的熵和条件熵分别称为经验熵和经验条件熵。

定义

信息增益表示得知特征的信息而使得类的信息的不确定性减少的程度。

特征对训练集的信息增益，定义为集合的经验熵与特征给定条件下的经验条件熵之差，即

一般来说，熵与条件熵之差称作互信息。

根据信息增益选择特征的方法是选择信息增益最大的特征。

信息增益算法

对于给定的训练集和特征，计算特征对于训练集的信息增益一般有以下步骤：

（1）计算数据集的经验熵：

（2）计算特征对数据集的经验条件熵：

（3）计算信息增益

信息增益比

以信息增益作为划分训练数据集的特征，存在偏向于选择取值较多的特征的问题。使用信息增益比可以校正这一问题。

定义

对于给定的训练集和特征，特征对于训练集的信息增益比定义为其信息增益与训练数据集关于特征的值的熵之比，即：

其中，，是特征取值的个数。

决策树的生成

ID3算法

ID3算法的核心是在决策树各个结点上应用信息增益选择特征，递归的构建决策树。ID3相当于用极大似然法进行概率模型的选择。

假设输入训练数据集，特征集和阈值，按照以下步骤求得决策树：

（1）如果中所有实例属于同一类，则为单结点树，并将类作为该结点的类标记，返回；

（2）若，则为单结点树，并将中实例数最大的类作为该结点的类标记，返回；

（3）否则，按照信息增益的算法计算中各特征对的信息增益，选择信息增益最大的特征；

（4）如果的信息增益小于阈值，则置为单结点树，并将中实例数最大的类作为该结点的类作为该结点的类标记，返回；

（5）否则，对的每一个可能值，依将分割为若干非空子集，将中实例数最大的类作为标记，构建子结点，由结点及其子结点构成树，返回；

（6）对第个子结点，以为训练集，以为特征集，递归地调用（1）~（5）步，得到子树并返回；

C4.5算法

C4.5算法和ID3算法类似，不过是用信息增益比替换掉了信息增益；

假设输入训练数据集，特征集和阈值，按照以下步骤求得决策树：

（1）如果中所有实例属于同一类，则为单结点树，并将类作为该结点的类标记，返回；

（2）若，则为单结点树，并将中实例数最大的类作为该结点的类标记，返回；

（3）否则，按照信息增益比的算法计算中各特征对的信息增益比，选择信息增益比最大的特征；

（4）如果的信息增益比小于阈值，则置为单结点树，并将中实例数最大的类作为该结点的类作为该结点的类标记，返回；

（5）否则，对的每一个可能值，依将分割为若干非空子集，将中实例数最大的类作为标记，构建子结点，由结点及其子结点构成树，返回；

（6）对第个子结点，以为训练集，以为特征集，递归地调用（1）~（5）步，得到子树并返回；

可以看到两个算法除了加粗的部分，其他部分都一样。

决策树的剪枝

决策树生成算法递归的产生决策树直到不能继续下去为止，这样的树往往对训练数据分类比较准确，但是对未知的测试数据往往没那么精准，即出现过拟合现象。对于这种情况可以将决策树进行简化，也被称为决策树的剪枝。

决策树的剪枝往往通过极小化决策树整体的损失函数或代价函数来实现。设树的叶结点个数为，是树的叶结点，该叶结点有个样本点，其中类的样本点有个，，为叶结点上的经验熵，为参数，则决策树学习的损失函数可以定义为：

其中经验熵为：

在损失函数中，将损失函数右端的第一项记作

这时有

剪枝就意味着当确定时，选择损失函数最小的模型，即损失函数最小的子树（较大时促使选择比较简单的模型，较小时促进选择复杂的模型）。

剪枝算法

输入生成的决策树以及参数，输出剪枝后的子树：

（1）计算每个结点的经验熵；

（2）递归地从树的叶结点向上回缩，设一组叶结点回缩到其父结点之前与之后的整体树分别为与，其对应的损失函数值分别是与，如果

则进行剪枝，即将父结点变为新的叶结点；

（3）重复步骤（2），直至不能继续为止，得到损失函数最小的子树；

CART算法

分类与回归树（classification and regression tree, CART）模型是应用广泛的决策树学习方法，CART同样由特征选择、树的生成以及剪枝组成，既可以用于分类也可以用于回归。

CART是在给定输入随机变量的条件下输出随机变量的条件概率分布的学习方法。CART假设决策树是二叉树，内部结点特征的取值是“是”或“否”，左分支是取值为“是”的分支，右分支是取值为“否”的分支。CART算法由以下两步组成：

（1）决策树生成：基于训练数据集生成决策树，生成的决策树要尽量大；

（2）决策树剪枝：用验证数据集对已生成的树进行剪枝并选择最优子树，这时用损失函数最小作为剪枝的标准；

CART生成

对于回归树用平方误差最小化准则，对分类树用基尼指数最小化准则进行特征选择，生成二叉树。

回归树的生成

一颗回归树对应着输入空间的一个划分以及在划分单元上的输出值。假设将输入空间划分为个单元，并且在每个单元上有一个固定的输出值，于是回归树模型可表示为：

当输入空间的划分确定时，可以用用平方误差来表示回归树对于训练数据的预测误差，用平方误差最小的准则求解每个单元上的最优输出值。易知单元上的的最优值是上所有输入实例对应的输出的均值，即

问题是怎样对输入空间进行划分，也就是如何选择划分结点：

假设输入训练集，在训练数据集所在的输入空间中，递归地将每个区域划分为两个子区域并决定每个子区域上的输出值，构建二叉决策树。具体步骤为：

（1）选择第个变量和它取的值作为划分变量和划分点，并定义两个区域：

然后寻找最优划分变量和最优划分点，具体的，求解：

遍历变量，对固定的划分变量扫描切分点，选择式上式达到最小值的；

（2）用选定的划分区域并决定相应的输出值：

（3）继续对两个子区域调用步骤（1），（2），直到满足停止条件；

（4）将输入空间划分为个区域，生成决策树：

分类树的生成

基尼指数：在分类问题中，假设有个类，样本点属于第类的概率是，则概率分布的基尼指数定义为：

对于二分类问题，若样本点属于第一个分类的概率为，则概率分布的基尼指数为：

对于给定的样本集合，其基尼指数为：

这里，是中属于第类的样本子集，是类的个数。

如果样本集合根据特征是否取值被分割成和两部分，即：

那么在特征的条件下，集合的基尼指数定义为：

基尼指数代表集合的不确定性，基尼指数表示经分割后集合的不确定性。基尼指数越大代表不确定性程度越大。

假设输入训练数据集以及停止计算的条件，根据训练集，从根结点开始，递归地对每个结点进行以下操作，构建决策树：

（1）计算现有特征对训练数据集的基尼指数。此时，对每一个特征，对其可能取的每个值，根据样本点对的测试为“是”或“否”，将分为和两部分，利用上式计算的基尼指数；

（2）对所有可能的特征以及他，他们所有可能的切分点中，选择基尼指数最小的特征及其对应的切分点作为最优特征与最优切分点。依最优特征与最优切分点，从现结点生成两个子结点，将训练集依特征分配到两个子结点去；

（3）对两个子结点递归调用（1）和（2）步骤，直至满足停止条件；

（4）生成CART决策树；

算法停止的条件是结点中样本个数小于预定阈值或者样本的基尼指数小于预定阈值（此时此结点上的样本基本属于同一类），或者没有更多特征。

CART剪枝

输入为CART算法生成的决策树，输出为最优决策树，步骤如下：

（1）设；

（2）设

（3）自下而上地对各内部结点计算，以及

这里，表示以为根结点的子树，是对训练数据的预测误差，是的叶结点个数；

（4）对的内部结点进行剪枝，并对叶结点以多数表决法决定其类，得到树；

（5）设；

（6）如果不是由根结点及两个叶结点构成的树，则回到步骤（2）；否则令；

（7）采用交叉验证法在子树序列中选取最优子树；

参考

李航《统计学习方法（第二版）》第五章

统计学习方法笔记之决策树