对于连续属性的可取数目不再有限,因此,不能直接根据连续属性的可取值来对结点进行划分。
对于给定的样本集 D 和连续属性 a ,假定 a 在 D 上出现了 n 个不同的取值,将这些值从小到大进行排序,记为 {a1,a2,…,an} 。基于划分点 t 可将 D 分为子集 D−t 和 D+t ,
若 ai∈D−t 则 ai≤t
若 ai∈D+t 则 ai>t
其中 i∈[1,n]
对相邻的属性取值 ai 与 ai+1 来说,在区间 [ai,ai+1) 中任意的取值所产生的划分结果相同,因此对于连续的属性 a 。所以可以取区间 [ai,ai+1) 的中点来作为划分点即 ai+ai+12
如此便产生了 n−1 个划分点。元素候选划分点集合
在属性值较多的情况下,往往会出现大量样本属性的缺失值,为了不放弃使用有缺失值的样本。
1:如何在属性值缺失的情况下进行划分属性选择
2:给定划分属性,若样本在该属性上的值缺失,如何对样本进行划分。
给定训练集 D 和属性 a ,令 D∼ 表示在属性 a 上没有缺失值的样本子集,对于问题(1),我们仅仅可以使用 D∼ 来判断属性 a 的优劣。
假设 a 有 V 个可取值 {a1,a2,…,aV} ,令 Dv∼ 表示 D∼ 在属性 a 上取值为 av 的样本子集, Dk∼ 表示 D∼ 中属于第 k 类 (k=1,2,…,|Y|) 的样本子集,显然有 D∼=∪k=1|Y|Dk∼ ; D∼=∪v=1VDv∼ ,
假定给每个样本 x 都赋予一个权重 wx 并定义
显然:
∑|Y|k=1pk∼=1
∑Vv=1rv∼=1
由此可以将信息增益公式修改为: