聚类分析的相关理论

随着数据对我们当今生产生活的影响不断加深,数据挖掘开始成为了人们更加深入了事物本质的重要方法,聚类分析作为一项十分重要的数据挖掘手段,是使用某种相似度度量方法将数据集分为组内尽可能相似,组间尽可能相异的分组,最终使聚类结果达到规定的评价准则的要求的过程。其中最具代表意义的算法为 K-means 算法,因其简单的原理和较好的聚类效果被应用于诸多领域。

样本相似度的度量方法

为了将数据集中的样本分为类内相似,类间相异的分组,需要度量不同样本间的相似程度,在聚类操作中,大都使用样本特征空间的距离远近来衡量样本间的相似程度。常见的相似度计算公式如下:
(1)欧式距离(Euclidean Distance)欧式距离描述的是两个样本点在空间中的实际距离,是一种容易理解并被人们广泛应用的距离度量准则。具体的计算方法如下:
若在某个 n 维的特征空间中存在两个点 A = (a1,a2,…,an), B = (b1,b2,…,bn), ai,bi表示 A,B 在不同维度上的坐标,则A,B 间的距离为:
在这里插入图片描述
(2)汉明距离(Hamming Distance)
汉明距离通过计算两个子串上对应不同的位数,来衡量两个样本点之间的相似程度,常用来度量二进制串描述的数据样本之间的距离,具体计算方式如下:
若存在两个固定长度的数据样本 C=1000110,D=1001010,通过比较两个点不同的位数,可以得到 C,D 之间的汉明距离为 2。
(3)余弦相似度
余弦相似度是利用两个样本特征向量之间的余弦值来度量两个样本的相似程度,计算方式如下:
若在某个n 维的特征空间中存在两个点E = (e1,e2,…,en), F = (f1,f2,…,fn),其余弦值为:
聚类分析的相关理论_第1张图片
由此公式可以看出,E,F 越相似两个特征向量的夹角就越小,余弦相似度就越接近于1。

聚类质量评价方法

(1)类内距离和
假设一个数目为 D数据样本(a1,a2,…,aD)聚类后被分为了 N 类,距类中心为(X1,X2,…,Xn)类内样本点到聚类中心的相似度使用欧式距离进行度量,每一个样本点被分到欧式距离最近的聚类中心所属的类别中,使用类内距离和进行聚类质量进行评价,那么结果为:
在这里插入图片描述类内距离和越小,每个类簇中的样本到聚类中心的距离就越近,类簇内的样本相似程度就越高,聚类效果越好。类内距离和是一种十分简单并且十分可靠的质量评价准则,常被应用于诸如 K-means的许多聚类算法中。
(2)F-measure
F-measure 是一种使用排列组合原理评价聚类结果的手段,要求数据样本已经有对应的类别标签,它的定义公式如下:聚类分析的相关理论_第2张图片其中 TP 表示属于同一类的两个数据样本被正确的分在了一起, FP 表示不属于同一类的数据样本被错误的分在了一起,FN 表示属于同一类的样本被错误的分开了,P 表示准确率(precision),R 表示召回率(reacll),β为参数通常取 1,Fβ为评估结果,可以看出
Fβ 的值在区间[0,1]之间,当值取到1 时,聚类结果和真实结果完全相同。
(3)Entropy
Entropy同样需要数据样本已经有了类别标签,对总量为m 并已经分为 N 类的数据样本
在进行评估时,首先要计算出第 i 类的成员属于第 i 类的概率,即Pij=(mij/mi)。mi
表示第 i 类中所有样本点的个数,mij表示第 i 类中的样本应该属于第 i 类的个数。每一个类的 Entropy计算如下:
聚类分析的相关理论_第3张图片
总体聚类的 Entropy 计算如下:聚类分析的相关理论_第4张图片上述几种的几种聚类质量评价方法中,除了类内距离和外,F-measure 与 Entropy 都需要聚类样本要事先已有类表标签,故只能用于测试聚类算法性能,不能用于真实的数据聚类分析中。因此本文采用类内距离和作为本文的聚类质量评价函数。

K-means 聚类算法

K-means算法是一种基于划分的聚类算法,在 1967 年由 J.B.Mac Queen 提出[51-53],以其简单易懂的原理和其面对不同规模数据样本时较强的伸缩性,自其诞生以来就受到了各个领域的广泛应用。
K-means 算法的原理描述为:假设对包含有 M 个数据样本的数据集 U进行聚类时,首
先随机从数据集 U 中挑选出k 个样本作为初始的聚类中心,然后计算 U 中每一个样本到这k 个聚类中心的距离,并将样本划分到距离最近的类簇中,待所有样本划分好后,根据质心计算公式重新计算每一个类簇的聚类中心。得到新的聚类中心后,根据事先给定的聚类质量评价函数计算新得到聚类中心的优劣程度,看是否满足聚类要求,如果满足算法停止,
如果不满足,则将此次迭代得到的聚类中心作为初始聚类中心并重复上面过程,直到达到预设要求或最大迭代次数。
质心计算公式如下:聚类分析的相关理论_第5张图片K-means 的流程图如下图所示。K-means 算法的优点在于流程简单,易于实现,在类间差异明显时,算法效果好,在应对大规模数据时,伸缩性较好。K-means 算法的缺点也很明显,如:初始聚类中心的选取对算法效果的影响较大,不同的聚类中心往往会得到不同的结果,容易收敛到局部最优等。K-means 算法的诞生为后来的许多聚类算法的研究提供了理论基础与解决思路,为后来的学者在研究聚类问题时提供了很多启发,对 K-means算法的研究与改进一直延续到了今天。K-means 算法对聚类这一数据挖掘手段的发展起到了很大的推进作用。聚类分析的相关理论_第6张图片

你可能感兴趣的:(群智能算法)