分级聚类方法

文章目录

  • 1. 算法思想
  • 2. 具体步骤
  • 3. 两个类之间的相似性度量
  • 4. 缺点

1. 算法思想

分级聚类方法(hierachical clustering)。聚类的结果可能是 N N N类也可能是 1 1 1类。

因此,在归类的过程中可以从 N N N类到 1 1 1类逐级地进行类别划分,求得一系列类别数从多到少的一个分类方案,然后根据一定的指标选择中间某个适当的划分方案作为聚类的结果。

2. 具体步骤

  1. 初始化,每个样本自成一个类
  2. 合并:通过两个类之间的相似性度量,按照一定标准将两个类合并为一类,记录下这两个类之间的距离,其余类保持不变。
  3. 重复2,直到所有样本合并到一个类中。

聚类的结果称为系统树图(dendrogram),图中最底层的每个节点都是一个样本,树枝的长度表达了类与类之间的距离关系。

3. 两个类之间的相似性度量

  1. 最近距离(single linkage)
    Δ ( τ i , τ j ) = min ⁡ y ∈ τ i , y ^ ∈ t a u j δ ( y , y ^ ) \Delta(\tau_i, \tau_j)=\min_{\boldsymbol{y} \in \tau_i, \hat{\boldsymbol{y}}\in tau_j}\delta(\boldsymbol{y}, \boldsymbol{\hat{y}}) Δ(τi,τj)=yτi,y^taujminδ(y,y^)
  2. 最远距离(complete linkage)
    Δ ( τ i , τ j ) = max ⁡ y ∈ τ i , y ^ ∈ τ j δ ( y , y ^ ) \Delta(\tau_i, \tau_j)=\max_{\boldsymbol{y} \in \tau_i, \hat{\boldsymbol{y}}\in \tau_j}\delta(\boldsymbol{y}, \boldsymbol{\hat{y}}) Δ(τi,τj)=yτi,y^τjmaxδ(y,y^)
  3. 均值距离(average linkage)
    Δ ( τ i , τ j ) = δ ( m i , m j ) \Delta(\tau_i, \tau_j)=\delta(\boldsymbol{m_i}, \boldsymbol{m_j}) Δ(τi,τj)=δ(mi,mj)
    其中, m i \boldsymbol{m_i} mi表示第 i i i类的均值。

4. 缺点

  1. 分级聚类是一种局部搜索方法,有些情况下对样本的噪声比较敏感,个别样本的变动可能导致聚类结果发生很大变化。
  2. 聚类树的画法不唯一。

你可能感兴趣的:(聚类分类算法)