高斯混合模型(Gaussian Mixture Model, GMM)

一、GMM 是什么?

高斯混合模型(Gaussian Mixture Model, GMM)是一种概率模型,用于表示数据分布是由多个高斯分布(正态分布)的加权组合构成的。它假设数据点是从若干个高斯分布中生成的,每个高斯分布代表一个“簇”或“子群体”。GMM 是一种软聚类方法,与 K-Means 不同,它不仅能将数据点分配到某个簇,还能给出数据点属于每个簇的概率。

1.1 核心思想

  • 混合模型:GMM 认为数据集中的每个数据点都由多个高斯分布共同生成,每个高斯分布有自己的均值、协方差矩阵和权重。
  • 概率分布:每个数据点的概率密度是所有高斯分布的加权和。
  • 软分配:不像 K-Means 那样将每个数据点硬性分配到一个簇,GMM 为每个数据点计算属于各个簇的概率(即“责任”)。

1.2 数学表达

假设我们有 K K K 个高斯分布,数据集为 X = { x 1 , x 2 , … , x N } X = \{x_1, x_2, \dots, x_N\} X={ x1,x2,,xN},其中 x i ∈ R d x_i \in \mathbb{R}^d xiRd d d d 维向量。GMM 的概率密度函数为:

p ( x ) = ∑ k = 1 K π k N ( x ∣ μ k , Σ k ) p(x) = \sum_{k=1}^K \pi_k \mathcal{N}(x | \mu_k, \Sigma_k) p(x)=k=1KπkN(xμk,Σk)

其中:

  • π k \pi_k πk:第 k k k 个高斯分量的混合系数(权重),满足 ∑ k = 1 K π k = 1 \sum_{k=1}^K \pi_k = 1 k=1Kπk=1 π k ≥ 0 \pi_k \geq 0 πk0
  • N ( x ∣ μ k , Σ k ) \mathcal{N}(x | \mu_k, \Sigma_k) N(xμk,Σk):第 k k k 个高斯分布的概率密度函数,均值为 μ k \mu_k μk,协方差矩阵为 Σ k \Sigma_k Σk,其表达式为:
    N ( x ∣ μ k , Σ k ) = 1 ( 2 π ) d / 2 ∣ Σ k ∣ 1 / 2 exp ⁡ ( − 1 2 ( x − μ k ) T Σ k − 1 ( x − μ k ) ) \mathcal{N}(x | \mu_k, \Sigma_k) = \frac{1}{(2\pi)^{d/2} |\Sigma_k|^{1/2}} \exp\left(-\frac{1}{2}(x - \mu_k)^T \Sigma_k^{-1} (x - \mu_k)\right) N(xμk,Σk)=(2π)d/2Σk1/21exp(21(xμk)TΣk1(xμk))
  • 参数集合:GMM 的参数包括 { π k , μ k , Σ k } k = 1 K \{ \pi_k, \mu_k, \Sigma_k \}_{k=1}^K { πk,μk,Σ

你可能感兴趣的:(ML,机器学习,概率论,人工智能)