核密度估计(KDE)

对于大量数据的可视化,在一维数据中,直方图(histogram)是一种普遍的方式,另外还有一种方式:核密度估计(kernel density estimation)。除了在可视化方面的用处以外,核密度估计有利与进行聚类算法的构造。

基本概念

核密度估计方法从直观上来看是平滑化的直方图,从理论角度上来讲是不利用数据分布的先验知识研究数据的分布特征。 优于直方图的一点是核密度估计是可以用于多维空间的。

直观理解

一组数据的直方图如下
核密度估计(KDE)_第1张图片
用KDE方法拟和出来的结果
核密度估计(KDE)_第2张图片

理论

核密度估计方法是类似于激活函数的一种方法,这里激活函数变成了核函数(kernel)。对于取值于R的独立同分布随机变量 x1,x2,...,xn ,所服从的分布密度函数 f(x) ,核密度估计得到的估计分布密度函数为

f̂ h(x)=1ni=1nK(xixh)

q其中 h 为预设的正数,通常称为窗宽或光滑函数, Kh 为核函数,一般需要满足以下条件:
K(u)=K(u)K(u)du=1,

所以常用的核函数有:高斯核函数,Epanechnikov函数,Biweight函数等。

更多

  1. 核密度估计的性质
    关于核密度估计方法,除去对核函数的讨论,最影响其结果的 就是窗宽 h 了:窗宽越小,观察到的数据点在最终的估计曲线比重越大,曲线越陡峭,反之。上图中的KDE增大窗宽,得到下图,

    核密度估计(KDE)_第3张图片

    进一步增大窗宽可能发生波形融合:

    核密度估计(KDE)_第4张图片
  2. KDE在多维数据里面的应用展示
    可以用于展示二维变量之间的协同分布,同时可以通过颜色加入第三个变量为观察量。

    核密度估计(KDE)_第5张图片
    核密度估计(KDE)_第6张图片
    核密度估计(KDE)_第7张图片

参考文献

  1. http://www.tuicool.com/articles/vIv6Ff
  2. https://wenku.baidu.com/view/51832ab6172ded630b1cb6a7.html
  3. http://seaborn.pydata.org/tutorial/distributions.html

你可能感兴趣的:(数理统计)