The covariance between two jointly distributed real-valued random variables X and Y with finite second moments is defined as the expected product of their deviations from their individual expected values.
协方差,是用来度量两种随机变量之间关系的统计量。在数学中,描述一类数据的概念有均值,方差还有标准差,它们都是只在同一类数据中起到描述作用。但是对于不同类的数据呢?比方说我每天在食物上的花销和我的学习成绩是否有关系?是正相关(吃得越好成绩越好),负相关(吃得越好成绩越差)还是彼此独立(吃什么和成绩无关)?
X=(x1,x2,...,xn)
均值: X⎯⎯⎯=∑i=1nxin
方差: D=∑i=1n(xi−x⎯)2n−1=E(X−E(X))2,E(X)是期望
标准差: S=D‾‾√=∑i=1n(xi−x⎯)2n−1‾‾‾‾‾‾‾‾‾√
均值反映的是数据的集中趋势,标准差反映的是数据分布的离散程度,方差反映数据与其期望的偏离程度。
注:有人说标准差和方差的计算除以n-1的原因是这样能使我们以较小的样本集更好地逼近总体的标准差,即统计上所谓的“无偏估计”。还有人指出,如果我们是对总体的计算,那么用n。如果是对样本的计算那么用n-1,这是对总体的无偏估计。至于什么是无偏估计,因为我们计算的是样本集的均值,也就是说对于同一个总体来说,我们每次抽取的样本集不一样,那么得到的均值也都不一样。则均值本身也是一个随机变量,会服从某种分布,而这个分布的期望就是总体的均值。所以当我们抽取样本集算出的均值们越多,其期望会越逼近总体均值,这叫无偏。而我们每次根据样本集算出的均值其本身是个随机变量,所以得出的结果叫做估计。
方差的公式是 D=∑i=1n(xi−x⎯)2n−1=∑i=1n(xi−x⎯)(xi−x⎯)n−1 ,描述的是样本集每一维度与均值的离散程度。
而协方差的定义就是 cov(X,Y)=∑i=1n(xi−x⎯)(yi−y⎯)n−1 ,这样理解的就是描述两个样本之间每一维度的离散程度。所以这两个样本集的维度一定要相同。
从这个角度来理解,协方差不是衡量样本与样本之间的关系,而是属性与属性之间的关系。如果我们有一百个样本,每个样本的属性有两个:“性别”“身高”,那么协方差衡量的是性别与身高之间的 相关性,而不是通过性别和身高来衡量样本与样本之间的关系。这点要搞清楚。
从协方差的定义我们可以看出,方差其实就是 cov(X,X)
协方差是处理二维问题的,那么当一个样本有更高维度(有更多的属性)的时候,那怎么办呢?可以用协方差来两两计算这些属性之间的关系。假设一个样本集(m*n,m是样本个数,n是属性维度),需要计算的协方差数量就是 n(n−1)2 个。所以用n阶方阵的方式来表示。
协方差矩阵: Cn∗n=(cov(Di,Dj)),Di表示第i列,即第i个属性
上面应该说的很清楚了,就不实际举例子了。补充一下公式