卡方检验原理笔记

卡方检验原理笔记

接触到卡方检验,阅读相关博文后写下自己的理解。
可以先看一下博文,再回来看接下来的内容。
首先举个例子,以常见的喝牛奶和感冒的关系为例:
某次统计的结果得到如下数据:

没感冒 感冒 总计
不喝牛奶 a b n1
喝牛奶 c d n2

其中a+b=n1,c+d=n2
为了探索感冒与否与是否喝牛奶有无关系,我们做出假设
H0:两者无关系(零假设)
为了验证H0是否是正确的,我们采用卡方检测的方法。
先假设H0是正确的,即两者无关,那么理想的调查结果是:

没感冒 感冒 总计
不喝牛奶 n1p n1(1-p) n1
喝牛奶 n2p n2(1-p) n2

其中n1,n2为喝牛奶和不喝牛奶的调查人群数量,p为在H0正确的条件下没感冒的概率
为了考察H0是否正确,那么要衡量两张表的差异 χ 2 \chi^2 χ2
标准的卡方值定义式子为:
χ 2 = ∑ i ( A i − E i ) 2 E i \chi^2=\sum_i\frac{(A_i-E_i)^2}{E_i} χ2=iEi(AiEi)2其中Ai是真实值,Ei是理论值。
那么在该例子中:
χ 2 = ( a − n 1 p ) 2 n 1 p + [ b − n 1 ( 1 − p ) ] 2 n 1 ( 1 − p ) + ( c − n 2 p ) 2 n 2 p + [ d − n 2 ( 1 − p ) ] 2 n 2 ( 1 − p ) \chi^2=\frac{(a-n_1p)^2}{n_1p}+\frac{[b-n_1(1-p)]^2}{n_1(1-p)}+\frac{(c-n_2p)^2}{n_2p}+\frac{[d-n_2(1-p)]^2}{n_2(1-p)} χ2=n1p(an1p)2+n1(1p)[bn1(1p)]2+n2p(cn2p)2+n2(1p)[dn2(1p)]2

利用 ( a − n 1 p ) 2 n 1 p + [ b − n 1 ( 1 − p ) ] 2 n 1 ( 1 − p ) = ( 1 − p ) ( a − n 1 p ) 2 + p [ b − n 1 ( 1 − p ) ] 2 n 1 p ( 1 − p ) = ( 1 − p ) ( a − n 1 p ) 2 + p [ ( n 1 − a ) − n 1 ( 1 − p ) ] 2 n 1 p ( 1 − p ) = ( 1 − p ) ( a − n 1 p ) 2 + p ( a − n 1 p ) 2 n 1 p ( 1 − p ) = ( a − n 1 p ) 2 n 1 p ( 1 − p ) \frac{(a-n_1p)^2}{n_1p}+\frac{[b-n_1(1-p)]^2}{n_1(1-p)}=\frac{(1-p)(a-n_1p)^2+p[b-n_1(1-p)]^2}{n_1p(1-p)}=\frac{(1-p)(a-n_1p)^2+p[(n_1-a)-n_1(1-p)]^2}{n_1p(1-p)}=\frac{(1-p)(a-n_1p)^2+p(a-n_1p)^2}{n_1p(1-p)}=\frac{(a-n_1p)^2}{n_1p(1-p)} n1p(an1p)2+n1(1p)[bn1(1p)]2=n1p(1p)(1p)(an1p)2+p[bn1(1p)]2=n1p(1p)(1p)(an1p)2+p[(n1a)n1(1p)]2=n1p(1p)(1p)(an1p)2+p(an1p)2=n1p(1p)(an1p)2对上式进行化简

化简得到 χ 2 = ( a − n 1 p ) 2 n 1 p ( 1 − p ) + ( c − n 2 p ) 2 n 2 p ( 1 − p ) \chi^2=\frac{(a-n_1p)^2}{n_1p(1-p)}+\frac{(c-n_2p)^2}{n_2p(1-p)} χ2=n1p(1p)(an1p)2+n2p(1p)(cn2p)2 ⋆ \star

此时,如果把n1,n2看成给定的,a,b看作为随机变量那么上式服从自由度为2的卡方分布(当 n → ∞ n\to\infin n)。

a相当于做n1次采样,每次采样有p的概率得到没感冒个体,那么a~B(n,p), a − n 1 p n 1 p ( 1 − p ) \frac{a-n_1p}{\sqrt{n_1p(1-p)}} n1p(1p) an1p~ N ( 0 , 1 ) N(0,1) N(0,1) ( a − n 1 p ) 2 n 1 p ( 1 − p ) \frac{(a-n_1p)^2}{n_1p(1-p)} n1p(1p)(an1p)2~ χ 2 ( 1 ) \chi^2(1) χ2(1) ( a − n 1 p ) 2 n 1 p ( 1 − p ) + ( c − n 2 p ) 2 n 2 p ( 1 − p ) \frac{(a-n_1p)^2}{n_1p(1-p)}+\frac{(c-n_2p)^2}{n_2p(1-p)} n1p(1p)(an1p)2+n2p(1p)(cn2p)2~ χ 2 ( 2 ) \chi^2(2) χ2(2)

此处计算得到的卡方分布自由度为2,事实上自由度数为:(行数-1)x(列数-1)=1,这是由于在上式子的计算中我们为了计算简洁假定了p作为参数是已知的,实际过程中我们不会得到第二张表,我们会利用 p ≈ a + c a + c + b + d = a + c n 1 + n 2 p\approx\frac{a+c}{a+c+b+d}=\frac{a+c}{n_1+n_2} pa+c+b+da+c=n1+n2a+c进行估计,将p的估计量代入( ⋆ \star )式得到的结果会使得自由度减少这句话应该是对的,但怀疑证明会比较复杂,也没能力自行演算。。。),自由度的直观理解参考自由度直观理解

在得到卡方值之后用于查卡方检验表…
卡方检验原理笔记_第1张图片

对置信度和显著性水平的解释

这里解释一下置信度和显著性水平 α \alpha α,如果结论为在显著性水平为0.05的条件下实验,如果H0是真实正确的,那么我就有95%的概率检验并接受它,也有5%的概率拒绝它。(也就是犯第Ⅰ类错误【弃真】的概率为5%),也即在置信度95%的条件下接受H0
需要多说一嘴的是:置信度的大小其实就是保守程度,置信度越高说明显著性水平越低,说明在H0为真的条件下,否认H0的概率越小,即偏向于接受。博文在这个地方描述不太妥当。即不能说我们有95%的把握认为H0是正确的,应该说“如果H0是真实正确的,那么我就有95%的概率检验并接受它,也有5%的概率拒绝它”这两者的区别可以理解成条件概率和边沿概率的差别(迷的描述方法)

判断相关性时的运用

有一些数据样本,每个样本具有特征1、特征2、特征3,和标签。通过卡方检验来判断特征i是否和标签有关。
利用spss,sklearn等统计工具时会返回每个特征的p_values,p值,通常我们认为对应p值小于0.05的特征是有效特征。
p值是当假设H0(该特征与标签)为真时,产生这些样本的概率,当p值小于显著性水平(通常取0.1,0.05)我们认为是极端事件的发生,拒绝H0,接受H1,认为特征与标签相关性强,是有效特征。

你可能感兴趣的:(大数据,概率论,数据挖掘)