我们所采用的学习内容来自B站的Lizongzhang老师的R语言的学习分享
今天学习的主要内容是关于
置信水平的理解
总体均值的区间估计
下面是学习的主要内容
首先第一部分是对t.test
函数的应用
首先先对总体均值的区间估计有一定的了解
在推断总体参数时,还需要根据统计量的抽样分布特征,估计出总体参数的一个区间范围,并同时给出总体参数落在这一区间范围的可能性大小的判断。 常用方法有矩估计法和最大似然估计法
图像上的简单理解,就是给出一条数轴,我对其落在某一点的附近的可能性有多大
以 μ \mu μ为我们所求的中心点所在位置,若大部分的样本待在 μ + 3 σ \mu +3\sigma μ+3σ的范围内,那么就表明大部分的样本点就在 μ \mu μ这个点的附近,然后就可以根据我们题目的需要对其进行判断
#总体均值的区间估计
x<-rnorm(10,20,2)
#number of observation(观测次数):10
#mean(均值):20
#标准差:2
t.test(x)
n<-10
margin_of_error<-qt(0.975,9)*sd(x)/sqrt(n)
ll<-mean(x)-margin_of_error#lower limit最低下限
up<-mean(x)+margin_of_error#最高上限
ci<-c(ll,up)
ci
t.test(x,conf=0.90)#进行区间估计,90%可以根据需要进行更改
首先常看t.test(x)的运行结果(默认是 95 % 95\% 95%)
> t.test(x)
One Sample t-test
#单样本检验
data: x
t = 40.466, df = 9, p-value = 1.711e-11
alternative hypothesis: true mean is not equal to 0
95 percent confidence interval:
17.85042 19.96434
sample estimates:
mean of x
18.90738
c i ci ci所表示的值如下
> ci
[1] 18.80898 21.54841
接下来看在 90 % 90\% 90%的区间估计
> t.test(x,conf=0.90)
One Sample t-test
data: x
t = 33.326, df = 9, p-value = 9.715e-11
alternative hypothesis: true mean is not equal to 0
90 percent confidence interval:
19.06876 21.28862
sample estimates:
mean of x
20.17869
再对置信水平进行一个简单的介绍
首先要提出一个假设的检验,令假设检验的命题为是否 ω = ω 0 \omega =\omega _0 ω=ω0进行讨论,下面是具体步骤
#置信水平
x<-rnorm(10,20,2)
#number of observation(观测次数):10
#mean(均值):20
#标准差:2
t.test(x)#单边检验
str(t.test(x))#提取结构string
t.test(x)$conf.int[1]#在R语言当中$表示提取上下限
t.test(x)$conf.int[2]
ci<-array(0,dim=c(1000,2))
#定义初始值,有1000行,有两列
for(i in 1:1000){
x<-rnorm(10,20,2)
#生成样本数据
ci[i,]<-c(t.test(x)$conf.int[1],t.test(x)$conf.int[2])
}
#head(ci)#查看前面的几个值的信息
mean(1*((ci[,1]<20)&(ci[,2]>20)))#逻辑运算的判断
#查看是否逼近95%
首先先对中心极限定理做一个简单的解释
现象由大量相互独立的因素影响
大量独立同分布的变量和的极限分布是正态分布
定理: x 1 . . . x n . . . x_1...x_n... x1...xn...独立同分布, E x i = μ Ex_i=\mu Exi=μ D x i = σ 2 Dx_i=\sigma^2 Dxi=σ2 其中 0 < σ < + ∞ 0<\sigma <+\infty 0<σ<+∞有
lim n → + ∞ P ( ∑ i = 1 n X i − n μ n σ ⩽ x ) = ∫ − ∞ x 1 2 π e − t 2 2 d t \lim _{n \rightarrow+\infty} P\left(\frac{\sum_{i=1}^{n} X_{i}-n \mu}{\sqrt{n} \sigma} \leqslant x\right)=\int_{-\infty}^{x} \frac{1}{\sqrt{2 \pi}} e^{-\frac{t^{2}}{2}} d t n→+∞limP(nσ∑i=1nXi−nμ⩽x)=∫−∞x2π1e−2t2dt
Y = ∑ i = 1 n x i Y=\sum_{i=1}^{n} x_{i} Y=∑i=1nxi 有 E Y = E ∑ i = 1 n x i = n μ E Y=E \sum_{i=1}^{n} x_{i}=n \mu EY=E∑i=1nxi=nμ
可以得到 D Y = D ( ∑ i = 1 n x i ) = ∑ i = 1 n D x i = n σ 2 D Y=D\left(\sum_{i=1}^{n} x_{i}\right)=\sum_{i=1}^{n} D x_{i}=n \sigma^{2} DY=D(i=1∑nxi)=i=1∑nDxi=nσ2
可以看出其分布的情况如下
N ( n μ , n σ 2 ) N\left(n\mu, n \sigma^{2}\right) N(nμ,nσ2)
#Central limit Theorem
#中心极限定理
#关注样本均值的分布状态
#(dim表示的是维度)
sample_mean<-array(0,dim=5000)
for(i in 1:5000)#rchisq表示k方分布随机数生成器
{
x<-rchisq(30,5)
sample_mean[i]<-mean(x)
}
hist(sample_mean,prob=T,ylim=c(0,1))
#prob=T表示纵轴概率分布,ylim是y轴取值区间
lines(density(sample_mean),col=2,lwd=3)
#增加一条概率密度曲线
#总体服从自由度为5的卡方分布
par(mfrow=c(2,2),mai=c(0.6,0.6,0.2,0.1),cex=0.6)
#进行图像的分布
sample_size<-c(1,4,36,100)
for(j in 1:4){
sample_mean<-array(0,dim=5000)
for(i in 1:5000){
x<-rchisq(sample_size[j],5)
#sample_size[j]表示在sample_size当中
#进行取相应位置的操作
sample_mean[i]<-mean(x)
}
hist(sample_mean,freq=F,
xlim=c(0,15),
ylim=c(0,1.4),
main=paste("sample size=",sample_size[j]))
lines(density(sample_mean),col=2,lwd=2)
}
这一部分的内容由于本人在概率论里没有进行系统的学习,所以有讲得不明白的地方还希望大家可以理解,也希望大家可以再多看一些不同的内容