突发恶疾的Kaz哥

可用于多元正态的参数估计及均值向量和协差阵检验的R语言函数总结

一、多元正态的参数估计

1.1 样本均值

在R语言中，均值通常用函数mean()得到，但是mean()只能计算一维变量的样本均值，在面对多元随机变量的样本时，假设我们以数据框的形式保存样本，我们有以下方法可以得到样本均值：

对多元样本的每一个分量用mean()函数，可以用apply()或sapply()函数
以数据框类型保存的样本，可以用summary()函数返回各个变量的各项描述性数据，其中包括均值

例1.1：

计算有割草机家庭的样本均值向量

有割草机家庭		无割草机家庭
x1	x2	x1	x2
20.0	9.2	25.0	9.8
28.5	8.4	17.6	10.4
21.6	10.8	21.6	8.6
20.5	10.4	14.4	10.2
29.0	11.8	28.0	8.8
36.7	9.6	16.4	8.8
36.0	8.8	19.8	8.0
27.6	11.2	22.0	9.2
23.0	10.0	15.8	8.2
31.0	10.4	11.0	9.4
17.0	11.0	17.0	7.0
27.0	10.0	21.0	7.4

注：在输入数据时，通常会用一个新的变量(假设命名为Y)来表示每个观测所属的组，称为分组变量，这个变量在R中通常要转换成因子

> data4.1=read.csv('Table4-1.csv')
> head(data4.1)
###                y是分组变量，y=1表示有割草机家庭
     x1   x2 y
1  20.0  9.2 1
2  28.5  8.4 1
3  21.6 10.8 1
4  20.5 10.4 1
5  29.0 11.8 1
6  36.7  9.6 1
###
> apply(data4.1[data4.1$y==1,],2,mean)[1:2]    #用apply()函数运算
###
      x1       x2 
26.49167 10.13333 
###
> summary(data4.1[data4.1$y==1,])           #用summary()获取各分量的样本均值
###
       x1              x2              y    
 Min.   :17.00   Min.   : 8.40   Min.   :1  
 1st Qu.:21.32   1st Qu.: 9.50   1st Qu.:1  
 Median :27.30   Median :10.20   Median :1  
 Mean   :26.49   Mean   :10.13   Mean   :1   #该行为均值
 3rd Qu.:29.50   3rd Qu.:10.85   3rd Qu.:1  
 Max.   :36.70   Max.   :11.80   Max.   :1 
###

apply()用法：apply(A,margin,fun,...)

apply()函数用来对矩阵或数据框的每行或每列进行指定函数的运算。其中A为矩阵或数据框；margin指定对行或对列进行运算，当margin=1时对行进行运算，当margin=2时对列进行运算；fun是指定的函数

summary()用法：summary(object,...)

summary()多用于获取项目的摘要，包含部分信息。当object为数据框时，会返回各个变量的五数（最小值，下四分位数，中位数，上四分为数，最大值）和均值

1.2 样本协差阵

在R中，样本协差阵的获取非常简便，对数据框使用cov()函数即可

例1.2：

继上题，计算有割草机组的样本协差阵

> cov(data4.1[data4.1$y==1,][,1:2])
###
          x1        x2
x1 39.182652 -1.969697
x2 -1.969697  1.020606
###

cov()用法：cov(x,y=NULL,...)

当指定cov()的参数x和y，且两者都为一维向量时，会返回两个向量的样本协方差；而未指定参数y，且x为矩阵或数据框时，会返回以x每一列作为变量样本的协差阵

1.3 样本相关阵

获取样本相关阵的函数是cor()，其用法与cov()相同，两个一维向量返回相关系数；数据框返回相关阵

二、各类检验

2.1 正态性检验

正态性检验即检验样本是否来自正态总体的检验，原假设都为来自正态总体。正态性的检验方法有许多种，此处介绍小样本量(3~50)时所用的夏皮洛-威尔克检验。R中的夏皮洛-威尔克检验的函数为shapiro.test()

shapiro.test()一次只能对一维变量进行正态性检验，当面对多元随机变量的样本时，有以下方法

我们可以对其每一个分量都进行一次正态性检验，当所有分量都检验得出服从正态分布后，可以认为该多元随机变量服从多元正态分布
运用mvnormtest包内的mshapiro.test()函数进行多元正态性检验

实现时可能会用到的函数有：

sapply()，对每个分量进行指定的检验
tapply()，对以分组变量指定的不同组别分别进行指定的检验

例2.1：

继上题，对不同类型家庭的随机向量数据进行正态性检验

> sapply(data4.1[,-3],shapiro.test)    #对各分量进行正态性检验，但是未分组
###
          x1                            x2                           
statistic 0.9654387                     0.9880936                    
p.value   0.5568611                     0.9897171                    
method    "Shapiro-Wilk normality test" "Shapiro-Wilk normality test"
data.name "X[[i]]"                      "X[[i]]" 
###
> tapply(data4.1[,1],data4.1$y,shapiro.test)
###                            对分组后的x1进行正态性检验
$`0`

        Shapiro-Wilk normality test

data:  X[[i]]
W = 0.98551, p-value = 0.9971


$`1`

        Shapiro-Wilk normality test

data:  X[[i]]
W = 0.95332, p-value = 0.6859

###
> tapply(data4.1[,2],data4.1$y,shapiro.test)
###                            对分组后的x2进行正态性检验
$`0`

        Shapiro-Wilk normality test

data:  X[[i]]
W = 0.97557, p-value = 0.9596


$`1`

        Shapiro-Wilk normality test

data:  X[[i]]
W = 0.98262, p-value = 0.992
###
##对有割草机家庭的随机向量数据进行正态性检验
> mshapiro.test(t(as.matrix(data4.1[data4.1$y==1,-3])))

        Shapiro-Wilk normality test

data:  Z
W = 0.96877, p-value = 0.8975

##对无割草机家庭的随机向量数据进行正态性检验
> mshapiro.test(t(as.matrix(data4.1[data4.1$y==0,-3])))

        Shapiro-Wilk normality test

data:  Z
W = 0.98001, p-value = 0.9837

检验结果为均服从正态分布

sapply()：sapply(X,Fun,...)

sapply()用于对X的每个分量进行Fun函数运算，X应该是矩阵或数据框

tapply()：tapply(X,Index,Fun=NULL,...)

tapply()用于对以分组变量Index指示的每个组中对应的X的数据进行Fun函数运算

mshapiro.test()：mshapiro.test(U)

mshapiro.test()用于进行多元的夏皮洛-威尔克正态性检验，需要注意U只能是数据矩阵，当遇到用数据框存储的数据时要用as.matrix()转化为矩阵，且这个函数默认变量的数据按行排放，通常我们需要对矩阵再进行一次转置

另外，可以画出Q-Q图查看样本的正态性，常用的函数有qqnorm()和qqline()

qqnorm(x)，其中x为一维变量的样本，当画出的散点图越接近一条斜线，其正态性越强
qqline(x)，其中x为一维变量的样本，当画出散点的Q-Q图后，添加点所靠近的斜线，该斜线的斜率为标准差,截距为均值

2.2 均值向量的检验

一维的均值检验有很多，若样本服从正态分布我们可以用t.test()单个总体或双总体的t检验；若不服从正态分布，我们可以用wilcox.test()进行秩和检验，用法与t.test()类似；当遇到多个总体时，若各个变量的方差相差不大，我们可以用将各个变量的数据放到一列，然后用一个分组变量表示数据属于哪个变量，运用aov()进行方差分析，从而进行多总体的均值检验

当遇到多元随机变量的均值检验时，我们有以下方法：

对每个分量进行均值检验，通过正态性检验的用t检验，未通过正态性检验的用秩和检验
对通过多元正态检验的数据，运用ICSNP包中的HotellingsT2()函数进行均值向量的检验
多总体时，若协差阵齐性检验通过，可以用manova()进行多元方差分析

例2.2.1：

继上题，检验有割草机家庭和无割草机家庭的向量均值是否相同

#上题已得出各类家庭的数据均通过正态检验

> t.test(x1~y,data=data4.1)            #对x1分量进行t检验

        Welch Two Sample t-test

data:  x1 by y
t = -3.2508, df = 20.458, p-value = 0.003919
alternative hypothesis: true difference in means between group 0 and group 1 is not equal to 0
95 percent confidence interval:
 -12.073229  -2.643437
sample estimates:
mean in group 0 mean in group 1 
       19.13333        26.49167 

> t.test(x2~y,data=data4.1)            #对x2分量进行t检验

        Welch Two Sample t-test

data:  x2 by y
t = -3.1203, df = 21.956, p-value = 0.004991
alternative hypothesis: true difference in means between group 0 and group 1 is not equal to 0
95 percent confidence interval:
 -2.1918725 -0.4414609
sample estimates:
mean in group 0 mean in group 1 
       8.816667       10.133333 

> library(ICSNP)
> attach(data4.1)
> HotellingsT2(cbind(x1,x2)~y)            #霍特林T方检验，用于多元正态向量

        Hotelling's two sample T2-test

data:  cbind(x1, x2) by y
T.2 = 12.257, df1 = 2, df2 = 21, p-value = 0.000297
alternative hypothesis: true location difference is not equal to c(0,0)

对各分量进行t检验的结果是：有割草机家庭与无割草机家庭的两个分量都不相等

对向量整体进行霍特林T方检验的结果是：有割草机家庭与无割草机家庭的向量均值不相等

该题也可以用多元方差分析，只是水平数为2，其实也是通过对每个分量进行检验

例2.2.2：

现有如下表所示各省统计数据，试检验它们的均值向量是否等于 (1081,1822,115,179)

序号	省份	工资性收入	家庭性收入	财产性收入	转移性收入
1	北京	4524.25	1778.33	588.04	455.64
2	天津	2720.85	2626.46	152.88	79.64
3	河北	1293.50	1988.58	93.74	105.81
4	山西	1177.94	1563.52	62.70	86.49
5	内蒙古	504.46	2223.26	73.05	188.10
6	辽宁	1212.20	2163.49	113.24	201.28

注：以上为部分表格，表格全部内容在此不展示

> data3=read.csv('Table_0.csv',encoding='UTF-8')    #读取数据
> mu_bar=c(1081,1882,115,179)
> rownames(data3)=data3[,1]            #将省名赋给数据框行名
> data3=data3[,-1]                     #去除省名一列
###
假设通过了正态性检验
###
> HotellingsT2(data3,mu=mu_bar)

        Hotelling's one sample T2-test

data:  data3
T.2 = 1.8443, df1 = 4, df2 = 27, p-value = 0.1494
alternative hypothesis: true location is not equal to c(1081,1882,115,179)

检验结果为各省统计数据的均值向量等于(1081,1822,115,179)

例2.2.3：

在数据New drug.xls中，各变量的意义为drug（药），取值1表示对病人给以新药，取值2表示对病人给以安慰剂，resp1-resp3是治疗后病人三个时点的呼吸状况，pulse1-pulse3是病人三个时点的脉搏。试分析这两方法的各次重复测定均值向量是否有显著差异？

drug	resp1	resp2	resp3	pulse1	pulse2	pulse3
1	3.4	3.3	3.3	2.2	2.1	2.1
1	3.4	3.4	3.3	2.2	2.1	2.2
1	3.3	3.4	3.4	2.3	2.4	2.3
2	3.3	3.3	3.3	2.8	2.9	2.7
2	3.2	3.3	3.4	2.6	2.7	2.7
2	3.2	3.2	3.2	2.7	2.9	2.7

注：以上为部分表格，表格全部内容在此不展示

题目要求检验不用用药的组之间，向量(resp1,resp2,resp3,pulse1,pulse2,pulse3)的均值是否相等。因为drug只有2个水平，可以对每个分量进行t检验，但是分量比较多会比较麻烦；也可以用多元方差分析，查看结果也是对每个分量的检验，不过需要先进行协差阵检验；用霍特林T2检验会比较简单。

> data_drug=read.csv('new drug.csv',encoding='UTF-8')
> names(data_drug)[1]='drug'        #UTF-8格式的csv文件读取后，第一列的名字会有变动，此处改回
> attach(data_drug)
###
对每个变量进行正态性检验后
得知随机向量不服从多元正态分布
因此不能用t检验和霍特林T方检验，不过可以对每个分量进行秩和检验
假设数据通过了协差阵检验
接下来进行多元方差分析
###
> modle_drug=manova(cbind(resp1,resp2,resp3,pulse1,pulse2,pulse3)~drug,data=data_drug)
> summary.aov(modle_drug)
 Response resp1 :
            Df   Sum Sq  Mean Sq F value   Pr(>F)   
drug         1 0.040833 0.040833  14.412 0.003507 **
Residuals   10 0.028333 0.002833                    
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

 Response resp2 :
            Df   Sum Sq  Mean Sq F value   Pr(>F)   
drug         1 0.040833 0.040833  14.412 0.003507 **
Residuals   10 0.028333 0.002833                    
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

 Response resp3 :
            Df   Sum Sq   Mean Sq F value Pr(>F)
drug         1 0.020833 0.0208333  3.0488 0.1114
Residuals   10 0.068333 0.0068333               

 Response pulse1 :
            Df  Sum Sq Mean Sq F value    Pr(>F)    
drug         1 0.65333 0.65333      70 7.936e-06 ***
Residuals   10 0.09333 0.00933                      
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

 Response pulse2 :
            Df  Sum Sq Mean Sq F value    Pr(>F)    
drug         1 1.08000 1.08000  79.024 4.623e-06 ***
Residuals   10 0.13667 0.01367                      
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

 Response pulse3 :
            Df  Sum Sq Mean Sq F value    Pr(>F)    
drug         1 0.75000 0.75000  64.286 1.155e-05 ***
Residuals   10 0.11667 0.01167                      
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

只有resp3的检验结果为相同，其他都为不同，所以认为两方法的各次重复测定均值向量有显著差异

t.test()用法:

t.test(x,y=NULL,alternative=c("two.sided","less","greater"),mu=0,...)或

t.test(formula,data,...)

指定x未指定y时，进行单总体的t检验，可以指定mu检验其是否与mu相同

alternative指定双边检验或左尾检验或右尾检验

也可以用formula类的参数，即x~y的类型，y是分组变量，会对不同组的x进行双总体t检验

wilcox.test()用法：

wilcox.test()用法与t.test()相同，此处不赘述

HotellingsT2()用法:

HotellingsT2(X,Y=NULL,mu=NULL,test="f",...)或

HotellingsT2(formula,...)

X与Y为矩阵或数据框，未指定Y时进行单总体的检验，可以指定mu检验其是否与mu相同

test参数指定近似统计量，默认为f，即F近似，可以指定"chi"，即卡方近似

可以用formula类参数，与先前用法相同，但是HotellingsT2()没有data参数

manova()用法:

manova(formula,data,...)

manova()的formula参数用法aov()类似，manova()返回的是多元方差分析的模型，将其赋给某个变量，然后用aov.summary()函数可以看每个变量的检验

2.3 协差阵检验

在进行多元方差分析前需要进行协差阵齐性检验，协差阵检验可以用heplots包内的boxM()函数。

例2.3：

继有无割草机家庭数据，检验两组的协差阵是否有差异

> boxM(data4.1[,-3],group=data4.1[,3])

        Box's M-test for Homogeneity of Covariance Matrices

data:  data4.1[, -3]
Chi-Sq (approx.) = 0.99346, df = 3, p-value = 0.8028

检验结果为两组协差阵相同

boxM()用法：

boxM(formula,data,...)或

boxM(Y,group,...)

formula类参数的用法与之前的函数相同

Y是数据矩阵或数据框，group是指定的分组变量

boxM()函数进行的是协差阵齐性检验，在分组变量的水平数大于2时也可以使用

三、小结

总结本文提到的函数和应用场景

参数估计		正态性检验
函数	应用场景	函数	应用场景
mean()	计算一维变量的样本均值	shapiro.test()	小样本正态性检验
apply()	对矩阵或数据框的行或列进行运算	mshapiro.test()	多元小样本正态性检验
sapply()	对矩阵或数据框的每个变量进行运算	sapply()	对每个变量进行指定运算或检验
summary()	对数据框使用时返回每个变量的统计描述	tapply()	对以分组变量指定的不同组别分别进行指定的运算或检验
cov()	获取协方差或协差阵	qqnorm()	画Q-Q图
cor()	获取相关系数或相关阵	qqline()	在Q-Q图中添加正态标准线

均值向量检验		协差阵检验
函数	应用场景	函数	应用场景
t.test()	正态样本的单双总体均值检验	boxM()	协差阵齐性检验
wilcox.test()	非正态样本的单双总体均值检验
HotellingsT2()	多元正态样本的单双总体均值检验
aov()	方差齐性情况下的方差分析
manova()	协差阵齐性下的多元方差分析
aov.summary()	获取方差分析模型的检验结果

Anaconda 和 Miniconda：功能详解与选择建议古月฿ python入门 python conda
Anaconda和Miniconda详细介绍一、Anaconda的详细介绍1.什么是Anaconda？Anaconda是一个开源的包管理和环境管理工具，在数据科学、机器学习以及科学计算领域发挥着关键作用。它以Python和R语言为基础，为用户精心准备了大量预装库和工具，极大地缩短了搭建数据科学环境的时间。对于那些想要快速开展数据分析、模型训练等工作的人员来说，Anaconda就像是一个一站式的“数
Qt 下拉框QComboBox控件：从入门到实战
一、QComboBox核心功能解析1.核心属性属性说明当前示例场景count列表项总数统计学历下拉框中的选项数量editable是否允许用户编辑学历选择时可输入自定义学历currentText当前选中项的文本获取用户选择的"硕士"文本currentData当前选中项的附加数据获取太原对应的区号"0351"currentIndex当前选中项的索引位置(从0开始)确定"硕士"在列表中的位置2.核心方法
R语言笔记Day1（排序、筛选以及分类汇总））养猪场小老板
一、排序1、单变量序列排序2、数据表（矩阵）排序二、筛选三、分类汇总一、排序1、单变量序列排序rank、sort和order函数>aa[1]315#rank用来计算序列中每个元素的秩#这里的“秩”可以理解为该元素在序列中由小到大排列的次序#上面例子给出的序列[3,1,5]中，1最小，5最大，3居中#于是1的秩为1，3的秩为2，5的秩为3，(3,1,5)对应的秩的结果就是(2,1,3)>rank(a
从0开始学习R语言--Day58--竞争风险模型
在用传统生存分析方法的场景中（如Kaplan-Meier和Cox回归），假设所有事件都是独立且互斥的，但在现实中，研究对象可能面临多种互斥的终点事件（如癌症患者可能死于癌症本身，也可能死于其他原因），如果直接去分析，模型会把这种结局时间错误地纳入评估，从而提高了病症的分析。而竞争风险模型可以在考虑其他竞争风险存在的情况下，排除干扰求得某特定事件发生的概率。以下是一个例子：library(cmprs
【科研绘图系列】R语言绘制边际云雨图散点图生信学习者1 SCI科研绘图系列 (2024版)r语言数据可视化
文章目录介绍加载R包数据下载导入数据数据预处理画图系统信息参考介绍【科研绘图系列】R语言绘制边际云雨图散点图加载R包library(tidyverse)library(ggplot2)library(ggpubr)library(ggpmisc)library(gghalves)library(aplot
学习小组Day4笔记--韧韧_7e6f
R语言基础R以及Rstudio的下载和安装，操作界面和基本语言的认知。安装之前，确认电脑用户名是英文；如果是中文，请参考当Rstudio杠上中文用户名很不幸，我就是中文名，按照上述说明，我将TEMP和TMP的值均改成D:\Rtemp；而后重启。1.R的下载和安装用搜狗微信搜索：“果子学生信给自己一个全新的R语言环境”https://mirrors.tuna.tsinghua.edu.cn/CRAN
理解泊松分布与正态分布的数学之美
背景简介在统计学和数据分析领域，泊松分布和正态分布是两种极其重要的概率分布。它们不仅在理论上具有深刻的意义，而且在各种实际应用中，如自然科学研究、金融风险评估、市场调查分析等领域都扮演着关键角色。本文将深入探讨泊松分布的推导过程和作为二项分布极限的情况，以及正态分布概率密度函数的积分求解方法和其最大值及拐点的位置。泊松分布的推导泊松分布是描述在固定时间间隔或空间区域内发生某事件的次数的概率分布。它
数学基础薄弱者的大数据技术学习路径指南 Re_Yang09 学习
CDA数据分析师证书含金量高，适应了未来数字化经济和AI发展趋势，难度不高，行业认可度高，对于找工作很有帮助。一、大数据技术数学需求分层二、低门槛学习路线图阶段1：工具优先（3-6个月）技能学习重点替代方案Excel透视表/条件格式WPS表格SQL多表关联/窗口函数MySQL社区版Tableau仪表板制作PowerBI免费版阶段2：实战突破（6-12个月）阶段3：精准补数（1-2个月）统计学速成清
统计学5——概率与概率分布
目录知识结构内容精读1.随机事件与概率2.离散型随机变量3.连续型随机变量名词解释小结知识结构内容精读1.随机事件与概率1.1事件随机事件通俗来讲就是在相同条件下可能发生也可能不发生的事件，也就是事件发生的概率是不确定的。与之对应的还有必然事件与不可能事件，显而易见，必然事件就是一定发生的事件，不可能事件与之相反是一定不会发生的事件。他们的符号表示如下：随机事件必然事件不可能事件1.2概率概率及对
15、统计学基础：数据描述、推断与分析您的账号已被封禁统计学数据描述推断分析
统计学基础：数据描述、推断与分析1.统计类型概述在数据分析中，我们常常需要了解数据的各种特征，这就涉及到不同类型的统计方法。主要有参数统计和非参数统计，其中非参数统计中的顺序统计量在很多场景下有着独特的优势。1.1顺序统计量顺序统计量用于指定数据值在有序集合中的位置，它只要求数据值是有序的，因此适用于比参数统计更广泛的数据分布。常见的顺序统计量包括中位数、四分位数等。-中位数：是排序后分布中处于中
统计学①——概率论基础及业务实战数据小斑马统计学统计学基础概率分布随机变量期望和方差转盘
统计学系列目录（文末有超级大礼）：统计学②——概率分布（几何，二项，泊松，正态分布）统计学③——总体与样本统计学④——置信区间统计学⑤——假设验证一、统计学是什么？统计学分为两类，一类是描述性统计学，通过对数据的集中趋势和变异趋势的刻画来描述数据的分布情况，集中趋势有平均值，中位数和众数三个指标，变异趋势则有全距，四分位距，百分位距，方差，标准差等指标来衡量另一类是推断统计学，通过对样本的统计来推
统计学07：概率论基础夜雨声烦yyy 统计学概率论
一、基础概念概率p代表事件发生的可能性大小，在0-1范围内ab测试中的p值，就代表一种概率（在零假设成立的前提下，观察当前数据或者比当前数据更加极端的数据的概率，p值越小，意味着在零假设成立的情况下，观察到当前结果的概率越小）二、基本性质非负性：P(A)>=0规范性：整个样本空间发生的概率是1加法公式：两个事件A和B的概率之和是P(A∪B)=P(A)+P(B)−P(A∩B)（非互斥事件）P(A∪B
R语言-数据清洗-缺失值处理刘大帅1
当对数据库中的芯片进行id转换后有许多NA值，这时候需要将这些数据值删掉。缺失值处理包括两个步骤，即缺失数据的识别和缺失值处理。在R语言总缺失值以NA表示，可以使用函数is.na()判断缺失值是否存在，函数complete.cases()可识别样本数据是否完整从而判断缺失情况。缺失值处理常用方法有删除法、替换法、插补法。（1）删除法：可分为删除观测样本与删除变量。删除观测样本通过na.omit()
从0开始学习R语言--Day55--弹性网络 Chef_Chen r语言
通常来说，样本数据的数据个数会远大于特征数，但是当我们遇到特殊数据，比如基因数据，可能会有成百上千甚至上万地特征量，而样本个数只有几十个，此时如果直接做回归，由于特征数量很多，且有很多特征共线性较高，很容易过拟合，而能处理共线性的方法，又无法将特征的系数压缩为0，这样计算量会大大增加。用弹性网络建模，其与其他不同的是，有两个惩罚项，L1负责控制特征系数（可以为0），做初步的筛选；L2负责剔除相关性
从0开始学习R语言-Day56--空间变系数模型 Chef_Chen 学习
对于涉及到空间相关性分析的数据来说，直接对其做杜宾模型的拟合，有时候很难解释有些变量的p值或是否收敛，因为许多变量的联系以及数据特征在拟合的过程中被消化掉了。而用不同的方法和模型去一步步测试特性，不仅可以证明课题或数据有无研究下去的意义，还可以帮我们节省工作量，确定研究的方向。以下是一个例子：#加载包library(sp)library(spgwr)library(ggplot2)library(
《R 矩阵》 lsx202406 开发语言
《R矩阵》引言在数学与统计学领域，矩阵是一种强大的工具，它广泛应用于各种科学研究和实际应用中。本文将深入探讨R矩阵的概念、特性及其在数据分析中的应用。R矩阵的定义与特性1.定义R矩阵，全称为“实对称矩阵”，是指一个实数域上的n×n矩阵，满足以下条件：矩阵A的元素a_ij和a_ji相等，即A是对称矩阵；矩阵A的元素a_ij和a_ji都是实数。2.特性（1）R矩阵是对称的，即A^T=A；（2）R矩阵的
【C++】使用箱线图算法剔除数据样本中的异常值
目录一、箱线图算法介绍二、五数概括计算解释三、四分位距（IQR）与异常值判定四、箱线图在数据处理中的应用1.异常值检测2.数据分布比较3.偏态与离散程度分析4.非参数数据展示五、箱线图的局限性六、代码实现及注释七、如果这篇文章能帮助到你，请点个赞鼓励一下吧ξ(✿＞◡❛)~一、箱线图算法介绍箱线图（Boxplot）是一种基于统计学的数据可视化和数据处理工具，箱线图假设数据样本服从正态分布，通过五数概
R 语言绘制六种精美热图：转录组数据可视化实践（基于 pheatmap 包）医工交叉实验工坊信息可视化 r语言开发语言
在转录组Bulk测序数据分析中，热图是展示基因表达模式、样本聚类关系的核心可视化工具。一张高质量的热图不仅能清晰呈现数据特征，更能提升研究成果的展示效果。本文基于R语言的pheatmap包，整理了六种适用于不同场景的热图绘制方法，涵盖基础聚类、分组对比、通路注释等需求，私信即可获取全部代码，方便科研人员快速实现数据可视化。一、绘图前的数据准备热图绘制的核心是基因表达矩阵，数据格式的规范性直接影响后
【作物模型】R语言与作物模型（以DSSAT模型为例）融合应用没有梦想的咸鱼185-1037-1663 R语言 DSSAT模型生态系统 r语言开发语言数据分析
随着基于过程的作物生长模型（Process-basedCropGrowthSimulationModel）的发展，R语言在作物生长模型和数据分析、挖掘和可视化中发挥着越来越重要的作用。想要成为一名优秀的作物模型使用者与科研团队不可或缺的人才，除了掌握对作物模型相关知识之外，还要掌握模型的快速模拟和高效数据分析能力。DecisionSupportSystemsforAgrotechnologyTra
量化金融简介（附电子书资料） hweiyu00 技术栈杂谈量化金融
概述量化金融（QuantitativeFinance）是一门融合数学、统计学、计算机科学与金融学的交叉学科，核心是通过量化模型和数据分析解决金融领域的问题，例如资产定价、风险管理、投资策略开发等。它的兴起与金融市场的复杂化、数据可获得性提升以及计算机算力发展密切相关。电子书资料：https://pan.quark.cn/s/cb1e6b72fbec一、量化金融的核心目标降低不确定性：通过数学模型分
遥感技术在地质构造及找矿中应用 BNU_JW
摘要利用Landsat－8卫星的ETM+遥感影像为数据源，结合当地区域地质调查基础资料，对中国西北某高原地区内线性断裂、环形构造、侵入岩体、赋矿地层等地质构造的成矿特征开展遥感解译，综合运用数理统计原理与地统计学分析方法，分析遥感解译的地质构造信息与矿产勘查的相关性，总结了区内解译构造与成矿关系条件。1、区域地质构造概况工作区位于我国西部核心构造部位的青藏高原北缘，北邻塔里木盆地，南接柴达木盆地，
R语言的分位数回归实践技术高级应用梦想的初衷~ R语言生态农业 r语言回归
回归是科研中最常见的统计学研究方法之一，在研究变量间关系方面有着极其广泛的应用。由于其基本假设的限制，包括线性回归及广义线性回归在内的各种常见的回归方法都有三个重大缺陷：(1)对于异常值非常敏感，极少量的异常值可能导致结果产生巨大的误差；(2)对数据的分布有着较为苛刻的要求，如果数据不符合指定的分布，结果同样是不可信的；(3)只能估计因变量的条件均值，不能估计自变量对因变量分位点的不同影响。分位数
数据科学的统计学（一）绝不原创的飞龙默认分类默认分类
原文：annas-archive.org/md5/c1775cf5add79c3a9b0f4e83a2b2229d译者：飞龙协议：CCBY-NC-SA4.0前言统计学是数据科学领域任何任务的绝对必要先决条件，但对于进入数据科学领域的开发人员来说，可能也是最令人生畏的障碍。本书将带你踏上从几乎一无所知到能够熟练使用各种统计方法处理典型数据科学任务的统计之旅。本书所需的内容本书适合那些有数据开发背景的
概率论基础：公理、定律与贝叶斯定理偏偏无理取闹概率论公理贝叶斯定理条件概率随机变量
背景简介概率论是数学的一个分支，主要研究随机事件和随机变量的概率。它是现代统计学、经济学、保险学、金融学、密码学等多个领域不可或缺的理论基础。本文将通过介绍概率论的三大公理，推导出重要的概率法则，并探讨贝叶斯定理及其应用。概率的三大公理概率论的基础在于一套明确的公理系统，这些公理为计算和理解概率提供了数学上的框架。公理1：概率值的范围每个事件A的概率值介于0和1之间，即0≤Pr[A]≤1。这意味着
R语言基本操作易易前端 R语言基础实践 r语言开发语言
R语言基本操作为什么选择R？丰富的资源涵盖了多种行业数据分析中几乎所有的方法；良好的扩展性十分方便的编写函数和程序包，跨平台，可以胜任复杂的数据分析、绘制精美的图形；完备的帮助系统每个函数都有统一格式的帮助，运行实例；GNU软件免费、软件本身及程序包的源代码公开；R的特点：多领域的统计资源目前在R网站上约有4000个程序包，涵盖了基础统计学、社会学、经济学、生态学、空间分析、系统发育分析、生物信息
机器学习之——认识机器学习 -睡到自然醒~ golang 重构开发语言
首先，什么是机器学习？参照百度百科的讲解，“机器学习是一门多领域交叉学科，设计概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习能力，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。”什么意思呢？也就是说，机器学习是一门跨领域的学科，是一种能够让机器模仿人类学习能力的一种学科。在Andrew的课程中，提到了几个机器学习的定义：1，A
李航老师-统计学习小三爷_df1b
三个准则1.作为入门选手，不要每章都看2.不要从零造轮子去实现算法，太浪费时间3.必须能手推公式章节目录##统计学习概论-统计学习的目的是对数据进行==预测与分析==-统计学习的前提是同类数据具有一定的统计规律性-统计学习的方法-监督学习(supervisedlearning)-非监督学习(unsupervisedlearning)-半监督学习(semi-supervisedlearning)-强
R语言使用glmnet包拟合lasso-cox回归模型（包含生存时间和结果标签）、使用lasso-cox模型进行特征筛选、使用sapply函数对特征数据进行标准化z-score statistics.insight R语言入门课机器学习人工智能 r语言数据挖掘数据分析
R语言使用glmnet包拟合lasso-cox回归模型（包含生存时间和结果标签）、使用lasso-cox模型进行特征筛选、使用sapply函数对特征数据进行标准化z-score目录R语言使用glmnet包拟合lasso-cox回归模型（包含生存时间和结果标签）、使用lasso-cox模型进行特征筛选、使用sapply函数对特征数据进行标准化z-score分类模型（classification）决策
R语言与临床模型预测——LASSO回归，单因素多因素cox，差异表达分析，Venn图，森林图，列线图，矫正曲线，ROC全套代码及解析——第九部分 lasso回归排除具有共线性的基因本专栏可免费答疑楷然教你学生信 r语言机器学习生物信息学数据挖掘 cox回归临床模型预测
1.下载数据2.匹配基因3.基因去重复4.匹配临床数据5.批量cox回归分析6.差异表达基因筛选7.取交集，选出预后相关的差异表达基因8.森林图绘制9.lasso回归进一步排除具有共线性的基因10.验证集验证，数据合并验证11.多因素cox回归建模12.列线图13.矫正曲线14.ROC曲线分析上次筛选了预后相关差异基因，下面我们开始对这些基因进行lasso-cox回归：下面数据准备：这是之前做批量
从0开始学习R语言--Day52--weibull Chef_Chen 学习
在分析带有状态变化特征的数据时（如医疗数据的结局特征，手机电池的寿命等等），我们需要分析得不只是什么时候什么时候出发结局，还要分析特征的稳定性，比如电池的续航在初期不稳定，预测里可能两个月就会坏，但用了一个月后手机稳定下来，预测可能就变成用一年都不会坏。weibull分布能帮我们捕捉这种特征，从而能够做后续的处理（比如维修计划，对病人的结局分析作进一步拆解）。以下是一个例子：#加载必要的包libr
Dom 周华华 JavaScript html
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml&q
【Spark九十六】RDD API之combineByKey bit1129 spark
1. combineByKey函数的运行机制 RDD提供了很多针对元素类型为(K,V)的API，这些API封装在PairRDDFunctions类中，通过Scala隐式转换使用。这些API实现上是借助于combineByKey实现的。combineByKey函数本身也是RDD开放给Spark开发人员使用的API之一首先看一下combineByKey的方法说明：
msyql设置密码报错：ERROR 1372 (HY000): 解决方法详解 daizj mysql 设置密码
MySql给用户设置权限同时指定访问密码时，会提示如下错误： ERROR 1372 (HY000): Password hash should be a 41-digit hexadecimal number；问题原因：你输入的密码是明文。不允许这么输入。解决办法：用select password('你想输入的密码');查询出你的密码对应的字符串，然后
路漫漫其修远兮吾将上下而求索周凡杨学习思索
王国维在他的《人间词话》中曾经概括了为学的三种境界古今之成大事业、大学问者，罔不经过三种之境界。“昨夜西风凋碧树。独上高楼，望尽天涯路。”此第一境界也。“衣带渐宽终不悔，为伊消得人憔悴。”此第二境界也。“众里寻他千百度，蓦然回首，那人却在灯火阑珊处。”此第三境界也。学习技术，这也是你必须经历的三种境界。第一层境界是说，学习的路是漫漫的，你必须做好充分的思想准备，如果半途而废还不如不要开始。这里，注
Hadoop(二)对话单的操作朱辉辉33 hadoop
Debug： 1、 A = LOAD '/user/hue/task.txt' USING PigStorage(' ') AS (col1,col2,col3); DUMP A; //输出结果前几行示例： (>ggsnPDPRecord(21),,) (-->recordType(0),,) (-->networkInitiation(1),,)
web报表工具FineReport常用函数的用法总结（日期和时间函数）老A不折腾 finereport 报表工具 web开发
web报表工具FineReport常用函数的用法总结（日期和时间函数）说明：凡函数中以日期作为参数因子的，其中日期的形式都必须是yy/mm/dd。而且必须用英文环境下双引号(" ")引用。 DATE DATE(year,month,day):返回一个表示某一特定日期的系列数。 Year:代表年，可为一到四位数。 Month:代表月份。
c++ 宏定义中的##操作符墙头上一根草 C++
#与##在宏定义中的--宏展开 #include <stdio.h> #define f(a,b) a##b #define g(a) #a #define h(a) g(a) int main() { &nbs
分析Spring源代码之，DI的实现 aijuans spring DI 现源代码
(转) 分析Spring源代码之，DI的实现 2012/1/3 by tony 接着上次的讲，以下这个sample [java] view plain copy print
for循环的进化 alxw4616 JavaScript
// for循环的进化 // 菜鸟 for (var i = 0; i < Things.length ; i++) { // Things[i] } // 老鸟 for (var i = 0, len = Things.length; i < len; i++) { // Things[i] } // 大师 for (var i = Things.le
网络编程Socket和ServerSocket简单的使用百合不是茶网络编程基础 IP地址端口
网络编程;TCP/IP协议网络:实现计算机之间的信息共享,数据资源的交换协议:数据交换需要遵守的一种协议,按照约定的数据格式等写出去端口:用于计算机之间的通信每运行一个程序，系统会分配一个编号给该程序，作为和外界交换数据的唯一标识 0~65535 查看被使用的
JDK1.5 生产消费者 bijian1013 java thread 生产消费者 java多线程
ArrayBlockingQueue：一个由数组支持的有界阻塞队列。此队列按 FIFO（先进先出）原则对元素进行排序。队列的头部是在队列中存在时间最长的元素。队列的尾部是在队列中存在时间最短的元素。新元素插入到队列的尾部，队列检索操作则是从队列头部开始获得元素。 ArrayBlockingQueue的常用方法：
JAVA版身份证获取性别、出生日期及年龄 bijian1013 java 性别出生日期年龄
工作中需要根据身份证获取性别、出生日期及年龄，且要还要支持15位长度的身份证号码，网上搜索了一下，经过测试好像多少存在点问题，干脆自已写一个。 CertificateNo.java package com.bijian.study; import java.util.Calendar; import
【Java范型六】范型与枚举 bit1129 java
首先，枚举类型的定义不能带有类型参数，所以，不能把枚举类型定义为范型枚举类，例如下面的枚举类定义是有编译错的 public enum EnumGenerics<T> { //编译错，提示枚举不能带有范型参数 OK, ERROR; public <T> T get(T type) { return null;
【Nginx五】Nginx常用日志格式含义 bit1129 nginx
1. log_format 1.1 log_format指令用于指定日志的格式，格式： log_format name(格式名称) type(格式样式) 1.2 如下是一个常用的Nginx日志格式： log_format main '[$time_local]|$request_time|$status|$body_bytes
Lua 语言 15 分钟快速入门 ronin47 lua 基础
- - 单行注释 - - [[ [多行注释] - - ]] - - - - - - - - - - - 1. 变量 & 控制流 - - - - - - - - - - num = 23 - - 数字都是双精度 str = 'aspythonstring'
java-35.求一个矩阵中最大的二维矩阵 ( 元素和最大 ) bylijinnan java
the idea is from: http://blog.csdn.net/zhanxinhang/article/details/6731134 public class MaxSubMatrix { /**see http://blog.csdn.net/zhanxinhang/article/details/6731134 * Q35 求一个矩阵中最大的二维
mongoDB文档型数据库特点开窍的石头 mongoDB文档型数据库特点
MongoDD: 文档型数据库存储的是Bson文档-->json的二进制特点：内部是执行引擎是js解释器，把文档转成Bson结构，在查询时转换成js对象。 mongoDB传统型数据库对比传统类型数据库：结构化数据，定好了表结构后每一个内容符合表结构的。也就是说每一行每一列的数据都是一样的文档型数据库：不用定好数据结构，
[毕业季节]欢迎广大毕业生加入JAVA程序员的行列 comsci java
一年一度的毕业季来临了。。。。。。。。正在投简历的学弟学妹们。。。如果觉得学校推荐的单位和公司不适合自己的兴趣和专业，可以考虑来我们软件行业，做一名职业程序员。。。软件行业的开发工具中，对初学者最友好的就是JAVA语言了，网络上不仅仅有大量的
PHP操作Excel – PHPExcel 基本用法详解 cuiyadll PHP Excel
导出excel属性设置//Include classrequire_once('Classes/PHPExcel.php');require_once('Classes/PHPExcel/Writer/Excel2007.php');$objPHPExcel = new PHPExcel();//Set properties 设置文件属性$objPHPExcel->getProperties
IBM Webshpere MQ Client User Issue (MCAUSER) darrenzhu IBM jms user MQ MCAUSER
IBM MQ JMS Client去连接远端MQ Server的时候，需要提供User和Password吗？答案是根据情况而定，取决于所定义的Channel里面的属性Message channel agent user identifier (MCAUSER)的设置。 http://stackoverflow.com/questions/20209429/how-mca-user-i
网线的接法 dcj3sjt126com
一、PC连HUB (直连线)A端：（标准568B）：白橙，橙，白绿，蓝，白蓝，绿，白棕，棕。 B端：（标准568B）：白橙，橙，白绿，蓝，白蓝，绿，白棕，棕。二、PC连PC （交叉线）A端：(568A)：白绿，绿，白橙，蓝，白蓝，橙，白棕，棕； B端：（标准568B）：白橙，橙，白绿，蓝，白蓝，绿，白棕，棕。三、HUB连HUB&nb
Vimium插件让键盘党像操作Vim一样操作Chrome dcj3sjt126com chrome vim
什么是键盘党？键盘党是指尽可能将所有电脑操作用键盘来完成，而不去动鼠标的人。鼠标应该说是新手们的最爱，很直观，指哪点哪，很听话！不过常常使用电脑的人，如果一直使用鼠标的话，手会发酸，因为操作鼠标的时候，手臂不是在一个自然的状态，臂肌会处于绷紧状态。而使用键盘则双手是放松状态，只有手指在动。而且尽量少的从鼠标移动到键盘来回操作，也省不少事。在chrome里安装 vimium 插件
MongoDB查询（2）——数组查询[六] eksliang mongodb MongoDB查询数组
MongoDB查询数组转载请出自出处：http://eksliang.iteye.com/blog/2177292 一、概述 MongoDB查询数组与查询标量值是一样的，例如，有一个水果列表，如下所示： > db.food.find() { "_id" : "001", "fruits" : [ "苹
cordova读写文件（1） gundumw100 JavaScript Cordova
使用cordova可以很方便的在手机sdcard中读写文件。首先需要安装cordova插件：file 命令为： cordova plugin add org.apache.cordova.file 然后就可以读写文件了，这里我先是写入一个文件，具体的JS代码为： var datas=null;//datas need write var directory=&
HTML5 FormData 进行文件jquery ajax 上传到又拍云 ileson jquery Ajax html5 FormData
html5 新东西：FormData 可以提交二进制数据。页面test.html <!DOCTYPE> <html> <head> <title> formdata file jquery ajax upload</title> </head> <body> <
swift appearanceWhenContainedIn:(version1.2 xcode6.4) 啸笑天 version
swift1.2中没有oc中对应的方法： + (instancetype)appearanceWhenContainedIn:(Class <UIAppearanceContainer>)ContainerClass, ... NS_REQUIRES_NIL_TERMINATION; 解决方法：在swift项目中新建oc类如下： #import &
java实现SMTP邮件服务器 macroli java 编程
电子邮件传递可以由多种协议来实现。目前，在Internet 网上最流行的三种电子邮件协议是SMTP、POP3 和 IMAP，下面分别简单介绍。　　◆ SMTP 协议　　简单邮件传输协议(Simple Mail Transfer Protocol,SMTP)是一个运行在TCP/IP之上的协议，用它发送和接收电子邮件。SMTP 服务器在默认端口25上监听。SMTP客户使用一组简单的、基于文本的
mongodb group by having where 查询sql qiaolevip 每天进步一点点学习永无止境 mongo 纵观千象
SELECT cust_id, SUM(price) as total FROM orders WHERE status = 'A' GROUP BY cust_id HAVING total > 250 db.orders.aggregate( [ { $match: { status: 'A' } }, { $group: {
Struts2 Pojo（六） Luob. POJO strust2
注意：附件中有完整案例 1.采用POJO对象的方法进行赋值和传值 2.web配置 <?xml version="1.0" encoding="UTF-8"?> <web-app version="2.5" xmlns="http://java.sun.com/xml/ns/javaee&q
struts2步骤 wuai struts
1、添加jar包 2、在web.xml中配置过滤器 <filter> <filter-name>struts2</filter-name> <filter-class>org.apache.st

可用于多元正态的参数估计 及 均值向量和协差阵检验 的R语言函数总结