arlionn

R2 分解到每个变量上：相对重要性分析 (Dominance Analysis)

作者：胡雨霄 (伦敦政治经济学院)

Stata 连享会：知乎 | 简书 | 码云 | CSDN

Stata连享会计量专题 || 公众号合集 || 推文集锦

连享会：内生性问题及估计方法专题

本篇推文介绍重要性分析 (Dominance Analysis) 及其 Stata 命令实现 domin。

1. 重要性分析简介

在实证经济学中，一个重要的问题是探究不同的解释变量 (explanatory variable) 对被解释变量 (dependent variable) 的方差的具体贡献程度。

例如，在 叶德珠，黄有光，连玉君 (2014) 的论文中，三位作者试图高清楚哪些文化因素对幸福感的影响更大 (Ye D, Ng Y K, Lian Y. Culture and Happiness[J]. Social Indicators Research, 2015, 123(2):519-547. https://core.ac.uk/download/pdf/81850289.pdf)。显然，各个系数大小是不能被用来直接比较的；对系数进行标准化似乎可行，但却不知道他们的相对重要性。

此外，文献中比较普遍的方法为逐步回归法 (stepwise regression)，即在回归中逐步引入解释变量，以及显著性测试 (significance test)。然而，逐步回归方法中，引入解释变量的顺序是非常主观的。显著性测试也并不总是可以将不同的解释变量按其重要程度排序。基于此，Isareli (2006) 在前人的基础上（主要是 (Shorrocks, 1999) 以及（Fields, 2003））提出了重要性分析 (Dominance Analysis) 的方法。该方法旨在确定线性回归中，不同解释变量对决定系数 $R^2$ 的贡献程度。而事实上，对于决定系数 $R^2$ 的贡献程度也反映了不同解释变量对被解释变量方差的贡献度。

假设线性回归为

$y=a+\sum_{j=1}^{J} b_{j} x_{j}+e \tag{1}$

被解释变量 $y$ 的方差，即总离差平方和 (total sum of squares, TSS), 可以被分解为两部分，回归平方和 (regression sum of squares, RSS) 以及残差平方和 (error sum or squares, ESS)。

$\operatorname{Var}(y)=\operatorname{TSS}=\operatorname{Var}(\hat{y})+\operatorname{Var}(e)=\mathrm{RSS}+\mathrm{ESS} \tag{2}$

其中， $\hat{y}$ 为被解释变量的预测值。

拟合优度 $R^2$ 可以被表示为

$R^{2}=\frac{\operatorname{RSS}}{\mathrm{TSS}}=\frac{\operatorname{Var}(\hat{y})}{\operatorname{Var}(y)}=1-\frac{\operatorname{Var}(e)}{\operatorname{Var}(y)} \tag{3}$

因为 $R^2$ 是重要的模型拟合优度统计量。自然而然，为了分析不同解释变量的相对重要性，研究者会想要分解不同解释变量对 $R^2$ 的贡献程度，并以此判断其相对重要性。

根据 Fields(2003)，被解释变量 $y$ 的方差，即总离差平方和 (total sum of squares, TSS),可分解为

$\operatorname{Var}(y)=\sum_{j=1}^{J} \operatorname{Cov}\left(b_{j} x_{j}, y\right)+\operatorname{Cov}(e, y) \tag{4}$

由此可以得到不同解释变量的相对贡献程度

$R^{2}(y)=\frac{\sum_{j=1}^{J} b_{j} \operatorname{Cov}\left(x_{j}, y\right)}{\operatorname{Var}(y)}=1-\frac{\operatorname{Cov}(e, y)}{\operatorname{Var}(y)} \tag{5}$

事实上，上式与 [3] 式本质相同。但根据 [5] 式，不同解释变量可按照重要程度排序。然而，Fields(2003) 未考虑到不同解释变量之间的相互关系。也就是说，某一变量的系数会与回归中其他的解释变量有关。

与之相反，Shapley(1999) 认为解释变量的贡献应当等同于其对 $R^2$ 的边际效用 (marginal effect)， $M$ 。具体而言，解释变量 $x_k$ 对 $R^2$ 的边际效用可以表示为，

$M_{k}=R^{2}\left[y=a+\sum_{j \in S} b_{j} x_{j}+b_{k} x_{k}+e\right]-R^{2}\left[y=a^{*}+\sum_{j \in S} b_{j}^{*} x_{j}+e^{*}\right] \tag{6}$

其中， $S$ 是不包含变量 k 的其他解释变量。可以看到，该式实则为完整回归的 $R^2$ 减去不包含变量 k 的回归的 $R^2$ 。由于去除一个解释变量后，回归的系数通常会发生改变，因此不包含变量 k 的回归的系数都以 * 表示。

此处，产生一个问题。变量 k 被剔除回归的顺序不同，那么对拟合优度 $R^2$ 的边际效用也会不同。因此，为了解决这个问题，最终对变量 k 的重要程度的判定是对 $J!$ 种不同剔除方式得到结果的平均值。

连享会计量方法专题……

2. Stata 命令 `domin`

2.1 命令下载

ssc install domin

2.2 命令语法

该命令的基本语法如下

domin depvar indepvars [if] [in] [weight], sets((varlist) (varlist) ...)

其中，

depvar ：因变量

indepvars：解释变量

sets((varlist)(varlist)) 设定会将被列入 varlist 的变量视作一个解释变量。例如 sets((x1 x2)(x3 x4)) 表示会创建 2 个变量集合 (set)。其中 set1 由变量 x1 和变量 x2 创立，而 set2 则由变量 x3 和变量 x4 创立。该命令通常由于进行分组分析。

在研究中，通常只会使用到基本命令。但本篇推文也将介绍该命令的进阶语法。

domin depvar [indepvars [if] [in] [weight] , fitstat(scalar)  
sets((varlist)(varlist) ...) noconditional nocomplete epsilon ]

其中，

fitstat(scalar) 规定了用于进行重要性分析的拟合优度统计量。fitstat 允许的 scalar 有 3 种形式：returned, ereturned, 或者其他 scalar。若无特别设定，Stata 则默认为 fitstat(e(r2))。

noconditional 设定不输出 conditional dominance 的结果。

nocomplete 设定不计算 complete dominance 结果。

epsilon 设定可以加快计算速度，输出结果也与未设定 epsilon 的结果类似。但是如果加入该设定之后，无法同时加入 set。

2.3 实证运用: 两变量情形

2.3.1 数据

sysuse "auto.dta", clear

数据结构如下

. list in 1/10

     +-------------------------------------------------------------------------------------------------------------------+
     | make             price   mpg   rep78   headroom   trunk   weight   length   turn   displa~t   gear_r~o    foreign |
     |-------------------------------------------------------------------------------------------------------------------|
  1. | AMC Concord      4,099    22       3        2.5      11    2,930      186     40        121       3.58   Domestic |
  2. | AMC Pacer        4,749    17       3        3.0      11    3,350      173     40        258       2.53   Domestic |
  3. | AMC Spirit       3,799    22       .        3.0      12    2,640      168     35        121       3.08   Domestic |
  4. | Buick Century    4,816    20       3        4.5      16    3,250      196     40        196       2.93   Domestic |
  5. | Buick Electra    7,827    15       4        4.0      20    4,080      222     43        350       2.41   Domestic |
     |-------------------------------------------------------------------------------------------------------------------|
  6. | Buick LeSabre    5,788    18       3        4.0      21    3,670      218     43        231       2.73   Domestic |
  7. | Buick Opel       4,453    26       .        3.0      10    2,230      170     34        304       2.87   Domestic |
  8. | Buick Regal      5,189    20       3        2.0      16    3,280      200     42        196       2.93   Domestic |
  9. | Buick Riviera   10,372    16       3        3.5      17    3,880      207     43        231       2.93   Domestic |
 10. | Buick Skylark    4,082    19       3        3.5      13    3,400      200     42        231       3.08   Domestic |
     +-------------------------------------------------------------------------------------------------------------------+

2.3.2 回归

通过 reg 命令进行回归后，可以发现解释变量 weight 和解释变量 length 都与被解释变量 price 显著相关。

. reg price weight length 

      Source |       SS           df       MS      Number of obs   =        74
-------------+----------------------------------   F(2, 71)        =     18.91
       Model |   220725280         2   110362640   Prob > F        =    0.0000
    Residual |   414340116        71  5835776.28   R-squared       =    0.3476
-------------+----------------------------------   Adj R-squared   =    0.3292
       Total |   635065396        73  8699525.97   Root MSE        =    2415.7

------------------------------------------------------------------------------
       price |      Coef.   Std. Err.      t    P>|t|     [95% Conf. Interval]
-------------+----------------------------------------------------------------
      weight |   4.699065   1.122339     4.19   0.000     2.461184    6.936946
      length |  -97.96031    39.1746    -2.50   0.015    -176.0722   -19.84838
       _cons |   10386.54   4308.159     2.41   0.019     1796.316    18976.76
------------------------------------------------------------------------------

2.3.3 相对重要性分析

运行 domin 命令后，结果如下所示。

我们可以发现，Overall Fit Statistic 的数值与运行 reg命令后的 R-squared 数值相同。这是因为 domin 命令默认的拟合优度统计量即为 R-squared.

.    domin price weight length 

Total of 3 regressions

General dominance statistics: Linear regression
Number of obs             =                      74
Overall Fit Statistic     =                  0.3476

            |      Dominance      Standardized      Ranking
 price      |      Stat.          Domin. Stat.
------------+------------------------------------------------------------------------
 weight     |         0.2256      0.6491            1 
 length     |         0.1220      0.3509            2 
-------------------------------------------------------------------------------------

变量 weight 的贡献度为 0.2256，也可以解释为该变量对拟合优度 $R^2$ 的边际贡献为0.2256。
变量 length 的贡献度为 0.1220，也可以解释为该变量对拟合优度 $R^2$ 的边际贡献为 0.1220。
在该线性回归中，变量 weight 相对于变量 length 更加重要，对被解释变量 price 的方差的变化的解释力度更强。

接下来，我们利用 Stata 来验证 Dominance Stat. 是如何得出的，同时将上述的数学公式进行运用。

在这个实证的例子中，我们只引入了两个解释变量。线性回归方程可表示为

$y=a+b_{1} x_{1}+b_{2} x_{2}+e$

代入 [6] 式，

$C_{1}=\frac{1}{2}\left[R^{2}\left(a+b_{1} x_{1}+b_{2} x_{2}+e\right)-R^{2}\left(a^{*}+b_{2}^{*} x_{2}+e^{*}\right)+R^{2}\left(a^{* *}+b_{1}^{* *} x_{1}+e^{* *}\right)\right] \tag{7}$

$C_{2}=\frac{1}{2}\left[R^{2}\left(a+b_{1} x_{1}+b_{2} x_{2}+e\right)-R^{2}\left(a^{* *}+b_{1}^{* *} x_{1}+e^{* *}\right)+R^{2}\left(a^{*}+b_{2}^{*} x_{2}+e^{*}\right)\right] \tag{8}$

Stata 实现过程如下：

. rename (price weight length) (y x1 x2) // 为了与数学公式一致
. 
. /*第一种剔除方法*/
. 
. **回归1：完整回归
. qui reg y x1 x2 
. 
. local R2_all = e(r2) //记录完整回归的R-squared
. 
. **回归2：剔除变量x1
. qui reg y x2
. local R2_x2 = e(r2) //记录回归2的R-squared
. 
. **第一种剔除方法得到的边际贡献
. local R2_m1_x1 = `R2_all'-`R2_x2'
. 
. /*第二种剔除方法*/
. 
. **回归1b:不包含x2的回归
. qui reg y x1 //回归1b
. 
. local R2_x1 = e(r2) //记录回归1b的R-squared
. 
. **回归1b:不包含x2和x1的回归
. qui reg y  //回归2b
. 
. local R2_0 = e(r2) //记录回归2b的R-squared
. 
. **第二种剔除方法得到的边际贡献
. local R2_m2_x1 = `R2_x1'-`R2_0'
. 
. /*Dominance Stat.*/
. 
. **[7]式
. local R2_x1_Sharp = (`R2_m1_x1'+`R2_m2_x1')/2

. dis "Shapley value of weight = " in g %6.4f `R2_x1_Sharp'
Shapley value of weight = 0.2256

2.4 实证运用: 多变量情形

2.4.1 数据

sysuse "nlsw88.dta", clear

数据结构如下

. list wage age hours tenure married in 1/10

     +---------------------------------------------+
     |     wage   age   hours     tenure   married |
     |---------------------------------------------|
  1. | 11.73913    37      48   5.333333    single |
  2. | 6.400963    37      40       5.25    single |
  3. | 5.016723    42      40       1.25    single |
  4. | 9.033813    43      42       1.75   married |
  5. | 8.083731    42      48      17.75   married |
     |---------------------------------------------|
  6. |  4.62963    39      30       2.25   married |
  7. | 10.49114    37      40         19    single |
  8. | 17.20612    40      45   14.16667   married |
  9. | 13.08374    40       8        5.5   married |
 10. | 7.745568    40      50       2.25   married |
     +---------------------------------------------+

2.4.2 回归

通过 reg 命令进行回归后，可以发现解释变量 age 在 5% 水平上显著与被解释变量 wage 相关。解释变量 hours 以及解释变量 tenure都与被解释变量 wage 在 1% 水平上显著相关。而解释变量 married 与被解释变量不显著相关。

. reg wage age hours tenure married

      Source |       SS           df       MS      Number of obs   =     2,227
-------------+----------------------------------   F(4, 2222)      =     29.94
       Model |   3784.9833         4  946.245825   Prob > F        =    0.0000
    Residual |  70235.8273     2,222  31.6092832   R-squared       =    0.0511
-------------+----------------------------------   Adj R-squared   =    0.0494
       Total |  74020.8106     2,226  33.2528349   Root MSE        =    5.6222

------------------------------------------------------------------------------
        wage |      Coef.   Std. Err.      t    P>|t|     [95% Conf. Interval]
-------------+----------------------------------------------------------------
         age |  -.0844975   .0390588    -2.16   0.031    -.1610931    -.007902
       hours |   .0711019   .0116507     6.10   0.000     .0482545    .0939493
      tenure |   .1665189   .0219824     7.58   0.000     .1234107    .2096272
     married |  -.2209223   .2514333    -0.88   0.380    -.7139911    .2721464
       _cons |   7.606344   1.617926     4.70   0.000     4.433539    10.77915
------------------------------------------------------------------------------

2.4.3 相对重要性分析

运行 domin 命令后，结果如下所示。我们可以发现

. domin wage age hours tenure married
Regression type not entered in reg(). 
reg(regress) assumed.

Fitstat type not entered in fitstat(). 
fitstat(e(r2)) assumed.


Total of 15 regressions

General dominance statistics: Linear regression
Number of obs             =                    2227
Overall Fit Statistic     =                  0.0511

            |      Dominance      Standardized      Ranking
 wage       |      Stat.          Domin. Stat.
------------+------------------------------------------------------------------------
 age        |         0.0017      0.0331            3 
 hours      |         0.0205      0.4010            2 
 tenure     |         0.0279      0.5461            1 
 married    |         0.0010      0.0198            4 
-------------------------------------------------------------------------------------

在该线性回归中，各个变量的相对重要性排序为：tenure > hours > age > married。也就是说，在工资水平 (wage) 的影响因素中，获得职位的年限 (tenure）是最重要的影响因素，其次是工作时长 (hours), 再次是年龄 (age)，最后是已婚状态 (married)。

连享会计量方法专题……

2.4.4 相对重要性分析（分组情形）

变量 occupation，industry 和 race 均为分组变量。 domin 命令中的 sets() 设定可以很好得处理分组变量，并在处理中将 set1，set2，set3 分别视作由 occupation ，industry 和 race产生的三个解释变量。

. domin wage age hours tenure married, sets((i.occupation) (i.industry) (i.race))

Total of 127 regressions

General dominance statistics: Linear regression
Number of obs             =                    2209
Overall Fit Statistic     =                  0.1990

            |      Dominance      Standardized      Ranking
 wage       |      Stat.          Domin. Stat.
------------+------------------------------------------------------------------------
 age        |         0.0013      0.0067            7 
 hours      |         0.0114      0.0572            4 
 tenure     |         0.0181      0.0908            3 
 married    |         0.0022      0.0111            6 
 set1       |         0.1133      0.5692            1 
 set2       |         0.0472      0.2374            2 
 set3       |         0.0055      0.0276            5 
-------------------------------------------------------------------------------------

在引入不同的 set 之后，在该线性回归中，各个变量的相对重要性排序为 set1 > set2 > tenure > hours > set3 > married > age。我们可以看到，相对重要性排序相较之前发生了变化。具体而言，在工资水平 (wage) 的影响因素中，职业的选择（occupation）是最重要的，其次是所在的行业（industry），再次为获得职位的年限 (tenure），之后为工作时长 (hours)，种族（race），已婚状态 (married)，最后为年龄 (age)。

参考文献

[1] Fields, G. S. (2003). Accounting for income inequality and its change: A new method, with application to the distribution of earnings in the United States. In Worker well-being and public policy (pp. 1-38). Emerald Group Publishing Limited. [PDF]

[2] Israeli, O. (2007). A Shapley-based decomposition of the R-square of a linear regression. The Journal of Economic Inequality, 5(2), 199-212. [PDF]

[3] Shorrocks, A.F.: Decomposition Procedures for Distributional Analysis: A Unified Framework Based on the Shapley Value (mimeo). University of Essex (1999)

[4] Shorrocks, A. F. (2012). Decomposition procedures for distributional analysis: a unified framework based on the Shapley value. The Journal of Economic Inequality, 11(1), 99–126. doi:10.1007/s10888-011-9214-z. [PDF]，[PDF2]

[5] Ye D, Ng Y K, Lian Y. Culture and Happiness[J]. Social Indicators Research, 2015, 123(2):519-547. Note： 这篇文章对本文介绍的内容进行了细致的说明和应用。[PDF]

连享会计量方法专题……

关于我们

「Stata 连享会」 由中山大学连玉君老师团队创办，定期分享实证分析经验，公众号：StataChina。
公众号推文同步发布于 CSDN 、简书和知乎Stata专栏。可在百度中搜索关键词「Stata连享会」查看往期推文。
点击推文底部【阅读原文】可以查看推文中的链接并下载相关资料。
欢迎赐稿： 欢迎赐稿。录用稿件达三篇以上，即可免费获得一期 Stata 现场培训资格。
E-mail： [email protected]
往期推文：计量专题 || 精品课程 || 简书推文 || 公众号合集

R语言与临床模型预测——LASSO回归，单因素多因素cox，差异表达分析，Venn图，森林图，列线图，矫正曲线，ROC全套代码及解析——第九部分 lasso回归排除具有共线性的基因本专栏可免费答疑楷然教你学生信 r语言机器学习生物信息学数据挖掘 cox回归临床模型预测
1.下载数据2.匹配基因3.基因去重复4.匹配临床数据5.批量cox回归分析6.差异表达基因筛选7.取交集，选出预后相关的差异表达基因8.森林图绘制9.lasso回归进一步排除具有共线性的基因10.验证集验证，数据合并验证11.多因素cox回归建模12.列线图13.矫正曲线14.ROC曲线分析上次筛选了预后相关差异基因，下面我们开始对这些基因进行lasso-cox回归：下面数据准备：这是之前做批量
支持向量机SVM 李昊哲小课 sklearn 人工智能机器学习支持向量机算法机器学习 sklearn 人工智能数据挖掘
支持向量机SVM一、支持向量机算法支持向量机（SupportVectorMachine，SVM）是一种用于分类和回归分析的机器学习算法。分类场景举例（更容易理解）假设现在有一个二维平面上散落着一些点，这些点分为两类，一类是红色的圆形点，另一类是蓝色的方形点。我们的任务就是找到一条直线，能够把这两类点尽可能准确地分开。支持向量机算法做的事情就和这个类似。算法核心思想它不是随便找一条能分开两类数据的直
一元线性回归模型与最小二乘法 liuzx32
监督学习中，如果预测的变量是离散的，我们称其为分类（如决策树，支持向量机等），如果预测的变量是连续的，我们称其为回归。回归分析中，如果只包括一个自变量和一个因变量，且二者的关系可用一条直线近似表示，这种回归分析称为一元线性回归分析。如果回归分析中包括两个或两个以上的自变量，且因变量和自变量之间是线性关系，则称为多元线性回归分析。对于二维空间线性是一条直线；对于三维空间线性是一个平面，对于多维空间线
支持向量回归（Support Vector Regression, SVR）详解 DuHz 回归数据挖掘人工智能信号处理算法数学建模机器学习
支持向量回归（SupportVectorRegression,SVR）详解支持向量回归（SupportVectorRegression，简称SVR）是一种基于支持向量机（SVM）的回归分析方法，广泛应用于预测和模式识别领域。SVR通过在高维空间中寻找一个最优超平面，以最大化数据点与超平面的间隔，从而实现对连续型变量的预测。本文将深入探讨SVR的理论基础、数学原理、模型构建、参数选择、训练与优化、应
2023-01-05 图灵基因
Nature|重新优化突变负荷指导免疫治疗决策原创三千图灵基因2023-01-0509:55发表于江苏收录于合集#前沿分子生物学机制撰文：三千IF=69.504推荐度：⭐⭐⭐⭐⭐亮点：通过与肿瘤/非肿瘤组织配对测序结果对比发现，因为不正确地将胚系突变指定为肿瘤突变，仅肿瘤组织测序分析大大高估了TMB，特别是非欧洲血统的患者。基于回归分析，提出了一种以遗传特异性的方式重新校准肿瘤检测组的TMB值的方
机器学习笔记二-回归
回归是统计学和机器学习中的一种基本方法，用于建模变量之间的关系，特别是用一个或多个自变量（输入变量）来预测一个因变量（输出变量）的值。回归分析广泛应用于预测、趋势分析和关联研究中。根据目标和数据的性质，可以使用不同类型的回归方法。1.回归的基本概念：自变量（IndependentVariable）:也称为预测变量、解释变量，是模型中的输入变量，用于预测或解释因变量的变化。因变量（Dependent
【Statsmodels和SciPy介绍与常用方法】机器学习司猫白 scipy statsmodels 统计
Statsmodels库介绍与常用方法Statsmodels是一个强大的Python库，专注于统计建模和数据分析，广泛应用于经济学、金融、生物统计等领域。它提供了丰富的统计模型、假设检验和数据探索工具，适合进行回归分析、时间序列分析等任务。本文将介绍Statsmodels的核心功能，并通过代码示例展示其常用方法。Statsmodels简介Statsmodels建立在NumPy和SciPy的基础上，
医咖会免费STATA教程学习笔记——单因素方差分析 Unacandoit stata 单因素方差分析
单因素方差分析和单因素回归分析相同1.单因素方差分析需要满足的假设：（1）因变量为连续变量（2）至少有一个分类变量（大于等于2类）（3）观测值相互独立（4）没有异常值（5）服从正态分布（6）方差齐性2.准备工作（1）导入数据集：webusesystolic,clear（2）检验是否存在异常值：方法一：图形——箱线图——在变量中选择systolic——确定方法二：grahboxsystolic,ov
逻辑回归详解：从原理到实践
在机器学习的广阔领域中，逻辑回归（LogisticRegression）虽名为“回归”，实则是一种用于解决二分类（0或1）问题的有监督学习算法。它凭借简单易懂的原理、高效的计算性能以及出色的解释性，在数据科学、医学诊断、金融风控等诸多领域中得到了广泛应用。接下来，我们将从多个维度深入剖析逻辑回归，带你揭开它的神秘面纱。一、逻辑回归的基本概念在回归分析中，线性回归是通过构建线性方程来预测连续值，例如
R语言学习笔记之十
摘要:仅用于记录R语言学习过程：内容提要：描述性统计；t检验；数据转换；方差分析；卡方检验；回归分析与模型诊断；生存分析；COX回归写在正文前的话，关于基础知识，此篇为终结篇，笔记来自医学方的课程，仅用于学习R的过程。正文：描述性统计n如何去生成table1用table()函数，快速汇总频数u生成四格表：table(行名，列名)>table(tips$sex,tips$smoker)NoYesFe
r语言回归分析分类变量_R语言下的PSM分析分类变量处理与分析步骤 weixin_39715834 r语言回归分析分类变量 r语言清除变量
最近学习了PSM，我选择了用R去跑PSM，在这过程中遇到了许多问题，最后也都一一解决了，写下这个也是希望大家在遇到相同问题的时候能够得到帮助和启发，别的应该不会遇到太难的问题了哈哈。最近我也没做什么，录数据，或者说还在调整心态，最近遇到的事情也比较多，又或者说最近的心态比较乱，晚上也睡不好导致白天也比较烦躁，所以可能还是需要一段时间去好好调整，因此最近更新的也比较慢。不过还是会坚持的。问题阐述：1
MATLAB算法实战应用案例精讲-【数模应用】主效应&交互效应&单独效应林聪木 matlab 算法开发语言
目录前言几个相关概念因素和水平主效应单纯主效应交互作用效应或影响（effect）因素之间的相互制约和影响两因素交互作用三因素及多因素交互作用几个高频面试题目什么是主效应,交互效应,单独效应？回归分析中是必须加入控制变量的吗？如果假如控制变量之后，显著性不高了该怎么办？控制变量说明控制变量选择控制变量处理主效应和交互效应的联系与区别如何依据主效应和交互效应描述结果？算法原理数学模型主效应二分变量交互
最小二乘法 superdont 计算机视觉入门最小二乘法算法机器学习 matlab 矩阵人工智能计算机视觉
最小二乘法（LeastSquaresMethod）是一种数学优化技术，它通过最小化误差的平方和寻找数据的最佳函数匹配。具体来说，它可以用于线性回归分析，即找到一条最佳拟合直线（或更一般的曲线或面），使得实际观察数据点到这条直线（或曲线/面）的垂直距离（也就是误差）的平方和达到最小。在数学表示上，如果有一组观测数据集((x_i,y_i))，其中(i=1,2,…,n)，最小二乘法旨在找到一个模型(y=
最小二乘法算法（个人总结版）爱吃辣椒的年糕算法使用深度学习算法人工智能 fpga开发信息与通信最小二乘法随笔
最小二乘法（LeastSquaresMethod）是一种通过最小化误差平方和来拟合数据的回归分析方法。它被广泛应用于线性回归、多元回归以及其他数据拟合问题中。以下是详细的教程，涵盖基本概念、数学推导、具体步骤和实现代码。1.最小二乘法基本概念最小二乘法是一种用于数据拟合的统计方法，通过最小化观测数据与模型预测值之间的误差平方和，求解模型参数。2.线性回归的最小二乘法线性回归是最简单的最小二乘法应用
SAS实验04 ——回归分析 jingmingx1 SAS操作分享 sas 数据分析
实验04回归分析一、实验目的通过实验进行对回归分析的学习，并有效掌握回归分析数据样本的解读和整理并从SAS输出结果中得到相关结论二、实验内容①我近些日子复习英语单词的个数和每天的单词学习时间之间的关系做一元线性回归分析②我近些日子每日学习单词时间与复习/学习单词两个变量之间的关系做二元线性回归分析③对四种不同化学物质对水泥放热的影响做逐步回归④在光电比色计上测定每升溶液中叶绿素的毫克数（x，mg/
数据挖掘是什么？数据挖掘技术有哪些？ Leo.yuan 数据数据挖掘人工智能大数据数据库数据分析
目录一、数据挖掘是什么二、常见的数据挖掘技术1.关联规则挖掘2.分类算法3.聚类分析4.回归分析三、数据挖掘的应用领域1.商业领域2.医疗领域3.金融领域4.其他领域四、数据挖掘面临的挑战和未来趋势1.面临的挑战2.未来趋势五、总结数据挖掘在当今时代的重要性日益凸显，它能从海量的数据中发现有价值的信息。下面我将为大家详细介绍数据挖掘是什么，以及常见的数据挖掘技术有哪些。本文核心观点如下：数据挖掘是
2篇7章6节：弹性网（Elastic Net）回归的原理和应用场景，并用R进行代码演示 R科学与人工智能用R探索医药数据科学回归 r语言数据挖掘 Lasso回归人工智能变量选择机器学习
在统计建模和机器学习中，回归分析是一项基础而重要的技术。我们经常使用线性回归模型来探索变量之间的关系、预测未知数据。然而，传统线性回归在处理多重共线性（也称为变量高度相关）或高维数据时，往往会遇到严重的性能问题，比如模型过拟合、解释力下降等。为了解决这些问题，学者们提出了多种“正则化”（regularization）方法，其中最知名的有两种：Lasso回归和岭回归。本文将介绍它们的“融合升级版”—
logistic回归分析python_【Python算法】分类与预测——logistic回归分析 weixin_39532699
1.logistic回归定义logistic回归是一种广义线性回归(generalizedlinearmodel)，因此与多重线性回归分析有很多相同之处。它们的模型形式基本上相同，都具有w‘x+b，其中w和b是待求参数，其区别在于他们的因变量不同，多重线性回归直接将w‘x+b作为因变量，即y=w‘x+b，而logistic回归则通过函数L将w‘x+b对应一个隐状态p，p=L(w‘x+b),然后根据
方差分析表和回归分析表的那些浆糊糊 Angel Q. 线性回归方差分析回归分析概率论
先上表！我们来看一些基本的名词：（公式编辑还在学x的均值一直打不出来有会的还请评论区教教我）1.1方差分析表其中：k—因素总体的个数；n—观测值个数SSA(组间离差平方和)是：个水平组均值与总体均值离差的平方和；反映了控制变量不同水平对观测变量的影响SSE(组内离差平方和)是：每个观测数据与本水平组均值离差的平方和；反映了抽样误差的大小SST(总离差平方和)是：SSA+SSE1.2回归分析表直观来
简述相关与回归分析的关系_相关分析与回归分析的联系与区别白尼桑塔纳简述相关与回归分析的关系
相关分析与回归分析都是统计上研究变量之间关系的常用办法。他们都可以断定两组变量具有统计相关性。相关分析中两组变量的地位是平等的，而回归分析两个变量位置一般不能互换。相关分析与回归分析的关系这两种分析是统计上研究变量之间关系的常用办法。相同点：他们都可以断定两组变量具有统计相关性。不同点：相关分析中两组变量的地位是平等的，不能说一个是因，另外一个是果。或者他们只是跟另外第三个变量存在因果关系。而回归
R语言学习--Day01--数据清洗初了解andR的经典筛选语法 Chef_Chen 学习
当我们在拿到一份数据时，是否遇到过想要分析数据却无从下手？通过编程语言去利用它时发现有很多报错不是来源于代码而是因为数据里有很多脏数据；在这个时候，如果你会用R语言来对数据进行清洗，这会让你的效率提升很多。R语言的典型使用场景统计分析执行假设检验（t检验、卡方检验）、回归分析、方差分析等优势：内置stats包提供100+统计函数，如lm(),aov()数据可视化绘制统计图表（散点图、箱线图、热力图
回归分析结果 weixin_39335709 数据挖掘
模型摘要模型RR方调整后R方标准估算的误差更改统计R方变化量F变化量自由度1自由度2显著性F变化量10.060a0.0040.0007.1190.0041.047411470.38220.265b0.0700.0536.9290.0664.7511711300.000a.预测变量：(常量),@是否早产：1是，0否,最终分娩方式2分类：顺产和产钳归属阴道分娩为0，剖宫产为1,@是否低出生体重：是1，
基于深度学习的NBA赛事分析与预测系统（开题报告） shejizuopin 深度学习人工智能基于深度学习的 NBA赛事分析与预测系统文献开题报告
本科毕业论文（设计）开题报告学生姓名开题报告日期指导教师姓名指导教师职称毕业论文题目基于深度学习的NBA赛事分析与预测系统开题报告内容1.选题背景和意义在信息化与智能化快速发展的今天，体育赛事的数据分析与预测已成为评估球队实力和吸引观众关注的重要手段。NBA作为全球最具影响力的篮球联赛之一，其赛事数据具有极高的分析价值。然而，传统的数据分析方法往往局限于统计描述和简单的回归分析，难以深入挖掘数据中
python 数据分析概述 weixin_30530523 python java 人工智能
一、数据分析概念：广义的数据分析包括狭义数据分析和数据挖掘。①狭义的数据分析是指根据分析目的，采用对比分析、分组分析、交叉分析和回归分析等分析方法，对收集的数据进行处理与分析，提取有价值的信息，发挥数据的作用，得到一个特征统计量结果的过程。②数据挖掘则是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中，通过应用聚类模型、分类模型、回归和关联规则等技术，挖掘潜在价值的过程。二、数据分析流程
机器学习——自动化机器学习（AutoML）六点半571 机器学习自动化人工智能
机器学习——自动化机器学习（AutoML）自动化机器学习（AutoML）——2024年的新趋势什么是AutoML？AutoML的关键组成部分AutoML的优势AutoML实例：使用Auto-sklearn进行回归分析AutoML的应用领域2024年值得关注的AutoML工具持续发展的趋势自动化机器学习（AutoML）——让机器学习更高效到底何为AutoML？AutoML的高级优势使用AutoML的
量化交易之数学与统计学基础2.3——线性代数与矩阵运算 | 线性方程组灏瀚星空回归最小二乘法数据挖掘 python 笔记开源信息可视化
量化交易之数学与统计学基础2.3——线性代数与矩阵运算|线性方程组第二部分：线性代数与矩阵运算第3节：线性方程组：多因子模型中的回归分析与最小二乘法求解一、引言在量化投资领域，多因子模型是解析资产收益率的核心工具之一。其核心假设是资产收益率由多个因子的线性组合驱动，而最小二乘法（OLS）作为求解线性回归参数的经典方法，为因子系数估计提供了理论支撑和实践工具。本文将深入解析多因子模型的线性方程组构建
概率预测之NGBoost（Natural Gradient Boosting）回归和分位数（Quantile Regression）回归人工都不智能了 boosting 回归 kotlin
概率预测之NGBoost（NaturalGradientBoosting）回归和线性分位数回归NGBoostNGBoost超参数解释NGBoost.fitscore(X,Y)staged_predict(X)feature_importances_pred_dist方法来获取概率分布对象分位数回归（QuantileRegression）smf.quantreg对多变量数据进行分位数回归分析概率预测
最最最详细的梯度下降与代价函数，公式理解+可视化~ 被人偷偷卷不行机器学习线性回归 python 回归 numpy
文章目录前言一、线性回归二、代价函数与梯度下降1.代价函数2.梯度下降代码与可视化~总结前言本文将对线性回归中的代价函数，梯度下降公式及其可视化进行研究，让我们一起入门机器学习叭~一、线性回归利用数理统计中回归分析，来确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法通俗来讲，就是用一条最适合的一次函数（如y=wx+b）去拟合现有的数据，并用这条直线去预测某一个x值对应的y值。例如：3r
【数据分析】基于 R 语言的水采集数据空间分析：一阶差分回归与固定效应建模指南生信学习者1 数据分析数据分析 r语言回归数据挖掘
禁止商业或二改转载，仅供自学使用，侵权必究，如需截取部分内容请后台联系作者!文章目录介绍加载R包数据下载设置参数确定输出文件名导入数据定义函数数据子集划分缩放降水量变量生成虚拟变量运行批量线性回归保存结果总结系统信息介绍在空间数据分析领域，探究不同因素对目标变量的影响至关重要。本教程围绕水采集数据，详细介绍如何使用R语言进行空间一阶差分回归分析，挖掘气候变量与水采集相关指标间的潜在关系。教程开篇便
floyd matlab 无向图最短路径数学建模_在数学建模中常用的方法李培智 floyd matlab 无向图最短路径数学建模
在数学建模中常用的方法：类比法、二分法、量纲分析法、差分法、变分法、图论法、层次分析法、数据拟合法、回归分析法、数学规划（线性规划，非线性规划，整数规划，动态规划，目标规划）、机理分析、排队方法、对策方法、决策方法、模糊评判方法、时间序列方法、灰色理论方法、现代优化算法（禁忌搜索算法，模拟退火算法，遗传算法，神经网络）。用这些方法可以解下列一些模型：优化模型、微分方程模型、统计模型、概率模型、图论
redis学习笔记——不仅仅是存取数据 Everyday都不同 returnSource expire/del incr/lpush 数据库分区 redis
最近项目中用到比较多redis，感觉之前对它一直局限于get/set数据的层面。其实作为一个强大的NoSql数据库产品，如果好好利用它，会带来很多意想不到的效果。（因为我搞java，所以就从jedis的角度来补充一点东西吧。PS：不一定全，只是个人理解，不喜勿喷） 1、关于JedisPool.returnSource(Jedis jeids) 这个方法是从red
SQL性能优化-持续更新中。。。。。。 atongyeye oracle sql
1 通过ROWID访问表--索引你可以采用基于ROWID的访问方式情况,提高访问表的效率, , ROWID包含了表中记录的物理位置信息..ORACLE采用索引(INDEX)实现了数据和存放数据的物理位置(ROWID)之间的联系. 通常索引提供了快速访问ROWID的方法,因此那些基于索引列的查询就可以得到性能上的提高. 2 共享SQL语句--相同的sql放入缓存 3 选择最有效率的表
[JAVA语言]JAVA虚拟机对底层硬件的操控还不完善 comsci JAVA虚拟机
如果我们用汇编语言编写一个直接读写CPU寄存器的代码段，然后利用这个代码段去控制被操作系统屏蔽的硬件资源，这对于JVM虚拟机显然是不合法的，对操作系统来讲，这样也是不合法的，但是如果是一个工程项目的确需要这样做，合同已经签了，我们又不能够这样做，怎么办呢？那么一个精通汇编语言的那种X客，是否在这个时候就会发生某种至关重要的作用呢？ &n
lvs- real 男人50 LVS
#!/bin/bash # # Script to start LVS DR real server. # description: LVS DR real server # #. /etc/rc.d/init.d/functions VIP=10.10.6.252 host='/bin/hostname' case "$1" in sta
生成公钥和私钥 oloz DSA 安全加密
package com.msserver.core.util; import java.security.KeyPair; import java.security.PrivateKey; import java.security.PublicKey; import java.security.SecureRandom; public class SecurityUtil {
UIView 中加入的cocos2d，背景透明 374016526 cocos2d glClearColor
要点是首先pixelFormat:kEAGLColorFormatRGBA8，必须有alpha层才能透明。然后view设置为透明glView.opaque = NO;[director setOpenGLView:glView];[self.viewController.view setBackgroundColor:[UIColor clearColor]];[self.viewControll
mysql常用命令香水浓 mysql
连接数据库 mysql -u troy -ptroy 备份表 mysqldump -u troy -ptroy mm_database mm_user_tbl > user.sql 恢复表（与恢复数据库命令相同） mysql -u troy -ptroy mm_database < user.sql 备份数据库 mysqldump -u troy -ptroy
我的架构经验系列文章 - 后端架构 - 系统层面 agevs JavaScript jquery css html5
系统层面：高可用性所谓高可用性也就是通过避免单独故障加上快速故障转移实现一旦某台物理服务器出现故障能实现故障快速恢复。一般来说，可以采用两种方式，如果可以做业务可以做负载均衡则通过负载均衡实现集群，然后针对每一台服务器进行监控，一旦发生故障则从集群中移除；如果业务只能有单点入口那么可以通过实现Standby机加上虚拟IP机制，实现Active机在出现故障之后虚拟IP转移到Standby的快速
利用ant进行远程tomcat部署 aijuans tomcat
在javaEE项目中，需要将工程部署到远程服务器上，如果部署的频率比较高，手动部署的方式就比较麻烦，可以利用Ant工具实现快捷的部署。这篇博文详细介绍了ant配置的步骤（http://www.cnblogs.com/GloriousOnion/archive/2012/12/18/2822817.html），但是在tomcat7以上不适用，需要修改配置，具体如下： 1.配置tomcat的用户角色
获取复利总收入 baalwolf 获取
public static void main(String args[]){ int money=200; int year=1; double rate=0.1; &
eclipse.ini解释 BigBird2012 eclipse
大多数java开发者使用的都是eclipse，今天感兴趣去eclipse官网搜了一下eclipse.ini的配置，供大家参考，我会把关键的部分给大家用中文解释一下。还是推荐有问题不会直接搜谷歌，看官方文档，这样我们会知道问题的真面目是什么，对问题也有一个全面清晰的认识。 Overview 1、Eclipse.ini的作用 Eclipse startup is controlled by th
AngularJS实现分页功能 bijian1013 JavaScript AngularJS 分页
对于大多数web应用来说显示项目列表是一种很常见的任务。通常情况下，我们的数据会比较多，无法很好地显示在单个页面中。在这种情况下，我们需要把数据以页的方式来展示，同时带有转到上一页和下一页的功能。既然在整个应用中这是一种很常见的需求，那么把这一功能抽象成一个通用的、可复用的分页（Paginator）服务是很有意义的。 &nbs
[Maven学习笔记三]Maven archetype bit1129 ArcheType
archetype的英文意思是原型，Maven archetype表示创建Maven模块的模版，比如创建web项目，创建Spring项目等等. mvn archetype提供了一种命令行交互式创建Maven项目或者模块的方式， mvn archetype 1.在LearnMaven-ch03目录下，执行命令mvn archetype:gener
【Java命令三】jps bit1129 Java命令
jps很简单，用于显示当前运行的Java进程，也可以连接到远程服务器去查看 [hadoop@hadoop bin]$ jps -help usage: jps [-help] jps [-q] [-mlvV] [<hostid>] Definitions: <hostid>: <hostname>[:
ZABBIX2.2 2.4 等各版本之间的兼容性 ronin47
zabbix更新很快，从2009年到现在已经更新多个版本，为了使用更多zabbix的新特性，随之而来的便是升级版本，zabbix版本兼容性是必须优先考虑的一点客户端AGENT兼容 zabbix1.x到zabbix2.x的所有agent都兼容zabbix server2.4：如果你升级zabbix server，客户端是可以不做任何改变，除非你想使用agent的一些新特性。 Zabbix代理（p
unity 3d还是cocos2dx哪个适合游戏？ brotherlamp unity自学 unity教程 unity视频 unity资料 unity
unity 3d还是cocos2dx哪个适合游戏？问：unity 3d还是cocos2dx哪个适合游戏？答：首先目前来看unity视频教程因为是3d引擎，目前对2d支持并不完善，unity 3d 目前做2d普遍两种思路，一种是正交相机，3d画面2d视角，另一种是通过一些插件，动态创建mesh来绘制图形单元目前用的较多的是2d toolkit，ex2d，smooth moves，sm2，
百度笔试题：一个已经排序好的很大的数组，现在给它划分成m段，每段长度不定，段长最长为k，然后段内打乱顺序，请设计一个算法对其进行重新排序 bylijinnan java 算法面试百度招聘
import java.util.Arrays; /** * 最早是在陈利人老师的微博看到这道题： * #面试题#An array with n elements which is K most sorted，就是每个element的初始位置和它最终的排序后的位置的距离不超过常数K * 设计一个排序算法。It should be faster than O(n*lgn)。
获取checkbox复选框的值 chiangfai checkbox
<title>CheckBox</title> <script type = "text/javascript"> doGetVal: function doGetVal() { //var fruitName = document.getElementById("apple").value;//根据
MySQLdb用户指南 chenchao051 mysqldb
原网页被墙，放这里备用。 MySQLdb User's Guide Contents Introduction Installation _mysql MySQL C API translation MySQL C API function mapping Some _mysql examples MySQLdb
HIVE 窗口及分析函数 daizj hive 窗口函数分析函数
窗口函数应用场景：（1）用于分区排序（2）动态Group By （3）Top N （4）累计计算（5）层次查询一、分析函数用于等级、百分点、n分片等。函数说明 RANK() &nbs
PHP ZipArchive 实现压缩解压Zip文件 dcj3sjt126com PHP zip
PHP ZipArchive 是PHP自带的扩展类，可以轻松实现ZIP文件的压缩和解压，使用前首先要确保PHP ZIP 扩展已经开启，具体开启方法就不说了，不同的平台开启PHP扩增的方法网上都有，如有疑问欢迎交流。这里整理一下常用的示例供参考。一、解压缩zip文件 01 02 03 04 05 06 07 08 09 10 11
精彩英语贺词 dcj3sjt126com 英语
I'm always here 我会一直在这里支持你 &nb
基于Java注解的Spring的IoC功能 e200702084 java spring bean IOC Office
java模拟post请求 geeksun java
一般API接收客户端（比如网页、APP或其他应用服务）的请求，但在测试时需要模拟来自外界的请求，经探索，使用HttpComponentshttpClient可模拟Post提交请求。此处用HttpComponents的httpclient来完成使命。 import org.apache.http.HttpEntity ; import org.apache.http.HttpRespon
Swift语法之 ---- ?和!区别 hongtoushizi ?swift !
转载自： http://blog.sina.com.cn/s/blog_71715bf80102ux3v.html Swift语言使用var定义变量，但和别的语言不同，Swift里不会自动给变量赋初始值，也就是说变量不会有默认值，所以要求使用变量之前必须要对其初始化。如果在使用变量之前不进行初始化就会报错： var stringValue : String //
centos7安装jdk1.7 jisonami jdk centos
安装JDK1.7 步骤1、解压tar包在当前目录 [root@localhost usr]#tar -xzvf jdk-7u75-linux-x64.tar.gz 步骤2：配置环境变量在etc/profile文件下添加 export JAVA_HOME=/usr/java/jdk1.7.0_75 export CLASSPATH=/usr/java/jdk1.7.0_75/lib
数据源架构模式之数据映射器 home198979 PHP 架构数据映射器 datamapper
前面分别介绍了数据源架构模式之表数据入口、数据源架构模式之行和数据入口数据源架构模式之活动记录，相较于这三种数据源架构模式，数据映射器显得更加“高大上”。一、概念数据映射器（Data Mapper）：在保持对象和数据库（以及映射器本身）彼此独立的情况下，在二者之间移动数据的一个映射器层。概念永远都是抽象的，简单的说，数据映射器就是一个负责将数据映射到对象的类数据。 &nb
在Python中使用MYSQL pda158 mysql python
缘由　　近期在折腾一个小东西须要抓取网上的页面。然后进行解析。将结果放到数据库中。　　了解到 Python在这方面有优势，便选用之。　　由于我有台 server上面安装有 mysql，自然使用之。在进行数据库的这个操作过程中遇到了不少问题，这里记录一下，大家共勉。　　 python中mysql的调用　　百度之后能够通过MySQLdb进行数据库操作。
单例模式 hxl1988_0311 java 单例设计模式单件
package com.sosop.designpattern.singleton; /* * 单件模式：保证一个类必须只有一个实例，并提供全局的访问点 * * 所以单例模式必须有私有的构造器，没有私有构造器根本不用谈单件 * * 必须考虑到并发情况下创建了多个实例对象 * */ /** * 虽然有锁，但是只在第一次创建对象的时候加锁，并发时不会存在效率
27种迹象显示你应该辞掉程序员的工作 vipshichg 工作
1、你仍然在等待老板在2010年答应的要提拔你的暗示。 2、你的上级近10年没有开发过任何代码。 3、老板假装懂你说的这些技术，但实际上他完全不知道你在说什么。 4、你干完的项目6个月后才部署到现场服务器上。 5、时不时的，老板在检查你刚刚完成的工作时，要求按新想法重新开发。 6、而最终这个软件只有12个用户。 7、时间全浪费在办公室政治中，而不是用在开发好的软件上。 8、部署前5分钟才开始测试。

R2 分解到每个变量上：相对重要性分析 (Dominance Analysis)

连享会：内生性问题及估计方法专题

1. 重要性分析简介

连享会计量方法专题……

2. Stata 命令 domin

2.1 命令下载

2.2 命令语法

2.3 实证运用: 两变量情形

2.3.1 数据

2.3.2 回归

2.3.3 相对重要性分析

2.4 实证运用: 多变量情形

2.4.1 数据

2.4.2 回归

2.4.3 相对重要性分析

连享会计量方法专题……

2.4.4 相对重要性分析 （分组情形）

参考文献

连享会计量方法专题……

关于我们

你可能感兴趣的:(回归分析)

2. Stata 命令 `domin`

2.4.4 相对重要性分析（分组情形）