Stata: 分位数回归简介

作者: 武翰涛 (南京邮电大学)

Stata 连享会: 知乎 | | 码云 | CSDN | StataChina公众号

Stata连享会   计量专题 || 精品课程 || 推文 || 公众号合集

Stata: 分位数回归简介_第1张图片
点击查看完整推文列表

2020寒假Stata现场班 (北京, 1月8-17日,连玉君-江艇主讲)

「+助教招聘」

Stata: 分位数回归简介_第2张图片
2020寒假Stata现场班

1. 引言

在多数实证分析中,我们关注的焦点都在于考察解释变量 对被解释变量 的影响,其思想是从平均数的角度去分析得到参数结果,即均值回归。但均值回归往往会受到极端值的影响,使得参数估计变得很不稳定 (在执行分组回归时这一问题尤其突出)。另一方面,基于 OLS 的线性回归模型只能让我们分析 对 的平均影响效果。而当,条件分布 不是对称分布时,条件期望 很难反映整个条件分布的全貌。如果能估计条件分布 的若干重要条件分布,就能对条件分布 有更全面的认识[1]。

2 分位数回归模型

2.1 总体分位数

假设 为连续型随机变量,其累积分布函数为 ,则 的“总体 分位数”,记为 ,满足以下定义式:

即总体 分位数正好将总体分布分为两部分,其中小于或等于 的概率为,而大于 的概率为 。如果 则为中位数,正好将总体分为两个相等的部分,一半在中位数之上,而另一半在中位数之下。如果 严格单调递增,则有

其中, 为 的逆函数。

对于回归模型而言,记条件分布 的累积分布函数为 。条件分布 的总体 分位数,记为 ,满足以下定义式:

假设严格单调递增,则有

由于条件累积分布函数 依赖于 ,故条件分布 的总体 分位数 也依赖于 ,可以明确地写为 ,称为 ”条件分位数函数“。换言之,条件分位数函数 是解释变量 的函数。更进一步,对于线性回归模型而言,如果扰动项满足同方差的假定,或扰动项异方差的形式为乘积形式,则 是 的线性函数[2]。

2.2 样本分位数

对于随机变量 ,如果总体的q分位数 未知,则可以使用样本 分位数 来估计 。通常的做法是,首先将样本数据 按照从小到大的顺序排列为 ,则 等于第 个最小观测值,其中 为样本容量, 表示大于或等于nq并离nq最近的正整数。比如n=95,q=0.5,则 [3]。
但上述样本分位数的计算方法不容易推广到回归模型。因此,一种更方便的等价方法便是将样本分位数看成某个最小化的解。事实上,样本均值也可以看成是最小化残差问题的最优解,即:

类似地,样本中位数可以视为是"最小化残差绝对值之和"问题的最优解,即:

连享会计量方法专题……

2.3 分位数估计方法

分位数回归方法 (QR) 最早由 Koenker,Bassett 提出,是基于反应变量 的条件分布来估计应变量 参数的线性回归方法,即根据不同分位点利用样本含有的不同信息对模型进行回归分析。鉴于最小二乘法的最优估计要求模型的随机扰动项服从独立同分布,而分位数回归不对模型做任何分布假设,且不对矩函数有任何要求,这就非常适合部分不存在阶矩函数的数据,即可能存在的异常数据不会影响到模型的参数估计。因此用分位数回归来研究宏观金融等数据是非常稳健的,且能够较好地捕捉分布的尖峰厚尾特征,从而满足不同条件分析的需求。

设 在随机变量 下 的条件分布函数,则 的第 个条件分布数为:

式中 是下确界函数。
对于观测样本 为向量 的维数。如果在 下 的 条件分位数为 的线性函数,即,这里的 表示转置, 为系数向量,则系数向量 的分位数估计值为:

式中:

称为线性损失函数。
分位数回归估计式 (2) 等价于下面的式 (3) :

\hat { \beta } ( \tau ) = \arg \min _ { \xi \in R } \left( \sum _ { i Y _ { i } \geq X _ { 1 } ^ { T } \beta } \tau \left| Y _ { i } - X _ { i } ^ { T } \beta \right| + \sum _ { i Y _ { i } < X _ { 1 } ^ { T } \beta } ( 1 - \tau ) \left| Y _ { i } - X _ { i } ^ { T } \beta \right| \right)

显然,分位点不同时估算出的模型参数也不同,因而可以得到不同的回归方程,决策者可以从中选出最贴近实际问题的回归方程。

连享会计量方法专题……

3 Stata 范例

我们可以使用 qreg 命令来实现分位数回归模型,这里我们使用 Stata 自带的数据 auto.dta

首先进行中位数回归:

. sysuse "auto.dta", clear
(1978 Automobile Data)

. qreg price mpg rep78 headroom trunk weight length
Iteration  1:  WLS sum of weighted deviations =  54582.043
…… (output omitted)
Iteration  6: sum of abs. weighted deviations =  52754.926

Median regression                                   Number of obs =         69
  Raw sum of deviations    65163 (about 5079)
  Min sum of deviations 52754.93                    Pseudo R2     =     0.1904

------------------------------------------------------------------------------
       price |      Coef.   Std. Err.      t    P>|t|     [95% Conf. Interval]
-------------+----------------------------------------------------------------
         mpg |  -20.44398   100.1651    -0.20   0.839    -220.6711    179.7831
       rep78 |   766.3722   380.1109     2.02   0.048     6.541433    1526.203
    headroom |  -527.2818   525.7287    -1.00   0.320    -1578.199     523.635
       trunk |   108.3175   131.2516     0.83   0.412    -154.0507    370.6857
      weight |   4.197336   1.385672     3.03   0.004     1.427417    6.967255
      length |  -88.23944   51.85082    -1.70   0.094    -191.8878    15.40887
       _cons |   7474.973   7400.575     1.01   0.316    -7318.566    22268.51
-----------------------------------------------------------------------------```

有上述结果可知,mpg 每增加一单位,会使价格中位数降低 20.44 个单位,即当汽车每加仑能行走的公里数提高一个单位,中档价位的汽车便会降低20.44个单位,但统计结果上并不显著。

下面使用自助法来计算分位数回归的标准误。为便于复制结果,指定随机数的种子。

. set seed 10000  // 设定种子值
. bsqreg price mpg rep78 headroom trunk weight length, reps(400) q(0.5)
(fitting base model)

Bootstrap replications (400)
----+--- 1 ---+--- 2 ---+--- 3 ---+--- 4 ---+--- 5 
..................................................    50
................. (output omitted) 
..................................................   400

Median regression, bootstrap(400) SEs               Number of obs =         69
  Raw sum of deviations    65163 (about 5079)
  Min sum of deviations 52754.93                    Pseudo R2     =     0.1904

------------------------------------------------------------------------------
       price |      Coef.   Std. Err.      t    P>|t|     [95% Conf. Interval]
-------------+----------------------------------------------------------------
         mpg |  -20.44398   87.80782    -0.23   0.817    -195.9693    155.0814
       rep78 |   766.3722   414.1785     1.85   0.069    -61.55878    1594.303
    headroom |  -527.2818   341.1344    -1.55   0.127      -1209.2    154.6362
       trunk |   108.3175   99.74076     1.09   0.282    -91.06144    307.6964
      weight |   4.197336   3.256015     1.29   0.202    -2.311345    10.70602
      length |  -88.23944    90.8892    -0.97   0.335    -269.9244    93.44548
       _cons |   7474.973   8075.536     0.93   0.358    -8667.793    23617.74
-----------------------------------------------------------------------------

进一步地,考察 0.25、0.5、0.75 分位点上的回归结果:

. sqreg price mpg rep78 headroom trunk weight length, q(0.25 0.5 0.75) reps(400)
(fitting base model)

Bootstrap replications (400)
----+--- 1 ---+--- 2 ---+--- 3 ---+--- 4 ---+--- 5 
..................................................    50
 (output omitted) 
..................................................   400

Simultaneous quantile regression                    Number of obs =         69
  bootstrap(400) SEs                                .25 Pseudo R2 =     0.1953
                                                    .50 Pseudo R2 =     0.1904
                                                    .75 Pseudo R2 =     0.3665

------------------------------------------------------------------------------
             |              Bootstrap
       price |      Coef.   Std. Err.      t    P>|t|     [95% Conf. Interval]
-------------+----------------------------------------------------------------
q25          |
         mpg |  -58.85941    60.6889    -0.97   0.336    -180.1748    62.45596
       rep78 |   378.5492   182.5255     2.07   0.042     13.68592    743.4125
    headroom |  -428.4049   177.6041    -2.41   0.019    -783.4304   -73.37946
       trunk |   157.9781   53.96136     2.93   0.005     50.11082    265.8453
      weight |   .8091042   1.739727     0.47   0.644    -2.668561     4.28677
      length |  -24.49825   47.20241    -0.52   0.606    -118.8545    69.85801
       _cons |   5805.491   4010.312     1.45   0.153    -2211.008    13821.99
-------------+----------------------------------------------------------------
q50          |
         mpg |  -20.44398   98.12396    -0.21   0.836     -216.591     175.703
       rep78 |   766.3722   410.5124     1.87   0.067    -54.23035    1586.975
    headroom |  -527.2818   316.1929    -1.67   0.100    -1159.342    104.7788
       trunk |   108.3175   100.5004     1.08   0.285    -92.57998     309.215
      weight |   4.197336   3.346488     1.25   0.214    -2.492198    10.88687
      length |  -88.23944   93.76858    -0.94   0.350    -275.6802    99.20127
       _cons |   7474.973   8158.464     0.92   0.363    -8833.564    23783.51
-------------+----------------------------------------------------------------
q75          |
         mpg |  -158.3163   115.8176    -1.37   0.177    -389.8324    73.19971
       rep78 |   1453.687   447.9351     3.25   0.002     558.2771    2349.096
    headroom |  -837.2497   580.2633    -1.44   0.154     -1997.18    322.6801
       trunk |   90.09523   136.9239     0.66   0.513    -183.6118    363.8023
      weight |   7.364424   2.936931     2.51   0.015     1.493583    13.23527
      length |  -185.4982   95.92216    -1.93   0.058    -377.2439    6.247448
       _cons |   19508.66   10929.18     1.79   0.079    -2338.458    41355.77
-----------------------------------------------------------------------------```

将分位数回归系数随着分位数的变化情形画图表示,则有:

.  qui bsqreg price mpg rep78 headroom trunk weight length,reps(400) q(0.5)
.  qrqreg, cons ci ols olci

连享会计量方法专题……

参考资料

Source[1]:分位数回归理论及其应用」
Source[2]:高级计量经济学及Stata应用」
Source[3]:分位数回归及应用简介

关于我们

  • 「Stata 连享会」 由中山大学连玉君老师团队创办,定期分享实证分析经验, 公众号:StataChina
  • 公众号推文同步发布于 CSDN 、 和 知乎Stata专栏。可在百度中搜索关键词 「Stata连享会」查看往期推文。
  • 点击推文底部【阅读原文】可以查看推文中的链接并下载相关资料。
  • 欢迎赐稿: 欢迎赐稿。录用稿件达 三篇 以上,即可 免费 获得一期 Stata 现场培训资格。
  • E-mail: [email protected]
  • 往期推文:计量专题 || 精品课程 || 推文 || 公众号合集

Stata: 分位数回归简介_第3张图片
点击查看完整推文列表


Stata: 分位数回归简介_第4张图片
欢迎加入Stata连享会(公众号: StataChina)

你可能感兴趣的:(Stata: 分位数回归简介)