最小距离估计器解读

最小距离估计器解读

引言

在统计学和计量经济学中,估计未知参数是一项核心任务。最小距离估计(Minimum Distance Estimation,MDE)是一类强大的参数估计方法,它通过最小化观测数据与理论模型之间的某种"距离"来估计模型参数。

基本概念

最小距离估计的核心思想非常直观:我们寻找使得理论分布与实际观测数据之间"距离"最小的参数值。这里的"距离"是一个广义概念,可以是各种统计距离度量。假设我们在概率空间 ( Ω , F , P ) (\Omega, \mathcal{F}, P) (Ω,F,P) 上观测随机变量 X X X,其分布函数为 F X F_X FX。我们有一个参数化模型族 { F θ : θ ∈ Θ } \{F_\theta: \theta \in \Theta\} {Fθ:θΘ},其中 Θ ⊂ R p \Theta \subset \mathbb{R}^p ΘRp 是参数空间。我们的目标是找到参数 θ 0 ∈ Θ \theta_0 \in \Theta θ0Θ,使得 F θ 0 F_{\theta_0} Fθ0 最接近真实分布 F X F_X FX

形式上,对于任意距离函数 D : F × F → R + D: \mathcal{F} \times \mathcal{F} \rightarrow \mathbb{R}_+ D:F×FR+,我们寻找:

θ 0 = arg ⁡ min ⁡ θ ∈ Θ D ( F X , F θ ) \theta_0 = \arg\min_{\theta \in \Theta} D(F_X, F_\theta) θ0=argθΘminD(FX,Fθ)

实际应用中,真实分布 F X F_X FX 是未知的,我们只能通过样本 { X 1 , X 2 , . . . , X n } \{X_1, X_2, ..., X_n\} {X1,X2,...,Xn} 获得的经验分布 F n F_n Fn 来近似它。

数学表述

假设我们有独立同分布的随机变量 X 1 , X 2 , . . . , X n X_1, X_2, ..., X_n X1,X2,...,Xn,其真实分布为 F 0 F_0 F0。我们希望用参数为 θ \theta θ 的模型分布 F θ F_\theta Fθ 来拟合数据,其中 θ ∈ Θ \theta \in \Theta θΘ(参数空间)。经验分布函数定义为:

F n ( x ) = 1 n ∑ i = 1 n I ( X i ≤ x ) F_n(x) = \frac{1}{n}\sum_{i=1}^{n}I(X_i \leq x) Fn(x)=n1i=1nI(Xix)

其中 I ( ⋅ ) I(\cdot) I() 是指示函数。

最小距离估计器 θ ^ M D \hat{\theta}_{MD} θ^MD 定义为:

θ ^ M D = arg ⁡ min ⁡ θ ∈ Θ D ( F n , F θ ) \hat{\theta}_{MD} = \arg\min_{\theta \in \Theta} D(F_n, F_\theta) θ^MD=argθΘminD(Fn,Fθ)

这里 D ( ⋅ , ⋅ ) D(\cdot, \cdot) D(,) 是一个距离或散度函数,衡量两个分布之间的差异。更一般地,我们可以考虑对经验和理论分布应用某种变换 T T T,然后计算变换后的距离:

θ ^ M D = arg ⁡ min ⁡ θ ∈ Θ D ( T ( F n ) , T ( F θ ) ) \hat{\theta}_{MD} = \arg\min_{\theta \in \Theta} D(T(F_n), T(F_\theta)) θ^MD=argθΘminD(T(Fn),T(Fθ))

其中 T T T 可以是各种函数变换,如特征函数、矩生成函数或累积生成函数等。在某些情况下,我们也可以使用加权最小距离估计:

θ ^ W M D = arg ⁡ min ⁡ θ ∈ Θ ∫ X [ F n ( x ) − F θ ( x ) ] 2 w ( x ) d x \hat{\theta}_{WMD} = \arg\min_{\theta \in \Theta} \int_{\mathcal{X}} [F_n(x) - F_\theta(x)]^2 w(x) dx θ^WMD=argθΘminX[Fn(x)Fθ(x)]2w(x)dx

其中 w ( x ) w(x) w(x) 是一个非负权重函数。

常见的距离度量

科尔莫哥洛夫距离(Kolmogorov Distance)

科尔莫哥洛夫距离是两个累积分布函数之间的最大绝对差:

D K ( F n , F θ ) = sup ⁡ x ∣ F n ( x ) − F θ ( x ) ∣ D_K(F_n, F_\theta) = \sup_x |F_n(x) - F_\theta(x)| DK(Fn,Fθ)=xsupFn(x)Fθ(x)

这一距离对应于著名的Kolmogorov-Smirnov检验。在多元情况下,多维Kolmogorov距离可以定义为:

D K , d ( F n , F θ ) = sup ⁡ x ∈ R d ∣ F n ( x ) − F θ ( x ) ∣ D_{K,d}(F_n, F_\theta) = \sup_{x \in \mathbb{R}^d} |F_n(x) - F_\theta(x)| DK,d(Fn,Fθ)=xRdsupFn(x)Fθ(x)

然而,在实际应用中,多维Kolmogorov距离计算复杂且不具有旋转不变性。

克拉默-冯·米塞斯距离(Cramér-von Mises Distance)

克拉默-冯·米塞斯距离基于两个分布函数的平方差的积分:

D C v M ( F n , F θ ) = ∫ − ∞ ∞ [ F n ( x ) − F θ ( x ) ] 2 d F θ ( x ) D_{CvM}(F_n, F_\theta) = \int_{-\infty}^{\infty} [F_n(x) - F_\theta(x)]^2 dF_\theta(x) DCvM(Fn,Fθ)=[Fn(x)Fθ(x)]2dFθ(x)

实际计算中,常用如下形式:

D C v M ( F n , F θ ) = 1 n ∑ i = 1 n [ F θ ( X ( i ) ) − 2 i − 1 2 n ] 2 + 1 12 n 2 D_{CvM}(F_n, F_\theta) = \frac{1}{n}\sum_{i=1}^{n}\left[F_\theta(X_{(i)}) - \frac{2i-1}{2n}\right]^2 + \frac{1}{12n^2} DCvM(Fn,Fθ)=n1i=1n[Fθ(X(i))2n2i1]2+12n21

其中 X ( i ) X_{(i)} X(i) 是排序后的数据。

在多元情况下,我们可以使用嵌射深度(projection depth)方法将多维克拉默-冯·米塞斯距离定义为:

D C v M , d ( F n , F θ ) = ∫ ∥ u ∥ = 1 ∫ − ∞ ∞ [ F n , u ( t ) − F θ , u ( t ) ] 2 d F θ , u ( t ) d μ ( u ) D_{CvM,d}(F_n, F_\theta) = \int_{\|u\|=1} \int_{-\infty}^{\infty} [F_{n,u}(t) - F_{\theta,u}(t)]^2 dF_{\theta,u}(t) d\mu(u) DCvM,d(Fn,Fθ)=u=1[Fn,u(t)Fθ,u(t)]2dFθ,u(t)dμ(u)

其中 F n , u F_{n,u} Fn,u F θ , u F_{\theta,u} Fθ,u 分别是经验分布和模型分布在方向 u u u 上的投影, μ \mu μ 是单位球面上的均匀分布。

安德森-达林距离(Anderson-Darling Distance)

安德森-达林距离给予分布尾部更大的权重:

D A D ( F n , F θ ) = n ∫ − ∞ ∞ [ F n ( x ) − F θ ( x ) ] 2 F θ ( x ) ( 1 − F θ ( x ) ) d F θ ( x ) D_{AD}(F_n, F_\theta) = n\int_{-\infty}^{\infty} \frac{[F_n(x) - F_\theta(x)]^2}{F_\theta(x)(1-F_\theta(x))} dF_\theta(x) DAD(Fn,Fθ)=nFθ(x)(1Fθ(x))[Fn(x)Fθ(x)]2dFθ(x)

在计算实践中,可以使用如下公式:

D A D ( F n , F θ ) = − n − 1 n ∑ i = 1 n ( 2 i − 1 ) [ log ⁡ F θ ( X ( i ) ) + log ⁡ ( 1 − F θ ( X ( n + 1 − i ) ) ) ] D_{AD}(F_n, F_\theta) = -n - \frac{1}{n}\sum_{i=1}^{n}(2i-1)[\log F_\theta(X_{(i)}) + \log(1 - F_\theta(X_{(n+1-i)}))] DAD(Fn,Fθ)=nn1i=1n(2i1)[logFθ(X(i))+log(1Fθ(X(n+1i)))]

安德森-达林距离的理论基础可以从信息几何的角度理解。如果将分布空间视为黎曼流形,安德森-达林距离可以视为费舍尔信息度量(Fisher Information Metric)的一种近似:

D A D ( F n , F θ ) ≈ ∫ [ f n ( x ) − f θ ( x ) ] 2 f θ ( x ) d x D_{AD}(F_n, F_\theta) \approx \int \frac{[f_n(x) - f_\theta(x)]^2}{f_\theta(x)} dx DAD(Fn,Fθ)fθ(x)[fn(x)fθ(x)]2dx

其中 f n f_n fn f θ f_\theta fθ 分别是经验分布和模型分布的密度函数。

赫林格距离(Hellinger Distance)

赫林格距离基于概率密度函数而非分布函数:

D H ( f n , f θ ) = 1 2 ∫ − ∞ ∞ ( f n ( x ) − f θ ( x ) ) 2 d x D_H(f_n, f_\theta) = \frac{1}{2}\int_{-\infty}^{\infty} \left(\sqrt{f_n(x)} - \sqrt{f_\theta(x)}\right)^2 dx DH(fn,fθ)=21(fn(x) fθ(x) )2dx

其中 f n f_n fn f θ f_\theta fθ 分别是经验分布和模型分布的密度函数。赫林格距离与总变差距离(Total Variation Distance)和 Kullback-Leibler 散度(KL散度)有密切关系:

1 2 D T V 2 ( f n , f θ ) ≤ D H ( f n , f θ ) ≤ 1 2 D K L ( f n ∣ ∣ f θ ) \frac{1}{2}D_{TV}^2(f_n, f_\theta) \leq D_H(f_n, f_\theta) \leq \sqrt{\frac{1}{2}D_{KL}(f_n||f_\theta)} 21DTV2(fn,fθ)DH(fn,fθ)21DKL(fn∣∣fθ)

其中总变差距离定义为:

D T V ( f n , f θ ) = 1 2 ∫ − ∞ ∞ ∣ f n ( x ) − f θ ( x ) ∣ d x D_{TV}(f_n, f_\theta) = \frac{1}{2}\int_{-\infty}^{\infty} |f_n(x) - f_\theta(x)| dx DTV(fn,fθ)=21fn(x)fθ(x)dx

而KL散度定义为:

D K L ( f n ∣ ∣ f θ ) = ∫ − ∞ ∞ f n ( x ) log ⁡ f n ( x ) f θ ( x ) d x D_{KL}(f_n||f_\theta) = \int_{-\infty}^{\infty} f_n(x) \log\frac{f_n(x)}{f_\theta(x)} dx DKL(fn∣∣fθ)=fn(x)logfθ(x)fn(x)dx

赫林格距离在量子信息理论中有重要应用,对于两个量子态 ρ \rho ρ σ \sigma σ,量子赫林格距离定义为:

D H ( ρ , σ ) = 1 − Tr ( ρ σ ) D_H(\rho, \sigma) = \sqrt{1 - \text{Tr}(\sqrt{\rho}\sqrt{\sigma})} DH(ρ,σ)=1Tr(ρ σ )

能量距离(Energy Distance)

能量距离是近年来发展起来的一种度量,它基于统计物理学中粒子间相互作用能的类比:

D E ( F n , F θ ) = 2 E ∣ ∣ X − Y ∣ ∣ 2 − E ∣ ∣ X − X ′ ∣ ∣ 2 − E ∣ ∣ Y − Y ′ ∣ ∣ 2 D_E(F_n, F_\theta) = 2\mathbb{E}||X - Y||_2 - \mathbb{E}||X - X'||_2 - \mathbb{E}||Y - Y'||_2 DE(Fn,Fθ)=2E∣∣XY2E∣∣XX2E∣∣YY2

其中 X , X ′ X, X' X,X 是独立同分布的随机变量,服从经验分布 F n F_n Fn Y , Y ′ Y, Y' Y,Y 是独立同分布的随机变量,服从模型分布 F θ F_\theta Fθ ∣ ∣ ⋅ ∣ ∣ 2 ||\cdot||_2 ∣∣2 是欧几里得范数。在核方法的框架下,能量距离与最大平均差异(Maximum Mean Discrepancy, MMD)有密切关系,当使用特定核函数时,MMD可表示为:

MMD 2 ( F n , F θ ) = E X , X ′ [ k ( X , X ′ ) ] + E Y , Y ′ [ k ( Y , Y ′ ) ] − 2 E X , Y [ k ( X , Y ) ] \text{MMD}^2(F_n, F_\theta) = \mathbb{E}_{X,X'}[k(X, X')] + \mathbb{E}_{Y,Y'}[k(Y, Y')] - 2\mathbb{E}_{X,Y}[k(X, Y)] MMD2(Fn,Fθ)=EX,X[k(X,X)]+EY,Y[k(Y,Y)]2EX,Y[k(X,Y)]

其中 k ( ⋅ , ⋅ ) k(\cdot, \cdot) k(,) 是正定核函数。当 k ( x , y ) = − ∣ ∣ x − y ∣ ∣ 2 k(x, y) = -||x - y||_2 k(x,y)=∣∣xy2 时,MMD与能量距离等价。

广义矩距离(Generalized Method of Moments)

广义矩距离是最小距离估计的一种特殊形式,特别适用于经济计量学模型。它基于矩条件 E [ g ( X , θ 0 ) ] = 0 E[g(X,\theta_0)] = 0 E[g(X,θ0)]=0,其中 g g g 是一个向量值函数, θ 0 \theta_0 θ0 是真实参数值。

样本矩定义为:

g ˉ n ( θ ) = 1 n ∑ i = 1 n g ( X i , θ ) \bar{g}_n(\theta) = \frac{1}{n}\sum_{i=1}^{n}g(X_i, \theta) gˉn(θ)=n1i=1ng(Xi,θ)

GMM估计器定义为:

θ ^ G M M = arg ⁡ min ⁡ θ ∈ Θ g ˉ n ( θ ) ′ W n g ˉ n ( θ ) \hat{\theta}_{GMM} = \arg\min_{\theta \in \Theta} \bar{g}_n(\theta)' W_n \bar{g}_n(\theta) θ^GMM=argθΘmingˉn(θ)Wngˉn(θ)

其中 W n W_n Wn 是一个权重矩阵。最优权重矩阵是 W n = S n − 1 W_n = S_n^{-1} Wn=Sn1,其中 S n S_n Sn g ˉ n ( θ 0 ) \bar{g}_n(\theta_0) gˉn(θ0) 的协方差矩阵的一致估计。GMM的理论基础可以通过泰勒展开式推导。假设 g ˉ n ( θ ^ G M M ) = 0 \bar{g}_n(\hat{\theta}_{GMM}) = 0 gˉn(θ^GMM)=0(矩条件恰好满足),则:

n ( θ ^ G M M − θ 0 ) = − ( ∂ g ˉ n ( θ 0 ) ∂ θ ′ ) − 1 n g ˉ n ( θ 0 ) + o p ( 1 ) \sqrt{n}(\hat{\theta}_{GMM} - \theta_0) = -\left(\frac{\partial \bar{g}_n(\theta_0)}{\partial \theta'}\right)^{-1} \sqrt{n}\bar{g}_n(\theta_0) + o_p(1) n (θ^GMMθ0)=(θgˉn(θ0))1n gˉn(θ0)+op(1)

渐近协方差矩阵为:

V G M M = ( G 0 ′ S 0 − 1 G 0 ) − 1 V_{GMM} = \left(G'_0 S_0^{-1} G_0\right)^{-1} VGMM=(G0S01G0)1

其中 G 0 = E [ ∂ g ( X , θ 0 ) / ∂ θ ′ ] G_0 = E[\partial g(X, \theta_0) / \partial \theta'] G0=E[g(X,θ0)/θ] 是雅可比矩阵, S 0 = E [ g ( X , θ 0 ) g ( X , θ 0 ) ′ ] S_0 = E[g(X, \theta_0)g(X, \theta_0)'] S0=E[g(X,θ0)g(X,θ0)] 是矩函数的协方差矩阵。

在过度识别的情况下(矩条件数量大于参数数量),可以使用 Hansen’s J 统计量进行模型规范检验:

J n = n g ˉ n ( θ ^ G M M ) ′ W n g ˉ n ( θ ^ G M M ) → d χ r − p 2 J_n = n\bar{g}_n(\hat{\theta}_{GMM})' W_n \bar{g}_n(\hat{\theta}_{GMM}) \xrightarrow{d} \chi^2_{r-p} Jn=ngˉn(θ^GMM)Wngˉn(θ^GMM)d χrp2

其中 r r r 是矩条件数量, p p p 是参数数量。

近年来,GMM的一个重要扩展是连续更新GMM(Continuously Updated GMM, CUE):

θ ^ C U E = arg ⁡ min ⁡ θ ∈ Θ g ˉ n ( θ ) ′ S n ( θ ) − 1 g ˉ n ( θ ) \hat{\theta}_{CUE} = \arg\min_{\theta \in \Theta} \bar{g}_n(\theta)' S_n(\theta)^{-1} \bar{g}_n(\theta) θ^CUE=argθΘmingˉn(θ)Sn(θ)1gˉn(θ)

其中 S n ( θ ) S_n(\theta) Sn(θ) g ˉ n ( θ ) \bar{g}_n(\theta) gˉn(θ) 的协方差矩阵的函数。CUE估计器在有限样本性质上通常优于标准GMM估计器。

最小距离估计器的性质

一致性

在适当的正则条件下,最小距离估计器是一致的,即随着样本量增加,估计值将收敛于真实参数值:

θ ^ M D → p θ 0 当 n → ∞ \hat{\theta}_{MD} \xrightarrow{p} \theta_0 \quad \text{当} \quad n \rightarrow \infty θ^MDp θ0n

一致性的证明通常基于下列条件:

  1. 识别条件: D ( F 0 , F θ ) = 0 D(F_0, F_\theta) = 0 D(F0,Fθ)=0 当且仅当 θ = θ 0 \theta = \theta_0 θ=θ0
  2. 距离函数的连续性: D ( F , G ) D(F, G) D(F,G) 关于 F F F G G G 是连续的
  3. 参数空间 Θ \Theta Θ 是紧的
  4. 经验分布 F n F_n Fn 一致收敛于真实分布 F 0 F_0 F0

在这些条件下,可以证明:

sup ⁡ θ ∈ Θ ∣ D ( F n , F θ ) − D ( F 0 , F θ ) ∣ → p 0 \sup_{\theta \in \Theta} |D(F_n, F_\theta) - D(F_0, F_\theta)| \xrightarrow{p} 0 θΘsupD(Fn,Fθ)D(F0,Fθ)p 0

结合识别条件,可得 θ ^ M D → p θ 0 \hat{\theta}_{MD} \xrightarrow{p} \theta_0 θ^MDp θ0

渐近正态性

在一定条件下,最小距离估计器是渐近正态的:

n ( θ ^ M D − θ 0 ) → d N ( 0 , V ) \sqrt{n}(\hat{\theta}_{MD} - \theta_0) \xrightarrow{d} N(0, V) n (θ^MDθ0)d N(0,V)

其中 V V V 是渐近协方差矩阵,其形式取决于所使用的距离度量和模型特性。

对于基于加权经验过程的最小距离估计,渐近协方差矩阵可表示为:

V = ( G ′ W G ) − 1 G ′ W S W G ( G ′ W G ) − 1 V = (G'WG)^{-1}G'WSWG(G'WG)^{-1} V=(GWG)1GWSWG(GWG)1

其中 G = ∂ E [ m ( X , θ 0 ) ] / ∂ θ ′ G = \partial E[m(X, \theta_0)]/\partial \theta' G=E[m(X,θ0)]/θ 是矩函数对参数的导数, S = E [ m ( X , θ 0 ) m ( X , θ 0 ) ′ ] S = E[m(X, \theta_0)m(X, \theta_0)'] S=E[m(X,θ0)m(X,θ0)] 是矩函数的协方差矩阵, W W W 是权重矩阵。

W = S − 1 W = S^{-1} W=S1 时,渐近协方差矩阵简化为:

V = ( G ′ S − 1 G ) − 1 V = (G'S^{-1}G)^{-1} V=(GS1G)1

这对应于最有效的估计器。

鲁棒性

与最大似然估计相比,某些最小距离估计器(如基于赫林格距离的)对异常值和模型错误规定有更强的鲁棒性。鲁棒性可以通过影响函数(Influence Function)来量化。对于分布 F F F 和点质量污染 δ x \delta_x δx,参数函数 T T T 在点 x x x 处的影响函数定义为:

I F ( x ; T , F ) = lim ⁡ ϵ → 0 T ( ( 1 − ϵ ) F + ϵ δ x ) − T ( F ) ϵ IF(x; T, F) = \lim_{\epsilon \to 0} \frac{T((1-\epsilon)F + \epsilon \delta_x) - T(F)}{\epsilon} IF(x;T,F)=ϵ0limϵT((1ϵ)F+ϵδx)T(F)

对于最小距离估计器,影响函数的界限决定了其对异常值的敏感度。例如,基于Hellinger距离的最小距离估计器具有有界的影响函数,表明其对异常值具有良好的鲁棒性。在M-估计理论框架下,最小距离估计器的崩溃点(Breakdown Point)—即能够容忍的最大异常值比例—也是衡量鲁棒性的重要指标。

与其他估计方法的比较

最大似然估计(MLE)

最大似然估计基于最大化似然函数,需要完全指定概率模型。当模型正确指定时,MLE通常是渐近有效的。相比之下,最小距离估计通常不要求完全指定模型,因此在模型不确定的情况下可能更有优势。最大似然估计的目标函数:

θ ^ M L E = arg ⁡ max ⁡ θ ∈ Θ ∏ i = 1 n f θ ( X i ) \hat{\theta}_{MLE} = \arg\max_{\theta \in \Theta} \prod_{i=1}^{n} f_\theta(X_i) θ^MLE=argθΘmaxi=1nfθ(Xi)

或等价地:

θ ^ M L E = arg ⁡ max ⁡ θ ∈ Θ ∑ i = 1 n log ⁡ f θ ( X i ) \hat{\theta}_{MLE} = \arg\max_{\theta \in \Theta} \sum_{i=1}^{n} \log f_\theta(X_i) θ^MLE=argθΘmaxi=1nlogfθ(Xi)

MLE和MD估计器的关系可以通过Kullback-Leibler散度来建立。当距离函数选择为KL散度时:

D K L ( f n ∣ ∣ f θ ) = ∫ f n ( x ) log ⁡ f n ( x ) f θ ( x ) d x D_{KL}(f_n||f_\theta) = \int f_n(x) \log \frac{f_n(x)}{f_\theta(x)} dx DKL(fn∣∣fθ)=fn(x)logfθ(x)fn(x)dx

由于经验分布 f n f_n fn 的熵是常数,最小化 D K L ( f n ∣ ∣ f θ ) D_{KL}(f_n||f_\theta) DKL(fn∣∣fθ) 等价于最大化:

∫ f n ( x ) log ⁡ f θ ( x ) d x ≈ 1 n ∑ i = 1 n log ⁡ f θ ( X i ) \int f_n(x) \log f_\theta(x) dx \approx \frac{1}{n}\sum_{i=1}^{n} \log f_\theta(X_i) fn(x)logfθ(x)dxn1i=1nlogfθ(Xi)

这正是最大似然估计的目标函数。因此,MLE可以视为基于KL散度的最小距离估计的特例。两者的理论比较可通过渐近相对效率(Asymptotic Relative Efficiency, ARE)进行:

A R E ( θ ^ M D , θ ^ M L E ) = V M L E V M D ARE(\hat{\theta}_{MD}, \hat{\theta}_{MLE}) = \frac{V_{MLE}}{V_{MD}} ARE(θ^MD,θ^MLE)=VMDVMLE

其中 V M L E V_{MLE} VMLE V M D V_{MD} VMD 分别是MLE和MD估计器的渐近协方差矩阵。

在正则条件下,MLE达到Cramér-Rao下界,是渐近有效的。然而,当模型错误指定时,MLE可能产生严重偏差,而某些MD估计器可能更为稳健。

贝叶斯估计

贝叶斯方法将参数视为随机变量,并通过后验分布进行推断。最小距离估计可以与贝叶斯框架结合,例如通过使用近似贝叶斯计算(ABC)方法。在贝叶斯框架下,后验分布为:

p ( θ ∣ X ) ∝ p ( X ∣ θ ) p ( θ ) p(\theta|X) \propto p(X|\theta)p(\theta) p(θX)p(Xθ)p(θ)

其中 p ( X ∣ θ ) p(X|\theta) p(Xθ) 是似然函数, p ( θ ) p(\theta) p(θ) 是先验分布。

贝叶斯最小距离估计可以通过最小化后验期望距离来定义:

θ ^ B M D = arg ⁡ min ⁡ θ ∈ Θ ∫ D ( F n , F θ ′ ) p ( θ ′ ∣ X ) d θ ′ \hat{\theta}_{BMD} = \arg\min_{\theta \in \Theta} \int D(F_n, F_{\theta'}) p(\theta'|X) d\theta' θ^BMD=argθΘminD(Fn,Fθ)p(θX)dθ

或者通过构造基于距离的似然函数:

p D ( X ∣ θ ) ∝ exp ⁡ ( − n D ( F n , F θ ) ) p_D(X|\theta) \propto \exp(-nD(F_n, F_\theta)) pD(Xθ)exp(nD(Fn,Fθ))

这导致的后验分布为:

p D ( θ ∣ X ) ∝ exp ⁡ ( − n D ( F n , F θ ) ) p ( θ ) p_D(\theta|X) \propto \exp(-nD(F_n, F_\theta))p(\theta) pD(θX)exp(nD(Fn,Fθ))p(θ)

在大样本情况下,当 n → ∞ n \to \infty n 时,这个后验分布会集中在最小距离估计 θ ^ M D \hat{\theta}_{MD} θ^MD 附近,与频率派方法产生一致的结果。

你可能感兴趣的:(概率论,机器学习,算法,人工智能,线性代数,信息与通信)