机器学习-雅可比式与多元高斯分布

1. 雅可比式

  • 1.1 概念
    雅可比式也称为函数行列式,它是用来描述变量与变量之间变换关系的。假设 x , y ∈ R n x,y\in R^n x,yRn,并且两者之间线性变换关系 y = A x + μ y = Ax + \mu y=Ax+μ(也可以展开表示为方程组形式),则雅可比式可以表示为
    J = ∣ d y 1 d x 1 . . . d y 1 d x n d y 2 d x 1 . . . d y 2 d x n . . . . . . . . . . d y n d x 1 . . . d y n d x n ∣ J=\begin {vmatrix} \frac{dy_1}{dx_1} & ... & \frac{dy_1}{dx_n} \\ \frac{dy_2}{dx_1} & ... & \frac{dy_2}{dx_n} \\ . & ... & . \\ . & ... & . \\ \frac{dy_n}{dx_1} &... & \frac{dy_n}{dx_n} \end{vmatrix} J=dx1dy1dx1dy2..dx1dyn...............dxndy1dxndy2..dxndyn
    上式中每一行表示 y y y中每一个分量 y i y_i yi对每一个输入变量 x i x_i xi的偏导

  • 1.2 应用
    雅可比式一般用在多重积分的坐标变换以及多元变量的概率密度函数的求解,比如球面坐标与直角坐标的变换
    x = r cos ⁡ ϕ cos ⁡ θ y = r cos ⁡ ϕ sin ⁡ θ z = r sin ⁡ ϕ J = ∣ d x d r d x d ϕ d x d θ d y d r d y d ϕ d y d θ d x d z d z d ϕ d z d θ ∣ = ∣ cos ⁡ ϕ cos ⁡ θ − r sin ⁡ ϕ cos ⁡ θ − r cos ⁡ ϕ sin ⁡ θ cos ⁡ ϕ sin ⁡ θ − r sin ⁡ ϕ sin ⁡ θ r cos ⁡ ϕ cos ⁡ θ sin ⁡ ϕ r cos ⁡ ϕ 0 ∣ x = r\cos{\phi}\cos{\theta} \\ y = r\cos{\phi}\sin{\theta} \\ z = r\sin{\phi} \\ J = \begin{vmatrix} \frac{dx}{dr} & \frac{dx}{d{\phi}} & \frac{dx}{d{\theta}} \\ \frac{dy}{dr} & \frac{dy}{d{\phi}} & \frac{dy}{d{\theta}} \\ \frac{dx}{dz} & \frac{dz}{d{\phi}} & \frac{dz}{d{\theta}} \end{vmatrix} = \begin{vmatrix} \cos{\phi}\cos{\theta} & -r\sin{\phi}\cos{\theta} & -r\cos{\phi}\sin{\theta} \\ \cos{\phi}\sin{\theta} & -r\sin{\phi}\sin{\theta} & r\cos{\phi}\cos{\theta} \\ \sin{\phi} & r\cos{\phi} & 0 \end{vmatrix} x=rcosϕcosθy=rcosϕsinθz=rsinϕJ=drdxdrdydzdxdϕdxdϕdydϕdzdθdxdθdydθdz=cosϕcosθcosϕsinθsinϕrsinϕcosθrsinϕsinθrcosϕrcosϕsinθrcosϕcosθ0

    在体积求解上存在 ∭ d x d y d z = ∬ ∣ J ∣ d r d ϕ d θ \iiint dxdydz = \iint |J|drd{\phi}d{\theta} dxdydz=Jdrdϕdθ

2. 多元高斯分布

  • 2.1 概念
    当一个变量是多维,且每一个分量都满足高斯分布时,此时该变量符合多元高斯分布,概率密度函数一般表示为
    p ( x ) = 1 ( 2 π ) n / 2 ∣ ∑ ∣ − 1 / 2 exp ⁡ ( − 1 2 ( x − μ ) T ( ∑ ) − 1 ( x − μ ) ) p(x)=\frac{1}{(2\pi)^{n/2}|\sum|^{-1/2}}\exp({-\frac{1}{2}(x-\mu)^T(\sum) ^{-1}(x-\mu)}) p(x)=(2π)n/21/21exp(21(xμ)T()1(xμ))

    其中 μ ( ∈ R n ) \mu (\in R^n) μ(Rn)称为变量的均值, ∑ ( ∈ R n ∗ n ) \sum (\in R^{n*n}) (Rnn)称为变量的协方差,一般是对称方阵

  • 2.2 推导概率密度函数
    (1)当变量 X X X中各个分量彼此相互独立时,也都满足标准正态分布时,根据联合概率分布,可以得到
    p ( x ) = ∏ i = 1 n p ( x i ) = 1 ( 2 π ) 1 / 2 exp ⁡ ( − 1 2 x 1 2 ) . . . 1 ( 2 π ) 1 / 2 exp ⁡ ( − 1 2 x n 2 ) = 1 ( 2 π ) n / 2 exp ⁡ ( − 1 2 x T x ) p(x)= \quad\prod_{i=1}^n p(x_i)= \frac{1}{(2\pi)^{1/2}}\exp(-\frac{1}{2} x_1^2)... \frac{1}{(2\pi)^{1/2}}\exp(-\frac{1}{2} x_n^2) \\ =\frac{1}{(2\pi)^{n/2}}\exp(-\frac{1}{2} x^Tx) p(x)=i=1np(xi)=(2π)1/21exp(21x12)...(2π)1/21exp(21xn2)=(2π)n/21exp(21xTx)

    (2)任意的多元高斯分布都可以通过标准多元正太分布线性变换得到,即 y = A x + μ y=Ax+\mu y=Ax+μ,这里要用到雅可比式的第二个应用,
    概率密度函数 p ( y ) = p ( x ) ∣ J ( x → y ) ∣ p(y)=p(x)|J(x\rightarrow y)| p(y)=p(x)J(xy)
    先将 x x x表示成 y y y的形式 x = A − 1 ( y − μ ) x = A^{-1}(y-\mu) x=A1(yμ),然后
    ∣ J ( x → y ) ∣ = ∣ A − 1 ∣ = 1 ∣ A ∣ = 1 ( ∣ A T A ∣ ) 1 / 2 |J(x\rightarrow y)|=|A^{-1}|=\frac{1}{|A|}=\frac{1}{(|A^TA|)^{1/2}} J(xy)=A1=A1=(ATA)1/21

接下来
p ( y ) = 1 ( 2 π ) n / 2 exp ⁡ ( − 1 2 x T x ) ( ∣ A T A ∣ ) − 1 / 2 = 1 ( 2 π ) n / 2 ( ∣ A T A ∣ ) 1 / 2 exp ⁡ ( − 1 2 ( A − 1 ( y − μ ) ) T ( A − 1 ( y − μ ) ) ) = 1 ( 2 π ) n / 2 ( ∣ A T A ∣ ) 1 / 2 exp ⁡ ( − 1 2 ( y − μ ) T ( A T A ) − 1 ( y − μ ) ) = 1 ( 2 π ) n / 2 ∣ ∑ ∣ − 1 / 2 exp ⁡ ( − 1 2 ( y − μ ) T ( ∑ ) − 1 ( y − μ ) ) p(y)=\frac{1}{(2\pi)^{n/2}}\exp(-\frac{1}{2} x^Tx)(|A^TA|)^{-1/2}\\ =\frac{1}{(2\pi)^{n/2}(|A^TA|)^{1/2}}\exp(-\frac{1}{2}(A^{-1}(y-\mu))^T(A^{-1}(y-\mu))) \\ =\frac{1}{(2\pi)^{n/2}(|A^TA|)^{1/2}}\exp(-\frac{1}{2}(y-\mu)^T(A^TA)^{-1}(y-\mu)) \\ =\frac{1}{(2\pi)^{n/2}|\sum|^{-1/2}}\exp({-\frac{1}{2}(y-\mu)^T(\sum) ^{-1}(y-\mu)}) p(y)=(2π)n/21exp(21xTx)(ATA)1/2=(2π)n/2(ATA)1/21exp(21(A1(yμ))T(A1(yμ)))=(2π)n/2(ATA)1/21exp(21(yμ)T(ATA)1(yμ))=(2π)n/21/21exp(21(yμ)T()1(yμ))

其中 ∑ = A T A \sum = A^TA =ATA

你可能感兴趣的:(每日总结,人工智能)