矩阵的二次型,矩阵的迹、正定矩阵、Hessian矩阵、实对称

一、二次型:

1.1 定义

含有 n n n个变量 x 1 , x 2 , … , x n x_1,x_2,\dots,x_n x1,x2,,xn的二次齐次函数(如果变量乘以一个系数,则新函数会是原函数再乘上系数的某次方倍):

f ( x 1 , x 2 , … , x n ) = a 11 x 1 2 + a 22 x 2 2 + ⋯ + a n n x n 2 + 2 a 12 x 1 x 2 + 2 a 13 x 1 x 3 + ⋯ + 2 a n − 1 , n x n − 1 x n f(x_1,x_2,\dots,x_n)=a_{11}x_1^2+a_{22}x_2^2+\dots+a_{nn}x_n^2+2a_{12}x_1x_2+2a_{13}x_1x_3+\dots+2a_{n-1,n}x_{n-1}x_n f(x1,x2,,xn)=a11x12+a22x22++annxn2+2a12x1x2+2a13x1x3++2an1,nxn1xn

称为二次型。

a i j = a j i a_{ij}=a_{ji} aij=aji,则 2 a i j x i x j = a i j x i x j + a j i x j x i 2a_{ij}x_ix_j=a_{ij}x_ix_j+a_{ji}x_jx_i 2aijxixj=aijxixj+ajixjxi,于是上式可写成:

f = a 11 x 1 2 + a 12 x 1 x 2 + ⋯ + a 1 n x 1 x n + a 21 x 2 x 1 + a 22 x 2 2 + ⋯ + a 2 n x 2 x n + … + a n 1 x n x 1 + a n 2 x n x 2 + ⋯ + a n n x n 2 = ∑ i , j = 1 n a i j x i x j f=a_{11}x_1^2+a_{12}x_1x_2+\dots+a_{1n}x_1x_n\\\quad\quad+a_{21}x_2x_1+a_{22}x_2^2+\dots+a_{2n}x_2x_n\\\quad\quad+\dots\\\quad\quad+a_{n1}x_nx_1+a_{n2}x_nx_2+\dots+a_{nn}x_n^2\\\quad=\sum\limits_{i,j=1}^na_{ij}x_ix_j f=a11x12+a12x1x2++a1nx1xn+a21x2x1+a22x22++a2nx2xn++an1xnx1+an2xnx2++annxn2=i,j=1naijxixj

由上式,利用矩阵,二次型可表示为:

f = x 1 ( a 11 x 1 + a 12 x 2 + ⋯ + a 1 n x n ) + x 2 ( a 21 x 1 + a 22 x 2 + ⋯ + a 2 n x n ) + … + x n ( a n 1 x 1 + a x 2 x 2 + ⋯ + a n n x n ) = ( x 1 , x 2 , … , x n ) [ a 11 x 1 + a 12 x 2 + ⋯ + a 1 n x n a 21 x 1 + a 22 x 2 + ⋯ + a 2 n x n ⋮ a n 1 x 1 + a x 2 x 2 + ⋯ + a n n x n ] = ( x 1 , x 2 , … , x n ) [ a 11 a 12 … a 1 n a 21 a 22 … a 2 n ⋮ a n 1 a x 2 … a n n ] [ x 1 x 2 ⋮ x n ] f=x_1(a_{11}x_1+a_{12}x_2+\dots+a_{1n}x_n)\\\quad\quad+x_2(a_{21}x_1+a_{22}x_2+\dots+a_{2n}x_n)\\\quad\quad+\dots\\\quad\quad+x_n(a_{n1}x_1+a_{x2}x_2+\dots+a_{nn}x_n)\\\quad=(x_1,x_2,\dots,x_n)\begin{bmatrix} a_{11}x_1+a_{12}x_2+\dots+a_{1n}x_n \\ a_{21}x_1+a_{22}x_2+\dots+a_{2n}x_n \\ \vdots \\ a_{n1}x_1+a_{x2}x_2+\dots+a_{nn}x_n \end{bmatrix}\\\quad=(x_1,x_2,\dots,x_n)\begin{bmatrix} a_{11}&a_{12}&\dots&a_{1n} \\ a_{21}&a_{22}&\dots&a_{2n} \\ \vdots \\ a_{n1}&a_{x2}&\dots&a_{nn} \end{bmatrix}\begin{bmatrix}x_1\\x_2\\\vdots\\x_n\end{bmatrix} f=x1(a11x1+a12x2++a1nxn)+x2(a21x1+a22x2++a2nxn)++xn(an1x1+ax2x2++annxn)=(x1,x2,,xn)a11x1+a12x2++a1nxna21x1+a22x2++a2nxnan1x1+ax2x2++annxn=(x1,x2,,xn)a11a21an1a12a22ax2a1na2nannx1x2xn

记:

A = [ a 11 a 12 … a 1 n a 21 a 22 … a 2 n ⋮ a n 1 a x 2 … a n n ] , x = [ x 1 x 2 ⋮ x n ] A=\begin{bmatrix} a_{11}&a_{12}&\dots&a_{1n} \\ a_{21}&a_{22}&\dots&a_{2n} \\ \vdots \\ a_{n1}&a_{x2}&\dots&a_{nn} \end{bmatrix},x=\begin{bmatrix}x_1\\x_2\\\vdots\\x_n\end{bmatrix} A=a11a21an1a12a22ax2a1na2nann,x=x1x2xn

则二次型可记作:

f = x T A x f=x^TAx f=xTAx

注意,对任何一个二次型函数,存在许多矩阵 A A A,它们的二次型相同。但是,只有唯一的一个对阵矩阵 A A A。因此,在讨论矩阵 A A A的二次型时,通常都假定 A A A为实对称矩阵或复共轭对称(即Hermitian)矩阵。

定义1.6.1:

一个复共轭对阵矩阵 A A A称为:

  • 正定矩阵:二次型 x H A x > 0 , ∀ x ≠ 0 x^HAx>0,\forall x\ne0 xHAx>0x=0
  • 半正定矩阵:二次型 x H A x ≥ 0 , ∀ x ≠ 0 x^HAx\ge0,\forall x\ne0 xHAx0x=0(也称非负定的)
  • 负定矩阵:二次型 x H A x < 0 , ∀ x ≠ 0 x^HAx<0,\forall x\ne0 xHAx<0x=0
  • 非负定矩阵:二次型 x H A x ≤ 0 , ∀ x ≠ 0 x^HAx\le0,\forall x\ne0 xHAx0x=0(也称非正定的)
  • 不定矩阵:二次型 x T A x x^TAx xTAx既可能取正值,也可能取负值

二、矩阵的迹

定义1.6.3

n × n n\times n n×n矩阵 A A A的对角元素之和称为 A A A的迹(trace),记作 t r ( A ) tr(A) tr(A),即:

t r ( A ) = a 11 + a 22 + ⋯ + a n n = ∑ i = 1 n a i i ( 1.6.5 ) tr(A)=a_{11}+a_{22}+\dots+a_{nn}=\sum\limits_{i=1}^na_{ii} \quad(1.6.5) tr(A)=a11+a22++ann=i=1naii(1.6.5)

2.1 关于迹的等式

矩阵的二次型,矩阵的迹、正定矩阵、Hessian矩阵、实对称_第1张图片

2.2 关于迹的不等式

矩阵的二次型,矩阵的迹、正定矩阵、Hessian矩阵、实对称_第2张图片

三、行列式

一个 n × n n\times n n×n正方矩阵 A A A的行列式记作 d e t ( A ) det(A) det(A) ∣ A ∣ |A| A,定义为:

d e t ( A ) = ∣ A ∣ = ∣ a 11 a 12 … a 1 n a 21 a 22 … a 2 n ⋮ ⋮ ⋮ a n 1 a n 2 … a n n ∣ det(A)=|A|=\begin{vmatrix}a_{11}&a_{12}&\dots&a_{1n}\\a_{21}&a_{22}&\dots&a_{2n}\\\vdots&\vdots&&\vdots\\a_{n1}&a_{n2}&\dots&a_{nn}\end{vmatrix} det(A)=A=a11a21an1a12a22an2a1na2nann

二、正定矩阵:

2.1 定义

定义:

设有二次型 f ( x ) = x T A x f(x)=x^TAx f(x)=xTAx,如果对任意 x ≠ 0 x\ne0 x=0,都有 f ( x ) > 0 f(x)>0 f(x)>0 f ( 0 ) = 0 ) f(0)=0) f(0)=0),则称 f f f为正定二次型,并称对称阵 A A A是正定的;如果对任何 x ≠ 0 x\ne0 x=0都有 f ( x ) < 0 f(x)<0 f(x)<0,则称 f f f为负定二次型,并称对称阵 A A A是负定的。

推论:

对称阵 A A A为正定的充分必要条件是: A A A的特征值全为正。

2.2 从几何意义理解正定二次型

对于最简单的一元二次函数,当 x ≠ 0 x \neq 0 x=0 f ( x ) > 0 f(x)>0 f(x)>0恒成立。即一元二次正定型对应的图像是开口向上,顶点在原点的抛物线,同理二元二次正定型 f ( x , y ) = x 2 + y 2 f(x,y)=x^2+y^2 f(x,y)=x2+y2对应的图像是开口向上,顶点在原点的抛物面。
矩阵的二次型,矩阵的迹、正定矩阵、Hessian矩阵、实对称_第3张图片
拓展到n元正定二次型的图像也对应着一个抛物线,保证当自变量取值非零向量时,对应的函数值大于零恒成立

2.3 半正定矩阵

2.3.1 图像

同样我们可以给出二元半正定二次型的图像,即当某个自变量的特征值为0从而保证当自变量取值为非零向量时,对应的函数值大于等于0恒成立。
矩阵的二次型,矩阵的迹、正定矩阵、Hessian矩阵、实对称_第4张图片

2.3.2 性质
  1. 半正定矩阵的行列式非负
  2. 两个半正定矩阵的和是半正定的
  3. 非负实数与半正定矩阵的数乘是半正定的
  4. 半正定矩阵的特征值都是非负的

三、Hessian矩阵:

实值函数 f ( x ) f(x) f(x)相对于 m × 1 m\times1 m×1实向量 x x x的二阶偏导是一个由 m 2 m^2 m2个二阶偏导组成的矩阵(称为Hessian矩阵),定义为:

∂ 2 f ( x ) ∂ x ∂ x T {\partial^2f(x)}\over{\partial x\partial x^T} xxT2f(x)= ∂ ∂ x T \partial\over\partial x^T xT[ ∂ f ( x ) ∂ x \partial f(x)\over\partial x xf(x)]

或者简写为梯度的梯度:

∇ x 2 f ( x ) = ∇ x ( ∇ x f ( x ) ) \nabla^2_xf(x)=\nabla_x(\nabla_xf(x)) x2f(x)=x(xf(x))

根据定义,Hessian矩阵的第 j j j列是梯度 ∂ f ( x ) ∂ x \partial f(x)\over\partial x xf(x)= ∇ x f ( x ) \nabla_xf(x) xf(x) j j j个分量的梯度,即:

[ ∂ 2 f ( x ) ∂ x ∂ x T \partial^2f(x)\over\partial x\partial x^T xxT2f(x)]= ∂ 2 f ( x ) ∂ x i ∂ x j \partial^2f(x)\over\partial x_i\partial x_j xixj2f(x)

其方块矩阵如下所示:

[ ∂ 2 f ∂ x 1 2 ∂ 2 f ∂ x 1 ∂ x 2 … ∂ 2 f ∂ x 1 ∂ x n ∂ 2 f ∂ x 2 ∂ x 1 ∂ 2 f ∂ x 2 2 … ∂ 2 f ∂ x 2 ∂ x n ⋮ ⋮ ⋱ ⋮ ∂ 2 f ∂ x n ∂ x 1 ∂ 2 f ∂ x n ∂ x 2 … ∂ 2 f ∂ x n 2 ] \begin {bmatrix} {\partial ^2f \over \partial x_1^2}& {\partial ^2f \over \partial x_1 \partial x_2}& \dots & {\partial ^2f \over \partial x_1 \partial x_n} \\ {\partial ^2f \over \partial x_2 \partial x_1}& {\partial ^2f \over \partial x_2^2}& \dots & {\partial ^2f \over \partial x_2 \partial x_n}\\ \vdots & \vdots &\ddots & \vdots \\ {\partial ^2f \over \partial x_n \partial x_1}& {\partial ^2f \over \partial x_n \partial x_2} & \dots & {\partial ^2f \over \partial x_n^2} \end {bmatrix} x122fx2x12fxnx12fx1x22fx222fxnx22fx1xn2fx2xn2fxn22f

因此,Hessian矩阵可以用两步法求出:

(1)求实值函数 f ( x ) f(x) f(x)关于向量变元 x x x的偏导数,得到实值函数的梯度 ∂ f ( x ) ∂ x \partial f(x)\over \partial x xf(x)
(2)再求梯度 ∂ f ( x ) ∂ x \partial f(x)\over\partial x xf(x)相对于 1 × n 1\times n 1×n行向量 x T x^T xT的偏导数,得到梯度的梯度即Hessian矩阵

根据以上步骤,容易得到Hessian矩阵的下列公式:

矩阵的二次型,矩阵的迹、正定矩阵、Hessian矩阵、实对称_第5张图片
x ∗ x_* x为目标函数的局部极小点,当目标函数 f f f光滑时,存在很多有效和实际的方法来识别一个点是否为局部极小点。特别地,如果 f f f是二次连续可微分的话,直接通过检验梯度 ∇ x f ( x ∗ ) \nabla_xf(x_*) xf(x)和Hessian矩阵 ∇ x 2 f ( x ∗ ) \nabla_x^2f(x_*) x2f(x),即可判断点 x ∗ x_* x是否为局部极小点(甚至是严格局部极小点)。

( ∇ x ) T ∇ x (\nabla x)^T\nabla x (x)Tx很小,则函数 f ( x ) f(x) f(x)的Taylor级数展开为:

f ( x + ∇ x ) = f ( x ) + ( ∇ x ) T ∇ x f ( x ) + 1 2 ( ∇ x ) T ∇ x 2 f ( x ) ∇ x f(x+\nabla x)=f(x)+(\nabla x)^T\nabla_xf(x)+\frac{1}{2}(\nabla x)^T\nabla_x^2f(x)\nabla x f(x+x)=f(x)+(x)Txf(x)+21(x)Tx2f(x)x

如果函数f是连续的,那么它的Hessian矩阵一定是对称阵,因为对函数求偏导的顺序不影响偏导的值。
Hessian矩阵可以用于多元函数极值的判定:
矩阵的二次型,矩阵的迹、正定矩阵、Hessian矩阵、实对称_第6张图片
两个求Hessian矩阵的例子:
矩阵的二次型,矩阵的迹、正定矩阵、Hessian矩阵、实对称_第7张图片
矩阵的二次型,矩阵的迹、正定矩阵、Hessian矩阵、实对称_第8张图片
矩阵的二次型,矩阵的迹、正定矩阵、Hessian矩阵、实对称_第9张图片
https://blog.csdn.net/jbb0523/article/details/50598523

四、实对称矩阵

如果有n阶矩阵A,其矩阵的元素都为实数,且矩阵A的转置等于其本身( a i j = a j i a_{ij}=a_{ji} aij=aji),则称A为实对称矩阵。

4.1 性质

4.1.1 定理一

对称矩阵的特征值为实数、特征向量是实向量。

4.1.2 定理二

设 λ 1 , λ 2 是 实 对 称 矩 阵 A 的 两 个 特 征 值 , p 1 , p 2 是 对 应 的 特 征 向 量 , 若 λ 1 ≠ λ 2 , 则 p 1 与 p 2 正 交 设\lambda_1,\lambda_2是实对称矩阵A的两个特征值,p_1,p_2是对应的特征向量,若\lambda_1\ne\lambda_2,则p_1与p_2正交 λ1,λ2Ap1,p2λ1=λ2p1p2

证明:
λ 1 p 1 = A p 1 , λ 2 p 2 = A p 2 , λ 1 ≠ λ 2 \lambda_1p_1=Ap_1,\lambda_2p_2=Ap_2,\lambda_1\ne\lambda_2 λ1p1=Ap1,λ2p2=Ap2,λ1=λ2
∵ A 对 称 , A = A T \because A对称,A=A^T A,A=AT
∴ λ 1 p 1 T = ( λ 1 p 1 ) T = ( A p 1 ) T = p 1 T A T = p 1 T A \therefore \lambda_1p_1^T=(\lambda_1p_1)^T=(Ap_1)^T=p_1^TA^T=p_1^TA λ1p1T=(λ1p1)T=(Ap1)T=p1TAT=p1TA
∴ λ 1 p 1 T p 2 = p 1 T A p 2 = p 1 T ( λ 2 p 2 ) = λ 2 p 1 T p 2 \therefore \lambda_1p_1^Tp_2=p_1^TAp_2=p_1^T(\lambda_2p_2)=\lambda_2p_1^Tp_2 λ1p1Tp2=p1TAp2=p1T(λ2p2)=λ2p1Tp2
∴ ( λ 1 − λ 2 ) p 1 T p 2 = 0 \therefore (\lambda_1-\lambda_2)p_1^Tp_2=0 (λ1λ2)p1Tp2=0
∵ λ 1 ≠ λ 2 \because \lambda_1\ne\lambda_2 λ1=λ2
∴ p 1 T p 2 = 0 , 即 p 1 与 p 2 正 交 \therefore p_1^Tp_2=0,即p_1与p_2正交 p1Tp2=0p1p2

4.1.3 定理三

设A为n阶对称矩阵,则必有正交矩阵P,使 P − 1 A P = Λ P^{-1}AP=\Lambda P1AP=Λ,其中 Λ \Lambda Λ是以A的n个特征值为对角元素的对角矩阵
或:
若 A = A T 若A=A^T A=AT
   ⟹    ∃ ∣ p ∣ ≠ 0 且 P T = P − 1 , 使 P − 1 A P = Λ = d i a g ( λ 1 , λ 2 , . . . , λ n ) \implies \exist|p|\ne0且P^T=P^{-1},使P^{-1}AP=\Lambda=diag(\lambda_1,\lambda_2,...,\lambda_n) p=0PT=P1使P1AP=Λ=diag(λ1,λ2,...,λn)

https://wenku.baidu.com/view/f04d366e58fafab069dc0256.html?sxts=1591661298009

你可能感兴趣的:(矩阵分析,线性代数)