机器学习笔记(三)矩阵和线性代数

@(Machine Learning)[线性代数]

1.行列式

  • 1×1 方阵的行列式为该元素本身。
    A=(a11)
    |A|=a11
  • 2×2 方阵,其行列式用主对角线元素乘积减去次对角线元素的乘积。
    A=(a11a21a12a22)

    |A|=a11a22a12a21
  • 3×3 阶方阵
    A=a11a21a31a12a22a32a13a23a33

    三阶矩阵发现 a12 的对角线少一部分(也就是 a23 的右下部分缺失)。一种方法是copy三个完全一样的矩阵做补充。
    机器学习笔记(三)矩阵和线性代数_第1张图片

行列式计算方法是一样的:
|A|=a11a22a33+a12a23a31+a13a21a32a11a23a32a12a21a33a13a22a31

  • 另一种方式就是利用代数余子式来计算

    • 在一个 n 阶行列式 A 中,把 (i,j) 元素 aij 所在的第 i 行和第 j 列划去后,留下的 n1 阶方阵的行列式叫做元素 aij 的余子式,记作 Mij
    • 代数余子式: Aij=(1)i+jMij
      注意:代数余子式是个数值!


      下图方框里计算的值便是 a11 a12 的代数余子式 M11 , M12
      机器学习笔记(三)矩阵和线性代数_第2张图片机器学习笔记(三)矩阵和线性代数_第3张图片

  • n阶的行列式等于它的任意一行(或列)的各元素与其对应的代数余子式乘积之和。

    • 对于任意一列
      jn,|A|=i=1naij(1)i+jMij
    • 对于任意一行
      in,|A|=j=1naij(1)i+jMij
    • 所以上面三阶方阵的行列式A就是: |A|=a11(a22a33a23a32)+a12(a21a33a23a31)+a13(a21a32a23a31)

2.伴随矩阵

对于 n×n 方阵的任意元素a_{ij}都有各自的代数余子式 Aij=(1)i+jMij ,构造 n×n 的方阵 A :

A=A11A12...A1nA21A22...A2n............An1An2...Ann

  • A 称为 A 的伴随矩阵
  • 注意: A12 的位置和前面的是相反的, Aij 位于 A 的第 j 行第 i

3.方阵的逆 AA=|A|I

由前面的结论

in,|A|=j=1naij(1)i+jMij

根据:
A=a11a21...an1a12a22...an2............a1na2n...ann <> A=A11A12...A1nA21A22...A2n............An1An2...Ann
- 两式相乘,其中 A 的第一行与 A 第一列相乘就是上面通式的 a1j×M1j 结果为 |A|

所以

AA=|A|0...00|A|...0......|A|...00...|A|=|A|I=>A1=1|A|A

A1=1|A|A 仅当A有逆的时候成立

4.范德蒙行列式Vandermonde

给定 n 个点,可以用 (n1) 阶的表达式把所有点都表示出来。
机器学习笔记(三)矩阵和线性代数_第4张图片

5.矩阵的乘法

A ms 阶的矩阵, B sn 阶的矩阵,那么, C=AB mn 阶的矩阵,其中

cij=k=1saijbkj

我们把矩阵乘法的过程想象成:
cij= 当前状态 aij * 它下一刻的状态 bkj
bkj 就看作是一个状态转移矩阵

数学解释:
设一个初始概率分布 π (只是一个向量)
- 第 n+1 代中处于第 j 个阶层的概率为:

π(Xn+1=j)=i=1kπ(Xn=i)P(Xn+1=j|Xn=i)

=>πn+1=πnP

全概率公式:
n 代处于 1,2...n 个阶层 * 第 i(1,2...n) 层下第 n+1 代为j的改率 得到一个n+1代处于第j个阶层的概率

因此,矩阵P即为(条件)概率转移矩阵。
  • 第i行元素表示:在上一个状态为i时的分布概率。每一行元素的和为1.
这就可以看成矩阵乘法的一个解释。并且结论证
明, π 的初始分布对矩阵的计算影响不大,

矩阵和向量的乘法

  • A mn 阶的矩阵, X n1 阶的矩阵,则 Ax m1 的列向量,记 y⃗ =Ax⃗ 
  • 由于 n 维列向量和n维空间的点一一对应,上式实际给出了从 n 维空间的点到 m 维空间的的线性变换。
    • 旋转、平移

6.矩阵的秩

  • mn 的矩阵A中,任取 k k 列,不改变这 k2 个元素在 A 中的次序,得到 k 阶方阵,称为矩阵 A k阶子式
  • 设在矩阵A中有一个不等于 0 r 阶子式 D ,且所有 r+1 阶子式全等于 0 (如果存在的话),那么 D 称为矩阵 A 的最高阶非零子式, r 称为矩阵 A 的秩,记作 R(A)=r
    • 如果一个矩阵 |A|0 那么可以说这个矩阵式满秩的
    • nn 的可逆矩阵,秩为n
      矩阵的秩等于它的行列向量组的秩

6.1秩和线性方程组的解的关系

机器学习笔记(三)矩阵和线性代数_第5张图片

对于n元线性方程组Ax = b:
  • 无解的充要条件是 R(A)<R(A,b)
  • 唯一解的充要条件是 R(A)=R(A,b)=n
  • Ax= 0的只有零解的充要条件是 R(A)=n
  • 无穷解的充要条件是 R(A)=R(A,b)<n
  • Ax= b有解的充要条件是 R(A)=R(A,b)
  • Ax= 0的非零解的充要条件是 R(A)<n

6.2向量组

向量b能由向量组 A:a1,a2,...,am 线性表示的充
要条件是矩阵 A=(a1,a2,...am) 的秩等于矩阵
B=(a1,a2,...am,b) 的秩。

因为有解的条件是秩相等。

B=(a1,a2,...am,b) = (λ1a1,λ2a2,...λnam)

  • 若向量组A与向量组B能相互线性表示,则称两个向量组等价。

6.3系数矩阵

  • 将向量组A和B所构成的矩阵依次记做
    A=(a1,a2,...,am) B=(b1,b2,...,bn) B 组能由 A 组线性表示,即对每个向量bj,存在 k1j,k2j,...kmj 使得
    bj=k1ja1+k2ja2++kmjam=(a1  a2...am)k1jk2jkmj
  • 从而得到**系数矩阵**K
    (b1  b2bn)=(a1  a2...am)k11  k12k1nk21  k22k2nkm1  km2kmn
由此可知,若 C=A×B ,则矩阵C的列向量能由A的列向量线性表示,B即为这一表示的系数矩阵。

对偶的,行向量也是如此

向量组B: b1,b2,...,bn 能由向量组 A:a1,a2,...,am 线性表示的充要条件是矩阵 A=(a1,a2,...,am) 的秩等于矩阵 (A,B)=(a1,a2,...,am,b1,b2,...,bn) 的秩,即: R(A)=R(A,B)

7.正交阵

  • n 阶矩阵A满足 ATA=I ,称A为正交矩阵,简称正交阵。
    • A 是正交阵的充要条件:A的列(行)向量都是单位向量,且两两正交
  • A 是正交阵,X为向量,则Ax称作正交变换。
    • 正交变换不改变向量长度。

7.1特征值和特征向量

A是n阶矩阵,若数 λ 和n维非0列向量满足 Ax=λx ,那么,数称为A的特征向值,x称为A的对应于特征值的 λ 特征向量。
  • 根据定义,立刻得到 (AλI)x=0 ,令关于 λ 的多项式 |AλI| 为0,方程 |AλI|=0 的根为 A 的特征值;将根 λ0 带入方程组 (AλI)x=0 ,求得到的非零解,即 λ0 对应的特征向量。
  • n 阶矩阵 A=(aij) 的特征值为 λ1,λ2,...λn ,则
    • λ1+λ2+...+λn=a11+a22++ann
    • λ1  λ2 λn=|A|
      • 矩阵A的主行列式的元素和,称作矩阵A的迹

推论:

不同特征值对应的特征向量,线性无关。
实对称阵的特征值也是实数。


实对称阵不同的特征值的特征向量正交:
证明:

令是对称矩阵为A, 它的两个不同的特征值 λ1,λ2 对应的特征向量分别是 μ1,μ2 ;其中, λ1,λ2,μ1,μ2 都是实数或是实向量。
- 则有: Aμ1=λ1μ1 , Aμ2=λ2μ2
- (Aμ1)T=(λ1μ1)T , 从而 μT1A=λ1μT1 对称阵转置还是本身
- 同乘 μ2 : μT1Aμ2=λ1μT1μ2
- μT1Aμ2=μT1(Aμ2)=μT1λ2μ2=λ2μT1μ2
- 所以: λ1μT1μ2 =λ2μT1μ2
- 故: (λ1λ2)μT1μ2=0
- 故 λ1λ2 , 所以 μT1μ2=0 ,所以 μ1,μ2 正交

####最终结论:
####设A为n阶对称阵,则必有正交阵P,使得

P1AP=PTAP=Λ

##### Λ 是以A的n个特征值为对角元的 对角阵
#####改变还称为“合同变换”,A和 Λ 互为合同矩阵。

7.2漂白/白化whitening

x= 机器学习笔记(三)矩阵和线性代数_第6张图片

计算观测数据x的n×n的对称阵的特征值和特征向量,用特征值形成对角阵D,特征向量形成正交阵U,则: xxT=UTDU
- 解:令: x˜=UTD0.5Ux
- 则: x˜x˜T=(UTD0.5Ux)(UTD0.5Ux)T
- =(UTD0.5Ux)(xTUTD0.5U) 对角阵D转置还是本身
- =UTD0.5U(xxT)UTD0.5U
- =UTD0.5UUTDUUTD0.5U
- =1

8.正定阵

对于 n 阶方阵 A ,若任意 n 阶向量 x ,都有 xTAx>0 ,则称 A 是正定阵。

  • 由一阶推广而来: xax=ax2>0>a>0
  • 若条件变成 xTAx0 ,则 A 称作半正定矩阵。

正定阵的判定:
- 对称阵A为正定阵;
- A的特征值都为正;
- A的顺序主子式大于0;

思考:对于任意 m×n 的矩阵 A ,证明 ATA 一定是半正定方阵。 —形成方阵

9.向量的导数

A m×n 的矩阵, x n×1 的列向量,则 Ax m×1 的列向量,记 y⃗ =Ax⃗ 
思考: yx= ?

机器学习笔记(三)矩阵和线性代数_第7张图片

结论的直接推广:

Ax⃗ x⃗ =AT

Ax⃗ x⃗ T=A

(xTA)x⃗ T=A

9.2标量对向量的导数

A为 n×n 的矩阵, x n×1 的列向量
y=x⃗ TAx⃗  (y没有箭头)
同理可得: yx=(x⃗ TAx⃗ )x⃗ =(AT+A)x⃗ 
若A为对称阵,则有 (x⃗ Ax⃗ )x⃗ =2Ax⃗ 
理论推导:

A=a11a21an1a12a22an2a1na2nann    x⃗ =x1x2xn

x⃗ TAx⃗ =(x1,x2.....xn)(j=1na1jxj j=1na2jxj ...j=1nanjxj)T

=ni=1nj=1aijxjxi=ni=1nj=1aijxixj
则: (x⃗ TAx⃗ )x⃗ =j=1aijxj+j=1aijxj=nj=1(aij+aji)xj

也可以看成 dax2dx=2ax 同理 dxTAxdx=2Ax 如果A是对称阵的话。

9.3标量对方阵求导数

A为 n×n 的矩阵,|A|为A的行列式,试计算 |A|A
解:

根据等式 |A|=nj=1aij(1)i+jMij

|A|A=(nj=1aij(1)i+jMij)aij=(1)i+jMij=Aji

可以看出对方阵求导就是解A的伴随矩阵
从而: |A|A=(A)T=|A|(A1)T
- 根据 AA=|A|I ,第二个等式成立。

你可能感兴趣的:(机器学习,自然语言处理,数学)