本节是很重要的一节。前面的章节通过解释基向量的思想为本节做了准备,第 6 章介绍了特征向量 x \boldsymbol x x,第 7 章求得了奇异向量 v \boldsymbol v v 和 u \boldsymbol u u. 这两种向量组是基向量的最佳选择,但是其它的选择也很有价值。
这里先回顾一下 8.2 8.2 8.2 节纯代数的结果,然后介绍好的基。输入基向量构成 B in B_{\textrm{\pmb{in}}} Bin 的列向量,输出基向量构成 B out B_{\textrm{\pmb{out}}} Bout 的列向量。 B in B_{\textrm{\pmb{in}}} Bin 和 B out B_{\textrm{\pmb{out}}} Bout 总是可逆的,这是因为基向量组线性无关!
纯代数 \kern 7pt 如果 A A A 是线性变换 T T T 在标准正交基下的矩阵,则 B out − 1 A B in 是新基下的矩阵 ( 8.3.1 ) \pmb{B^{-1}_{\textrm{out}}AB_{\textrm{in}}}\kern 5pt是新基下的矩阵\kern 26pt(8.3.1) Bout−1ABin是新基下的矩阵(8.3.1)标准正交基向量是单位矩阵的列向量: B in = I n×n , B out = I m×m B_{\textrm{\pmb {in}}}=I_{\textrm{\pmb{n×n}}},B_{\textrm{\pmb{out}}}=I_{\textrm{\pmb{m×m}}} Bin=In×n,Bout=Im×m. 现在我们选择特殊的基使得变换矩阵比 A A A 更简洁。当 B in = B out = B B_{\textrm{in}}=B_{\textrm{out}}=B Bin=Bout=B 时,方阵 B − 1 A B B^{-1}AB B−1AB 和 A A A 相似。
应用代数 \kern 7pt 我们在应用时都要选择一组好基。这里介绍向量空间中四个重要的选择以及函数空间中的三个选择。特征向量和奇异向量给出对角矩阵 Λ \Lambda Λ 和 Σ \Sigma Σ,还有新的若尔当形(Jordan form).
1. B in = B out = X \kern 10pt\pmb{B_{\textrm{\pmb{in}}}=B_{\textrm{\pmb{out}}}=X} Bin=Bout=X,其中 X \pmb X X 是特征向量矩阵,则 X − 1 A X = Λ \pmb{X^{-1}AX=\Lambda} X−1AX=Λ, Λ \pmb \Lambda Λ 是特征值矩阵,它是对角线元素为特征值的对角矩阵。
这种选择要求 A A A 是方阵且有 n n n 个线性无关的特征向量,“ A A A 一定要可对角化”。当 B in = B out B_{\textrm{\pmb{in}}}=B_{\pmb{\textrm{out}}} Bin=Bout 是特征向量矩阵 X X X 时,我们得到的变换矩阵是 Λ \Lambda Λ.
2. B in = V , B out = U : \kern 10pt\pmb{B_{\textrm{in}}=V,B_{\textrm{out}}=U}: Bin=V,Bout=U:是 A \pmb A A 的奇异值向量。 则 U − 1 A V = Σ \pmb{U^{-1}AV=\Sigma} U−1AV=Σ,其中 Σ \Sigma Σ 是对角矩阵。
当 B in B_{\textrm{in}} Bin 和 B out B_{\textrm{out}} Bout 是奇异值向量矩阵 V V V 和 U U U 时, Σ \Sigma Σ 是奇异值矩阵(对角元素是 σ 1 , σ 2 , ⋯ , σ r \sigma_1,\sigma_2,\cdots,\sigma_r σ1,σ2,⋯,σr). B in B_{\textrm{in}} Bin 和 B out B_{\textrm{out}} Bout 的列向量是 A T A A^TA ATA 和 A A T AA^T AAT 正交特征向量。此时 A = U Σ V T A=U\Sigma V^T A=UΣVT 给出 Σ = U − 1 A V \Sigma=U^{-1}AV Σ=U−1AV.
3. B in = B out \kern 10pt\pmb{B_{\textrm{in}}=B_{\textrm{out}}} Bin=Bout 由 A \pmb A A 的广义特征向量(generalized eigenvectors)构成. 则 B − 1 A B = J \pmb{B^{-1}AB=J} B−1AB=J,其中 J \pmb J J 是若儿当形。
4. B in = B out = F \kern 10pt\pmb{B_{\textrm{in}}=B_{\textrm{out}}=F} Bin=Bout=F,其中 F \pmb F F 是傅里叶矩阵(Fourier matrix),则 F x F\boldsymbol x Fx 是 x \boldsymbol x x 的离散傅里叶变换(Discrete Fourier Transform)。
若 B in = B out \pmb{B_{\textrm{in}}=B_{\textrm{out}}} Bin=Bout 且等于由 A A A 的广义特征向量构成的 B B B,则 B − 1 A B \pmb{B^{-1}AB} B−1AB 为若尔当形 J \pmb J J.
A A A 是一个 n n n 阶方阵,但是它可能只有 s s s 个线性无关的特征向量.(如果 s = n s=n s=n 则 B = X B=X B=X,而 J = Λ J=\Lambda J=Λ.)当 s < n s
i ) \kern 10pt\textrm i) i) 沿着 J J J 的对角线有 s s s 个方块。
ii ) \kern 7pt\textrm{ii}) ii) 每个方块对应一个特征值 λ \lambda λ,一个特征向量,并且对角线正上方的元素为 1 1 1.
最好的情形就是有 n n n 个 1 × 1 1\times1 1×1 的块,每个都包含一个特征值,则此时 J J J 就是对角的特征值矩阵 Λ \Lambda Λ.
【例1】下面的这个若尔当矩阵 J J J 的特征值是 λ = 2 , 2 , 3 , 3 \lambda=2,2,3,3 λ=2,2,3,3(两个双重特征值)。 J J J 是上三角矩阵,这些特征值都沿着对角线分布,特征值 λ = 2 \lambda=2 λ=2 对应两个线性无关的特征向量,但是 λ = 3 \lambda=3 λ=3 只对应一个特征向量。这对所有与 J J J 相似的矩阵 C = B J B − 1 C=BJB^{-1} C=BJB−1 都成立。 若尔当矩阵 J = [ 2 2 [ 3 1 0 3 ] ] 两个 1 × 1 的块 一个 2 × 2 的块 三个特征值 特征值是 2 , 2 , 3 , 3 \pmb{若尔当矩阵}\kern 13ptJ=\begin{bmatrix}2\\&2\\&&\begin{bmatrix}3&1\\0&3\end{bmatrix}\end{bmatrix}\kern 10pt\begin{array}{l}两个\,1\times1\,的块\\一个\,2\times2\,的块\\三个特征值\\特征值是\,2,2,3,3\end{array} 若尔当矩阵J= 22[3013] 两个1×1的块一个2×2的块三个特征值特征值是2,2,3,3 λ = 2 \lambda=2 λ=2 对应的两个特征向量分别是 x 1 = ( 1 , 0 , 0 , 0 ) \boldsymbol x_1=(1,0,0,0) x1=(1,0,0,0) 和 x 2 = ( 0 , 1 , 0 , 0 ) \boldsymbol x_2=(0,1,0,0) x2=(0,1,0,0), λ = 3 \lambda=3 λ=3 对应的一个特征向量是 x 3 = ( 0 , 0 , 1 , 0 ) \boldsymbol x_3=(0,0,1,0) x3=(0,0,1,0),这个若尔当矩阵的 “广义特征向量” 是第四个标准基向量 x 4 = ( 0 , 0 , 0 , 1 ) \boldsymbol x_4=(0,0,0,1) x4=(0,0,0,1). J J J 的特征向量(标准和广义的)恰好就是单位矩阵 I I I 的列向量 x 1 , x 2 , x 3 , x 4 \boldsymbol x_1,\boldsymbol x_2,\boldsymbol x_3,\boldsymbol x_4 x1,x2,x3,x4.
注意 ( J − 3 I ) x 4 = x 3 \pmb{(J-3I)\boldsymbol x_4=\boldsymbol x_3} (J−3I)x4=x3,广义特征向量 x 4 \boldsymbol x_4 x4 关联了标准特征向量 x 3 \boldsymbol x_3 x3. 如果是真正的特征向量 x 4 \boldsymbol x_4 x4 则应满足 ( J − 3 I ) x 4 = 0 (J-3I)\boldsymbol x_4=\boldsymbol 0 (J−3I)x4=0,但是这里并不存在。
与 J J J 相似的所有矩阵 C = B J B − 1 C=BJB^{-1} C=BJB−1 都有三个真正的特征向量 b 1 , b 2 , b 3 \boldsymbol b_1,\boldsymbol b_2,\boldsymbol b_3 b1,b2,b3,它们是 B B B 的前三列, B B B 的第四列是 C C C 的广义特征向量 b 4 \boldsymbol b_4 b4,它与 b 3 \boldsymbol b_3 b3 关联。这里使用 B x 3 = b 3 B\boldsymbol x_3=\boldsymbol b_3 Bx3=b3 和 B x 4 = b 4 B\boldsymbol x_4=\boldsymbol b_4 Bx4=b4 快速证明: B B B 的第四列 b 4 \boldsymbol b_4 b4 和 b 3 \boldsymbol b_3 b3 的联系由 ( C − 3 I ) b 4 = b 3 (C-3I)\boldsymbol b_4=\boldsymbol b_3 (C−3I)b4=b3 给出: ( B J B − 1 − 3 I ) b 4 = B J x 4 − 3 B x 4 = B ( J − 3 I ) x 4 = B x 3 = b 3 ( 8.3.2 ) (BJB^{-1}-3I)\boldsymbol b_4=BJ\boldsymbol x_4-3B\boldsymbol x_4=B(J-3I)\boldsymbol x_4=B\boldsymbol x_3=\boldsymbol b_3\kern 10pt(8.3.2) (BJB−1−3I)b4=BJx4−3Bx4=B(J−3I)x4=Bx3=b3(8.3.2)若尔当定理(Jordan’s theorem)表明,每个方阵 A A A 都对应一组完整的特征向量和广义特征向量,当这些向量作为 B B B 的列向量时,矩阵 B − 1 A B = J B^{-1}AB=J B−1AB=J 就是若尔当形。基于例 1 可以给出 J J J 的一个描述。
对于任意的方阵 A A A,我们希望找到一个 B B B 使得 B − 1 A B B^{-1}AB B−1AB 尽可能对角化。当 A A A 有全部 n n n 个线性无关的特征向量时,它们构成 B B B 的各列,此时 B = X B=X B=X,矩阵 X − 1 A X X^{-1}AX X−1AX 是对角矩阵,这就是当 A A A 可以对角化时的若尔当形(Jordan form). 一般情况下,特征向量不足时将无法得到对角矩阵 Λ \Lambda Λ.
假设 A A A 有 s s s 个线性无关的特征向量,其中 s < n s
若有 n n n 个特征向量时,则所有 n n n 个子块都是 1 × 1 1\times1 1×1 的,此时 J = Λ J=\Lambda J=Λ.
(若尔当形) 如果 A A A 有 s s s 个线性无关的特征向量,则它相似于对角线上有 s s s 个若尔当块 J 1 , J 2 , ⋯ , J s J_1,J_2,\cdots,J_s J1,J2,⋯,Js 的矩阵 J J J,存在矩阵 B B B 可以将 A A A 变为若尔当形: 若尔当形 Jordan form B − 1 A B = [ J 1 J 2 ⋱ J s ] = J ( 8.3.3 ) \pmb{若尔当形\,\textrm{Jordan\, form}}\kern 20pt{\color{blue}{B^{-1}AB=\begin{bmatrix}J_1\\&J_2\\&&\ddots\\&&&J_s\end{bmatrix}=J}}\kern 20pt(8.3.3) 若尔当形Jordan formB−1AB= J1J2⋱Js =J(8.3.3)每个若尔当块 J i J_i Ji 有一个特征值 λ i \lambda_i λi 和一个特征向量,并且对角线正上方的元素是 1 1 1: 若尔当块 Jordan block J i = [ λ i 1 ⋱ ⋱ ⋱ 1 λ i ] ( 8.3.4 ) \pmb{若尔当块\,\textrm{Jordan \,block}}\kern 20pt{\color{blue}J_i=\begin{bmatrix}\lambda_i&1\\&\ddots&\ddots\\&&\ddots&1\\&&&\lambda_i\end{bmatrix}}\kern 25pt(8.3.4) 若尔当块Jordan blockJi= λi1⋱⋱⋱1λi (8.3.4)当且仅当矩阵有相同的若尔当形 J \pmb J J 时,它们相似。
每缺少一个特征向量,若尔当形 J J J 就有一个对角线上方的 1 1 1(它与特征值相邻),在每一族相似矩阵里,我们取一个代表 J J J,它最接近于对角矩阵(或者就是对角矩阵呢),我们可以使用若尔当形快速求解 d u d t = J u \dfrac{\textrm d\boldsymbol u}{\textrm d t}=J\boldsymbol u dtdu=Ju 并且求矩阵的幂 J k J^k Jk,该族里的其它矩阵都有 B J B − 1 BJB^{-1} BJB−1 的形式。
对于任意的方阵 A = B J B − 1 \pmb{A=BJB^{-1}} A=BJB−1,我们可以使用若尔当形求解微分方程 d u d t = A u \dfrac{\textrm d\boldsymbol u}{\textrm dt}=A\boldsymbol u dtdu=Au,则解 e A t u ( 0 ) e^{At}\boldsymbol u(0) eAtu(0) 变为 u ( t ) = B e J t B − 1 u ( 0 ) \boldsymbol u(t)=Be^{Jt}B^{-1}\boldsymbol u(0) u(t)=BeJtB−1u(0), J J J 是三角形矩阵,它的矩阵指数 e J t e^{Jt} eJt 包含有 e λ t e^{\lambda t} eλt 乘幂函数 1 , t , ⋯ , t s − 1 1,t,\cdots,t^{s-1} 1,t,⋯,ts−1.
原因: 一个 s × s s\times s s×s 的若尔当块记为: J = [ λ 1 ⋱ ⋱ ⋱ 1 λ ] J=\begin{bmatrix}\lambda&1\\&\ddots&\ddots\\&&\ddots&1\\&&&\lambda\end{bmatrix} J= λ1⋱⋱⋱1λ 该若尔当块可以分解为 J = λ I + N J=\lambda I+N J=λI+N,其中 I I I 是 s × s s\times s s×s 的单位矩阵, N N N 是零幂矩阵(nilpotent matrix), N = [ 0 1 ⋱ ⋱ ⋱ 1 0 ] N=\begin{bmatrix}0&1\\&\ddots&\ddots\\&&\ddots&1\\&&&0\end{bmatrix} N= 01⋱⋱⋱10 N N N 满足 N s = 0 N^{s}=0 Ns=0,当 k < N k
由于 ( λ I ) N = N ( λ I ) (\lambda I)N=N(\lambda I) (λI)N=N(λI),所以矩阵指数可以分解为 e J t = e ( λ I + N ) t = e λ I t e N t = e λ t e N t e^{Jt}=e^{(\lambda I+N)t}=e^{\lambda It}e^{Nt}=e^{\lambda t}e^{Nt} eJt=e(λI+N)t=eλIteNt=eλteNt而由于 N s = 0 N^s=0 Ns=0,所以有 e N t = I + N t + ( N t ) 2 2 ! + ⋯ + ( N t ) s − 1 ( s − 1 ) ! e^{Nt}=I+Nt+\frac{(Nt)^2}{2!}+\cdots+\frac{(Nt)^{s-1}}{(s-1)!} eNt=I+Nt+2!(Nt)2+⋯+(s−1)!(Nt)s−1所以 e J t = e λ t ( ∑ k = 0 s − 1 ( N t ) k k ! ) e^{Jt}=e^{\lambda t}\Big(\sum_{k=0}^{s-1}\frac{(Nt)^{k}}{k!}\Big) eJt=eλt(k=0∑s−1k!(Nt)k)若尔当定理的推导相当复杂,而若尔当形在实践中并不流行,这是因为它的计算过程并不稳定, A A A 的微小变化将会分离重复的特征值,并且去掉对角线外的 1 1 1,会将若尔当形变成对角矩阵 Λ \Lambda Λ.
相似矩阵的中心思想 —— 在保留 A A A 重要性质的前提下,使它变得尽可能的简单。最佳的基 B B B 给出 B − 1 A B = J B^{-1}AB=J B−1AB=J.
问题: 如果 A \pmb A A 是一个方阵,且 A 2 = O \pmb{A^2=O} A2=O 即零矩阵,则其特征值和所有可能的若尔当形。
答 特征值一定是零,因为 A x = λ x A\boldsymbol x=\lambda\boldsymbol x Ax=λx 可以推出 A 2 x = λ 2 x = 0 x A^2\boldsymbol x=\lambda^2\boldsymbol x=0\boldsymbol x A2x=λ2x=0x. A A A 的若尔当形有 J 2 = O J^2=O J2=O,因为 J 2 = ( B − 1 A B ) ( B − 1 A B ) = B − 1 A 2 B = O J^2=(B^{-1}AB)(B^{-1}AB)=B^{-1}A^2B=O J2=(B−1AB)(B−1AB)=B−1A2B=O, J J J 的每个子块对角线上一定是 λ = 0 \lambda=0 λ=0,对于大小为 1 × 1 , 2 × 2 , 3 × 3 1\times1,2\times2,3\times3 1×1,2×2,3×3 的子块的 J k J_k Jk,观察 J k 2 J^2_k Jk2: [ 0 ] 2 = [ 0 ] [ 0 1 0 0 ] 2 = [ 0 0 0 0 ] [ 0 1 0 0 0 1 0 0 0 ] 2 = [ 0 0 1 0 0 0 0 0 0 ] \begin{bmatrix}0\end{bmatrix}^2=\begin{bmatrix}0\end{bmatrix}\kern 15pt\begin{bmatrix}0&1\\0&0\end{bmatrix}^2=\begin{bmatrix}0&0\\0&0\end{bmatrix}\kern 15pt\begin{bmatrix}0&1&0\\0&0&1\\0&0&0\end{bmatrix}^2=\begin{bmatrix}0&0&1\\0&0&0\\0&0&0\end{bmatrix} [0]2=[0][0010]2=[0000] 000100010 2= 000000100 结论:如果 J 2 = O J^2=O J2=O,则所有子块的大小一定时 1 × 1 1\times1 1×1 或 2 × 2 2\times2 2×2,如果含有三阶子块时, J 2 J^2 J2 将不是零矩阵。
J J J 和 A A A 的秩是所有 1 1 1 的个数,最大的秩是 n 2 \pmb{\dfrac{n}{2}} 2n。这个仅在有 n 2 \dfrac{n}{2} 2n 个子块、且每个子块均是 2 × 2 2\times2 2×2 的并且是秩 1 1 1 的情况时发生。
下面介绍应用数学中最伟大的基 —— 傅里叶基,它的离散形式是 R n \textrm{\pmb R}^n Rn 中的向量,连续形式是函数空间中的函数。由于它们都是固定值,所以不需要知道矩阵 A A A,这些基 B in = B out B_{\textrm{in}}=B_{\textrm{out}} Bin=Bout 可能无法对角化 A A A,但是对于应用数学中很多重要的矩阵 A A A,矩阵 B − 1 A B B^{-1}AB B−1AB 很接近对角矩阵。
B in = B out = F \pmb{B_{\textrm{in}}=B_{\textrm{out}}=F} Bin=Bout=F,其中 F \pmb F F 是傅里叶矩阵(Fourier matrix)。则 F x \pmb{F\boldsymbol x} Fx 是 x \boldsymbol x x 的离散傅里叶变换(Discrete Fourier Transform)。
上述说明:式(8.3.6)中列为 ( 1 , λ , λ 2 , λ 3 ) (1,\lambda,\lambda^2,\lambda^3) (1,λ,λ2,λ3) 的傅里叶矩阵很重要,这些是很有用的好的基向量。
那么哪些矩阵可以使用 F F F 对角化呢?我们先从特征向量 ( 1 , λ , λ 2 , λ 3 ) (1,\lambda,\lambda^2,\lambda^3) (1,λ,λ2,λ3) 开始,再找到有这些特征向量的矩阵: 如果 λ 4 = 1 ,则 P x = [ 0 1 0 0 0 0 1 0 0 0 0 1 1 0 0 0 ] [ 1 λ λ 2 λ 3 ] = λ [ 1 λ λ 2 λ 3 ] = λ x ( 8.3.5 ) 如果\,\pmb{\lambda^4=1},则\kern 7ptP\boldsymbol x=\begin{bmatrix}0&1&0&0\\0&0&1&0\\0&0&0&1\\1&0&0&0\end{bmatrix}\begin{bmatrix}1\\\lambda\\\lambda^2\\\lambda^3\end{bmatrix}=\lambda\begin{bmatrix}1\\\lambda\\\lambda^2\\\lambda^3\end{bmatrix}=\lambda\boldsymbol x\kern 15pt(8.3.5) 如果λ4=1,则Px= 0001100001000010 1λλ2λ3 =λ 1λλ2λ3 =λx(8.3.5) P P P 是一个置换矩阵,方程 P x = λ x P\boldsymbol x=\lambda\boldsymbol x Px=λx 表明 x \boldsymbol x x 是 P P P 的特征向量, λ \lambda λ 是 P P P 的特征值。注意第四行是由于 1 = λ 4 1=\lambda^4 1=λ4, λ \lambda λ 的这个性质是下面推导的基础。
这里有四个不同的特征值 λ \lambda λ 吗?答案是肯定的。这四个数是 λ = 1 , i , − 1 , − i \lambda=\pmb{1,i,-1,-i} λ=1,i,−1,−i,均满足 λ 4 = 1 \lambda^4=1 λ4=1.(我们知道 i 2 = − 1 i^2=-1 i2=−1,两边同时平方得到 i 4 = 1 i^4=1 i4=1.)因此这四个数字都是 P P P 的特征值,它们各对应一个特征向量 x = ( 1 , λ , λ 2 , λ 3 ) \boldsymbol x=(1,\lambda,\lambda^2,\lambda^3) x=(1,λ,λ2,λ3). 特征向量矩阵 F \pmb F F 对角化了置换矩阵 P \pmb P P: 特征值矩阵 Λ [ 1 i − 1 − i ] 特征向量矩阵 是傅里叶矩阵 F [ 1 1 1 1 1 i − 1 − i 1 i 2 1 ( − i ) 2 1 i 3 − 1 ( − i ) 3 ] ( 8.3.6 ) \pmb{特征值矩阵\,\Lambda}\kern 5pt\begin{bmatrix}1\\&i\\&&-1\\&&&-i\end{bmatrix}\kern 20pt\begin{array}{l}\pmb{特征向量矩阵}\\\pmb{是傅里叶矩阵 \,F}\end{array}\kern 10pt\begin{bmatrix}1&1&\kern 7pt1&\kern 7pt1\\1&i&-1&-i\\1&i^2&\kern 7pt1&(-i)^2\\1&i^3&-1&(-i)^3\end{bmatrix}\kern 15pt(8.3.6) 特征值矩阵Λ 1i−1−i 特征向量矩阵是傅里叶矩阵F 11111ii2i31−11−11−i(−i)2(−i)3 (8.3.6) F F F 的这些列都是正交的,这是因为它们是正交矩阵 P P P 的特征向量(正交矩阵不同的特征值对应的特征向量必定正交)。但是这个傅里叶矩阵 F F F 是复数矩阵(它是世界上最重要的复数矩阵),通过快速傅里叶变换(Fast Fourier Transform:FFT),乘法 F x F\boldsymbol x Fx 可以很快的完成。
关键问题: 除了 P P P 还有什么矩阵有相同的特征向量矩阵 F F F ?我们知道 P 2 , P 3 P^2,P^3 P2,P3 和 P 4 P^4 P4 和 P P P 有相同的特征向量,矩阵 F F F 可以对角化 P P P 的所有幂, P 2 , P 3 P^2,P^3 P2,P3 和 P 4 P^4 P4 的特征值分别是 λ 2 , λ 3 \lambda^2,\lambda^3 λ2,λ3 和 λ 4 \lambda^4 λ4,例如 P 2 x = λ 2 x P^2\boldsymbol x=\lambda^2\boldsymbol x P2x=λ2x: 当 λ 4 = 1 时 , P 2 x = [ 0 0 1 0 0 0 0 1 1 0 0 0 0 1 0 0 ] [ 1 λ λ 2 λ 3 ] = λ 2 [ 1 λ λ 2 λ 3 ] = λ 2 x 当\,\pmb{\lambda^4=1}\,时,\kern 10ptP^2\boldsymbol x=\begin{bmatrix}0&0&1&0\\0&0&0&1\\1&0&0&0\\0&1&0&0\end{bmatrix}\begin{bmatrix}1\\\lambda\\\lambda^2\\\lambda^3\end{bmatrix}=\lambda^2\begin{bmatrix}1\\\lambda\\\lambda^2\\\lambda^3\end{bmatrix}=\lambda^2\boldsymbol x 当λ4=1时,P2x= 0010000110000100 1λλ2λ3 =λ2 1λλ2λ3 =λ2x由于 P 4 = I \pmb{P^4=I} P4=I,所以四次幂很特殊,当我们做四次 “循环置换(cyclic permutation)” 时, P 4 x = x P^4\boldsymbol x=\boldsymbol x P4x=x, P 4 = I P^4=I P4=I 的特征值是 1 , 1 , 1 , 1 1,1,1,1 1,1,1,1, P P P 所有特征值的四次幂都等于 1 1 1: 1 4 = 1 , i 4 = 1 , ( − 1 ) 4 = 1 , ( − i ) 4 = 1 1^4=1,i^4=1,(-1)^4=1,(-i)^4=1 14=1,i4=1,(−1)4=1,(−i)4=1.
更进一步还能够得到更多的矩阵,如果 P , P 2 , P 3 P,P^2,P^3 P,P2,P3 和 P 4 = I P^4=I P4=I 有相同的特征向量矩阵 F F F,则它们所有的线性组合 C = c 1 P + c 2 P 2 + c 3 P 3 + c 0 I C=c_1P+c_2P^2+c_3P^3+c_0I C=c1P+c2P2+c3P3+c0I 也有相同的特征向量矩阵: 循环矩阵 Circulant matrix C = [ c 0 c 1 c 2 c 3 c 3 c 0 c 1 c 2 c 2 c 3 c 0 c 1 c 1 c 2 c 3 c 0 ] 特征向量是傅里叶矩阵 F 的各列 四个特征值 c 0 + c 1 λ + c 2 λ 2 + c 3 λ 3 其中 λ = 1 , i , − 1 , − i λ = 1 时的特征值是 c 0 + c 1 + c 2 + c 3 \pmb{循环矩阵\,\textrm{Circulant\,matrix}}\kern 5ptC=\begin{bmatrix}c_0&\pmb{c_1}&c_2&c_3\\c_3&c_0&\pmb{c_1}&c_2\\c_2&c_3&c_0&\pmb{c_1}\\\pmb{c_1}&c_2&c_3&c_0\end{bmatrix}\begin{array}{l}特征向量是傅里叶矩阵\,F\,的各列\\四个特征值\,c_0+c_1\lambda+c_2\lambda^2+c_3\lambda^3\\其中\,\lambda=1,i,-1,-i\\\lambda=1\,时的特征值是\,c_0+c_1+c_2+c_3\end{array} 循环矩阵CirculantmatrixC= c0c3c2c1c1c0c3c2c2c1c0c3c3c2c1c0 特征向量是傅里叶矩阵F的各列四个特征值c0+c1λ+c2λ2+c3λ3其中λ=1,i,−1,−iλ=1时的特征值是c0+c1+c2+c3这是一大步,我们找到了特征向量是 F F F 中的傅里叶向量的所有矩阵(循环矩阵 C C C),我们也知道了 C C C 的四个特征值,下面会给出其公式: C 的四个特征值由 傅里叶变换 F c 给出 F c = [ 1 1 1 1 1 i − 1 − i 1 − 1 1 − 1 1 − i − 1 i ] [ c 0 c 1 c 2 c 3 ] = [ c 0 + c 1 + c 2 + c 3 c 0 + i c 1 − c 2 − i c 3 c 0 − c 1 + c 2 − c 3 c 0 − i c 1 − c 2 + i c 3 ] \begin{array}{l}\pmb{C\,的四个特征值由}\\\pmb{傅里叶变换\,Fc\,给出}\end{array}\kern 6pt\pmb{Fc}=\begin{bmatrix}1&\kern 7pt1&\kern 7pt1&\kern 7pt1\\1&\kern 7pti&-1&-i\\1&-1&\kern 7pt1&-1\\1&-i&-1&\kern 7pti\end{bmatrix}\begin{bmatrix}c_0\\c_1\\c_2\\c_3\end{bmatrix}=\begin{bmatrix}c_0+c_1+c_2+c_3\\c_0+ic_1-c_2-ic_3\\c_0-c_1+c_2-c_3\\c_0-ic_1-c_2+ic_3\end{bmatrix} C的四个特征值由傅里叶变换Fc给出Fc= 11111i−1−i1−11−11−i−1i c0c1c2c3 = c0+c1+c2+c3c0+ic1−c2−ic3c0−c1+c2−c3c0−ic1−c2+ic3 【例2】上述思想同样适用于任意大小的傅里叶矩阵 F F F 和相应的循环矩阵 C C C. 2 × 2 2\times2 2×2 的矩阵看起来很平凡但是非常有用。此时 P P P 的特征值满足 λ 2 = 1 \lambda^2=1 λ2=1 而不再是 λ 4 = 1 \lambda^4=1 λ4=1 了,那么复数 i i i 也不再需要了: λ = ± 1 \pmb{\lambda=±1} λ=±1. 傅里叶矩阵 F 由 P 和 C 的特征向量构成 F = [ 1 1 1 − 1 ] P = [ 0 1 1 0 ] 循环矩阵 c 0 I + c 1 P C = [ c 0 c 1 c 1 c 0 ] \begin{array}{l}傅里叶矩阵\,F\,由\,P\\和\,C\,的特征向量构成\end{array}\kern 5ptF=\begin{bmatrix}\pmb1&\kern 7pt\pmb1\\\pmb1&\pmb{-1}\end{bmatrix}\kern 10ptP=\begin{bmatrix}0&1\\1&0\end{bmatrix}\kern 5pt\begin{array}{l}循环矩阵\\c_0I+c_1P\end{array}\kern 5ptC=\begin{bmatrix}\pmb{c_0}&\pmb{c_1}\\\pmb{c_1}&\pmb{c_0}\end{bmatrix} 傅里叶矩阵F由P和C的特征向量构成F=[111−1]P=[0110]循环矩阵c0I+c1PC=[c0c1c1c0] C C C 的特征值是 c 0 + c 1 c_0+c_1 c0+c1 和 c 0 − c 1 c_0-c_1 c0−c1,它们是当向量 c = ( c 0 , c 1 ) \boldsymbol c=(c_0,c_1) c=(c0,c1) 时由傅里叶变换 F c F\boldsymbol c Fc 得到的。变换 F c F\boldsymbol c Fc 给出任意 n n n 阶 C C C 的特征值。
注意循环矩阵有相同的对角元素,数字 c 0 c_0 c0 沿着主对角线排列,数字 c 1 c_1 c1 在对角线正上方,“回转(wraps around)” 或 “环绕(circles around)” 到 C C C 的左下角。这个解释了循环(circulant)这个名字,并表明这些矩阵是周期的(periodic)或循环的(cyclic). 甚至 λ \lambda λ 的幂也是循环的,这是因为由 λ 4 = 1 \lambda^4=1 λ4=1 可以推出 λ 5 , λ 6 , λ 7 , λ 8 = λ , λ 2 , λ 3 , λ 4 \lambda^5,\lambda^6,\lambda^7,\lambda^8=\lambda,\lambda^2,\lambda^3,\lambda^4 λ5,λ6,λ7,λ8=λ,λ2,λ3,λ4.
对角元素相同是 C C C 的一个重要性质,它对应了微分方程中的常系数(constant coefficients),这恰好是傅里叶矩阵完美发挥作用的原因! 方程 d 2 u d t 2 = − u 的通解是 u = c 0 cos t + c 1 sin t 方程 d 2 u d t 2 = t u 的解无法由初等函数表示 \begin{array}{l}方程\,\dfrac{\textrm d^2u}{\textrm dt^2}=-u\kern 5pt的通解是\kern 5ptu=c_0\cos t+c_1\sin t\\[1.5ex]方程\dfrac{\textrm d^2u}{\textrm dt^2}=tu\kern 5pt的解无法由初等函数表示\end{array} 方程dt2d2u=−u的通解是u=c0cost+c1sint方程dt2d2u=tu的解无法由初等函数表示这些方程是线性的,第一个方程是简谐振动方程:它是牛顿第二定律 f = m a f=ma f=ma 质量 m = 1 m=1 m=1,加速度 a = d 2 u d t 2 a=\dfrac{\textrm d^2u}{\textrm dt^2} a=dt2d2u,力 f = − u f=-u f=−u 的情形。常系数使得这个微分方程可以实际求解。
第二个方程 u ′ ′ = t u u''=tu u′′=tu 有一个变系数(variable coefficient) t t t,这是物理学和光学中的艾里方程(Airy’s equation),它是为了解释彩虹而形成的。当 t t t 的值穿过零时,解就完全变了,这些解的表示需要无穷级数。
重点是常系数微分方程有形如 e λ t e^{\lambda t} eλt 这样的简单解,将 e λ t e^{\lambda t} eλt 代入微分方程可求出 λ \lambda λ,数字 λ \lambda λ 就像是一个特征值。对于 u = cos t u=\cos t u=cost 和 u = sin t u=\sin t u=sint,数字 λ = i \lambda=i λ=i,伟大的欧拉公式(Euler’s formula) e i t = cos t + i sin t e^{it}=\cos t+i\sin t eit=cost+isint 引入了复数, P P P 和 C C C 的特征值也是这样。
关于 x x x 的函数,我们首先能够想到的是以幂函数 1 , x , x 2 , x 3 , ⋯ 1,x,x^2,x^3,\cdots 1,x,x2,x3,⋯ 为基,但是不幸的是,这是一个非常糟糕的基,这些函数 x n x^n xn 几乎不线性无关, x 10 x^{10} x10 差不多是基向量 1 , x , ⋯ , x 9 1,x,\cdots,x^9 1,x,⋯,x9 的线性组合。实际上几乎不可能使用这么差的 “病态(ill-conditioned)” 基来计算的。
如果我们用向量而不是函数,这些向量构成矩阵 B B B,我们可以通过观察 B T B B^TB BTB 来判断基的好坏,这个矩阵包含了基向量( B B B 的列)所有的内积(inner product). 当 B T B = I B^TB=I BTB=I 时,基是正交的,这是最好的情况。但是基 1 , x , x 2 , ⋯ 1,x,x^2,\cdots 1,x,x2,⋯ 会生成邪恶的希尔伯特矩阵(Hilbert matrix):此时的 B T B B^TB BTB 最大特征值和最小特征值的比值(条件数)会非常大,一个大的条件数(condition number)意味着基的选择并不好。
注: 现在 B B B 的各列是函数而不是向量了!我们仍然使用 B T B B^TB BTB 来检验线性无关性。因此我们需要知道两个函数的点积(此时称为内积会更好)—— 它们是 B T B B^TB BTB 中的值。
向量的点积就是 x T y = x 1 y 1 + x 2 y 2 + ⋯ + x n y n \boldsymbol x^T\boldsymbol y=x_1y_1+x_2y_2+\cdots+x_ny_n xTy=x1y1+x2y2+⋯+xnyn,函数的内积将是积分而不是加法,但是思想是完全平行的: 内积 Inner product ( f , g ) = ∫ f ( x ) g ( x ) d x 复内积 Complex inner product ( f , g ) = ∫ f ( x ) ‾ g ( x ) d x , f ‾ 为复共轭 加权内积 Weight inner product ( f , g ) w = ∫ w ( x ) f ( x ) ‾ g ( x ) d x , w 为权函数 \begin{array}{rcl}内积\kern 5pt\textrm{Inner\, product}\kern 5pt(\pmb f,\pmb g)&=&\int f(x)g(x)\,\textrm dx\\复内积\kern 5pt\textrm{Complex\, inner product}\kern 5pt(\pmb f,\pmb g)&=&\int\overline{f(x)}g(x)\,\textrm dx,\,\overline{f}\,为复共轭\\加权内积\kern 5pt\textrm{Weight inner product}\kern 5pt(\pmb f,\pmb g)_w&=&\int w(x)\overline{f(x)}g(x)\,\textrm dx,\,w\,为权函数\end{array} 内积Inner product(f,g)复内积Complex inner product(f,g)加权内积Weight inner product(f,g)w===∫f(x)g(x)dx∫f(x)g(x)dx,f为复共轭∫w(x)f(x)g(x)dx,w为权函数从 x = 0 x=0 x=0 到 x = 1 x=1 x=1 的积分, x i x^i xi 与 x j x^j xj 的内积是 ∫ 0 1 x i x j d x = x i + j + 1 i + j + 1 ∣ x = 0 x = 1 ,这个是希尔伯特矩阵 B T B 的元素 \int_0^1x^ix^j\,\textrm dx=\dfrac{x^{i+j+1}}{i+j+1}\Big|_{x=0}^{x=1},这个是希尔伯特矩阵\,B^TB\,的元素 ∫01xixjdx=i+j+1xi+j+1 x=0x=1,这个是希尔伯特矩阵BTB的元素若积分区间改成从 x = − 1 x=-1 x=−1 到 x = 1 x=1 x=1 的对称区间,我们可以立刻得到所有偶函数和奇函数的正交性: 区间 Interval [ − 1 , 1 ] ∫ − 1 1 x 2 x 5 d x = 0 ∫ − 1 1 even ( x ) odd ( x ) d x = 0. even ( x ) 为偶函数,odd ( x ) 为奇函数 \pmb{区间\kern 5pt\textrm{Interval}\kern 4pt[-1,1]}\kern 15pt\int_{-1}^{1}x^2x^5\,\textrm dx=0\kern 15pt\int_{-1}^1\textrm{\pmb{even}}(x)\,\textrm{\pmb{odd}}(x)\,\textrm dx=0.\kern 6pt\textrm{even}(x)为偶函数,\textrm{odd}(x)为奇函数 区间Interval[−1,1]∫−11x2x5dx=0∫−11even(x)odd(x)dx=0.even(x)为偶函数,odd(x)为奇函数这个变化使得一半基函数与另一半基函数正交,这个比较简单,所以后续我们继续使用对称的积分区间 − 1 -1 −1 到 1 1 1(或 − π -π −π 到 π π π)。但是我们需要一组比幂函数 x n x^n xn 更好的基 —— 最好是一组正交基。
下面的是在理论推导和数值计算中最重要的三组偶-奇基(even-odd bases):
1 、 傅里叶基 Fourier basis 1 , sin x , cos x , sin 2 x , cos 2 x , ⋯ 2 、 勒让德基 Legendre basis 1 , x , x 2 − 1 3 , x 3 − 3 5 x , ⋯ 3 、 切比雪夫基 Chebyshev basis 1 , x , 2 x 2 − 1 , 4 x 3 − 3 x , ⋯ \begin{array}{ll}1、\pmb{傅里叶基\kern 3pt \textrm{Fourier basis}}&\color{blue}1,\sin x,\cos x,\sin2x,\cos2x,\cdots\\2、\pmb{勒让德基\kern 3pt\textrm{Legendre basis}}&\color{blue}1,x,x^2-\dfrac{1}{3},x^3-\dfrac{3}{5}x,\cdots\\3、\pmb{切比雪夫基\kern 3pt\textrm{Chebyshev basis}}&\color{blue}1,x,2x^2-1,4x^3-3x,\cdots\end{array} 1、傅里叶基Fourier basis2、勒让德基Legendre basis3、切比雪夫基Chebyshev basis1,sinx,cosx,sin2x,cos2x,⋯1,x,x2−31,x3−53x,⋯1,x,2x2−1,4x3−3x,⋯
傅里叶基函数(正弦和余弦函数)都是周期性的,由于 cos ( x + 2 π ) = cos x \cos(x+2π)=\cos x cos(x+2π)=cosx 且 sin ( x + 2 π ) = sin x \sin(x+2π)=\sin x sin(x+2π)=sinx,所以周期是 2 π 2π 2π. 这组基对于周期函数 f ( x ) f(x) f(x): f ( x + 2 π ) = f ( x ) f(x+2π)=f(x) f(x+2π)=f(x) 这样的函数非常好。
这组基也是正交的,每个正弦、余弦函数都和其余的正弦、余弦函数正交,当然基函数 cos n x \cos nx cosnx 和 sin n x \sin nx sinnx 与它自身并不正交。
最重要的是,正弦-余弦基在做函数逼近是也非常好。如果我们有一个光滑的周期函数 f ( x ) f(x) f(x),则用少量的正弦、余弦函数(低频)就可以很好的逼近它。 f ( x ) f(x) f(x) 的跳跃和信号中的噪声可以在高频部分(较大的 n n n)看出,我们希望信号不会被噪声所淹没。
傅里叶变换将 f ( x ) f(x) f(x) 和傅里叶级数中的系数 a k a_k ak 和 b k b_k bk 联系起来:
傅里叶级数 Fourier series f ( x ) = a 0 + b 1 sin x + a 1 cos x + b 2 sin 2 x + a 2 cos 2 x + ⋯ \pmb{傅里叶级数\kern 4pt\textrm{Fourier series}}\kern 10pt\color{blue}f(x)=a_0+b_1\sin x+a_1\cos x+b_2\sin2x+a_2\cos2x+\cdots 傅里叶级数Fourier seriesf(x)=a0+b1sinx+a1cosx+b2sin2x+a2cos2x+⋯
可以看到,函数空间是无穷维(infinite-dimensional)的,通常需要无穷多个基函数才可以完美重现函数 f ( x ) f(x) f(x),但是求每个系数(如 a 3 a_3 a3)的公式,类似于将向量 b \boldsymbol b b 投影到通过直线 a \boldsymbol a a 的直线上的公式 b T a a T a \dfrac{\boldsymbol b^T\boldsymbol a}{\boldsymbol a^T\boldsymbol a} aTabTa.
这里将函数 f ( x ) f(x) f(x) 投影到函数空间中通过 cos 3 x \cos3x cos3x 的直线上: 傅里叶系数 Fourier coefficient a 3 = ( f ( x ) , cos 3 x ) ( cos 3 x , cos 3 x ) = ∫ f ( x ) cos 3 x d x ∫ cos 3 x cos 3 x d x ( 8.3.7 ) \pmb{傅里叶系数\kern 5pt\textrm{Fourier coefficient}}\kern 10pt\pmb {a_3}=\frac{(f(x),\cos3x)}{(\cos3x,\cos3x)}=\frac{\int f(x)\cos3x\,\textrm dx}{\int\cos3x\cos3x\,\textrm dx}\kern 15pt(8.3.7) 傅里叶系数Fourier coefficienta3=(cos3x,cos3x)(f(x),cos3x)=∫cos3xcos3xdx∫f(x)cos3xdx(8.3.7)【例3】三角函数中的二倍角公式(double angle formula)是 cos 2 x = 2 cos 2 x − 1 \cos2x=2\cos^2x-1 cos2x=2cos2x−1,可以推出 cos 2 x = 1 2 + 1 2 cos 2 x \cos^2x=\pmb{\dfrac{1}{2}}+\pmb{\dfrac{1}{2}}\cos2x cos2x=21+21cos2x,这是一个很短的傅里叶级数, sin 2 x = 1 2 − 1 2 cos 2 x \sin^2x=\pmb{\dfrac{1}{2}}-\pmb{\dfrac{1}{2}}\cos2x sin2x=21−21cos2x 也是这样的。
傅里叶级数理论如同函数空间的 “线性代数”。
勒让德多项式(Legendre polynomials)是对幂函数使用格拉姆-施密特(Gram-Schmidt)正交化方法的结果,其目的是正交化幂函数 1 , x , x 2 , ⋯ 1,x,x^2,\cdots 1,x,x2,⋯. 首先,奇函数 x \pmb x x 在区间 [ − 1 , 1 ] [-1,1] [−1,1] 上已经与偶函数 1 1 1 正交,它们的乘积 x ⋅ 1 = x x\cdot 1=x x⋅1=x 在该区间上的积分为零,但是 x 2 x^2 x2 和 1 1 1 的内积 ∫ − 1 1 x 2 d x = 2 3 \int_{-1}^1x^2\,\textrm dx=\dfrac{2}{3} ∫−11x2dx=32: ( x 2 , 1 ) ( 1 , 1 ) = ∫ − 1 1 x 2 d x ∫ − 1 1 1 d x = 2 / 3 2 = 1 3 Gram-Schmidt 方法给出 勒让德多项式 x 2 − 1 3 \dfrac{(x^2,1)}{(1,1)}=\dfrac{\int_{-1}^1x^2\,\textrm dx}{\int_{-1}^11\,\textrm dx}=\dfrac{2/3}{2}=\dfrac{1}{3}\kern 15pt\textrm{Gram-Schmidt}\,方法给出\pmb{勒让德多项式\,x^2-\dfrac{1}{3}} (1,1)(x2,1)=∫−111dx∫−11x2dx=22/3=31Gram-Schmidt方法给出勒让德多项式x2−31同样的,奇函数 x 3 x^3 x3 在奇函数 x x x 方向上的分量是 3 x 5 \dfrac{3x}{5} 53x: ( x 3 , x ) ( x , x ) = ∫ − 1 1 x 4 d x ∫ − 1 1 x 2 d x = 2 / 5 2 / 3 = 3 5 Gram-Schmidt方法给出 勒让德多项式 x 3 − 3 5 x \dfrac{(x^3,x)}{(x,x)}=\dfrac{\int_{-1}^1x^4\,\textrm dx}{\int_{-1}^1x^2\,\textrm dx}=\dfrac{2/5}{2/3}=\dfrac{3}{5}\kern 15pt\textrm{Gram-Schmidt} 方法给出\pmb{勒让德多项式\,x^3-\dfrac{3}{5}x} (x,x)(x3,x)=∫−11x2dx∫−11x4dx=2/32/5=53Gram-Schmidt方法给出勒让德多项式x3−53x继续对 x 4 , x 5 , ⋯ x^4,x^5,\cdots x4,x5,⋯ 使用 Gram-Schmidt 方法,可以得到所有的勒让德函数,这是一组好基。
最后是切比雪夫多项式(Chebyshev polynomials) 1 , x , 2 x 2 − 1 , 4 x 3 − 3 x , ⋯ 1,x,2x^2-1,4x^3-3x,\cdots 1,x,2x2−1,4x3−3x,⋯,这组基并不来源于 Gram-Schmidt,它们与 1 , cos θ , cos 2 θ , cos 3 θ , ⋯ 1,\cos\theta,\cos2\theta,\cos3\theta,\cdots 1,cosθ,cos2θ,cos3θ,⋯ 相联系,这带来了一个巨大的计算优势——可以使用快速傅里叶变换(Fast Fourier Transform). 令 x = cos θ \pmb{x=\cos\theta} x=cosθ 即可以看到切比雪夫多项式和傅里叶级数之间的关系:
切比雪夫多项式 到傅里叶级数 2 x 2 − 1 = 2 ( cos θ ) 2 − 1 = cos 2 θ 4 x 3 − 3 x = 4 ( cos θ ) 3 − 3 ( cos θ ) = cos 3 θ \begin{array}{l}\pmb{切比雪夫多项式}\\\pmb{到傅里叶级数}\end{array}\kern 15pt\begin{array}{l}\color{blue}\pmb{2x^2-1}=2(\cos\theta)^2-1=\pmb{\cos2\theta}\\\color{blue}\pmb{4x^3-3x}=4(\cos\theta)^3-3(\cos\theta)=\pmb{\cos3\theta}\end{array} 切比雪夫多项式到傅里叶级数2x2−1=2(cosθ)2−1=cos2θ4x3−3x=4(cosθ)3−3(cosθ)=cos3θ
n n n 阶切比雪夫多项式 T n ( x ) \pmb{T_{n}(x)} Tn(x) 和傅里叶级数相联系的公式是 cos n θ = T n ( cos θ ) \pmb{\cos n\theta=T_n(\cos\theta)} cosnθ=Tn(cosθ).
注:有一个名为 “chebfun" 的大型软件以这些多项式为基,每个函数 f ( x ) f(x) f(x) 都可以由一个超高精度的切比雪夫多项式逼近,就可以对 f ( x ) f(x) f(x) 积分、求解 f ( x ) = 0 f(x)=0 f(x)=0,求其最大值和最小值,甚至可以求关于 f ( x ) f(x) f(x) 的微分方程——很快且精度很高。
当用 chebfun 将函数 f ( x ) f(x) f(x) 用一个切比雪夫多项式替代时,将很容易解决问题。