压缩感知解析

压缩感知解析

理论基础与数学框架

压缩感知理论由Emmanuel Candès、Terence Tao、David Donoho等数学家在2004年前后建立,该理论证明:对于在某种变换域中具有稀疏性的信号,可以通过远少于奈奎斯特采样率的随机测量实现完美重构。

压缩感知的数学框架

基本数学模型

压缩感知的核心数学模型为:
y = Φ x + n \mathbf{y} = \boldsymbol{\Phi}\mathbf{x} + \mathbf{n} y=Φx+n

其中:

  • x ∈ R N \mathbf{x} \in \mathbb{R}^N xRN 是待重构的原始信号
  • Φ ∈ R M × N \boldsymbol{\Phi} \in \mathbb{R}^{M \times N} ΦRM×N 是测量矩阵, M ≪ N M \ll N MN
  • y ∈ R M \mathbf{y} \in \mathbb{R}^M yRM 是观测向量
  • n ∈ R M \mathbf{n} \in \mathbb{R}^M nRM 是噪声向量

稀疏性的数学定义

信号的稀疏性通过 ℓ 0 \ell_0 0范数刻画:
∥ x ∥ 0 = ∣ { i : x i ≠ 0 } ∣ \|\mathbf{x}\|_0 = |\{i : x_i \neq 0\}| x0={i:xi=0}

对于k-稀疏信号,定义稀疏集合:
Σ k = { x ∈ R N : ∥ x ∥ 0 ≤ k } \Sigma_k = \{\mathbf{x} \in \mathbb{R}^N : \|\mathbf{x}\|_0 \leq k\} Σk={xRN:x0k}

稀疏表示理论

当信号 x \mathbf{x} x在正交基 Ψ = [ ψ 1 , ψ 2 , … , ψ N ] \boldsymbol{\Psi} = [\boldsymbol{\psi}_1, \boldsymbol{\psi}_2, \ldots, \boldsymbol{\psi}_N] Ψ=[ψ1,ψ2,,ψN]下稀疏时:
x = Ψ α = ∑ i = 1 N α i ψ i \mathbf{x} = \boldsymbol{\Psi}\boldsymbol{\alpha} = \sum_{i=1}^N \alpha_i \boldsymbol{\psi}_i x=Ψα=i=1Nαiψi

其中 α \boldsymbol{\alpha} α是稀疏系数向量, ∥ α ∥ 0 ≤ k \|\boldsymbol{\alpha}\|_0 \leq k α0k

测量过程表示为:
y = Φ Ψ α = Θ α \mathbf{y} = \boldsymbol{\Phi}\boldsymbol{\Psi}\boldsymbol{\alpha} = \boldsymbol{\Theta}\boldsymbol{\alpha} y=ΦΨα=Θα

这里 Θ = Φ Ψ \boldsymbol{\Theta} = \boldsymbol{\Phi}\boldsymbol{\Psi} Θ=ΦΨ是感知矩阵。

压缩感知的信息理论分析

Kolmogorov复杂度视角

K ( x ) K(\mathbf{x}) K(x)为信号 x \mathbf{x} x的Kolmogorov复杂度,则k-稀疏信号的复杂度界限为:
K ( x ) ≤ k log ⁡ 2 ( N / k ) + k log ⁡ 2 ( R ) + O ( log ⁡ k ) K(\mathbf{x}) \leq k\log_2(N/k) + k\log_2(R) + O(\log k) K(x)klog2(N/k)+klog2(R)+O(logk)

其中 R R R是量化精度。这表明稀疏信号的信息量远小于其维度 N N N

信息论下界

定理7(Fano不等式在压缩感知中的应用):对于任意重构算法 x ^ ( y ) \hat{\mathbf{x}}(\mathbf{y}) x^(y),存在k-稀疏信号使得:
E [ ∥ x ^ ( y ) − x ∥ 2 2 ] ≥ c k log ⁡ ( N / k ) M \mathbb{E}[\|\hat{\mathbf{x}}(\mathbf{y}) - \mathbf{x}\|_2^2] \geq c\frac{k\log(N/k)}{M} E[x^(y)x22]cMklog(N/k)

其中 c > 0 c > 0 c>0是常数。

证明思路

  1. 构造 ϵ \epsilon ϵ-网络覆盖稀疏信号集合
  2. 应用Fano不等式建立错误概率下界
  3. 通过Le Cam方法得到均方误差下界

等价性定理与唯一性分析

定理1(稀疏恢复的唯一性):设 x ∗ , x ∈ Σ k \mathbf{x}^*, \mathbf{x} \in \Sigma_k x,xΣk,若 Φ x ∗ = Φ x \boldsymbol{\Phi}\mathbf{x}^* = \boldsymbol{\Phi}\mathbf{x} Φx=Φx,则当 Φ \boldsymbol{\Phi} Φ满足限制等距性质且 δ 2 k < 1 \delta_{2k} < 1 δ2k<1时,有 x ∗ = x \mathbf{x}^* = \mathbf{x} x=x

详细证明:设 h = x ∗ − x \mathbf{h} = \mathbf{x}^* - \mathbf{x} h=xx,则 Φ h = 0 \boldsymbol{\Phi}\mathbf{h} = \mathbf{0} Φh=0 ∥ h ∥ 0 ≤ ∥ x ∗ ∥ 0 + ∥ x ∥ 0 ≤ 2 k \|\mathbf{h}\|_0 \leq \|\mathbf{x}^*\|_0 + \|\mathbf{x}\|_0 \leq 2k h0x0+x02k

h = h T + h T c \mathbf{h} = \mathbf{h}_T + \mathbf{h}_{T^c} h=hT+hTc,其中 T T T h \mathbf{h} h的最大 k k k个元素的索引集。则:
∥ h T ∥ 0 ≤ k , ∥ h T c ∥ 0 ≤ k \|\mathbf{h}_T\|_0 \leq k, \quad \|\mathbf{h}_{T^c}\|_0 \leq k hT0k,hTc0k

由RIP条件:
( 1 − δ 2 k ) ∥ h ∥ 2 2 ≤ ∥ Φ h ∥ 2 2 = 0 (1-\delta_{2k})\|\mathbf{h}\|_2^2 \leq \|\boldsymbol{\Phi}\mathbf{h}\|_2^2 = 0 (1δ2k)h22Φh22=0

δ 2 k < 1 \delta_{2k} < 1 δ2k<1,故 ( 1 − δ 2 k ) > 0 (1-\delta_{2k}) > 0 (1δ2k)>0,得 ∥ h ∥ 2 = 0 \|\mathbf{h}\|_2 = 0 h2=0,即 h = 0 \mathbf{h} = \mathbf{0} h=0,故 x ∗ = x \mathbf{x}^* = \mathbf{x} x=x。□

相干性理论与Welch界限

测量矩阵 Φ \boldsymbol{\Phi} Φ与稀疏基 Ψ \boldsymbol{\Psi} Ψ的相干性定义为:
μ ( Φ , Ψ ) = N max ⁡ 1 ≤ i , j ≤ N ∣ ⟨ ϕ i , ψ j ⟩ ∣ \mu(\boldsymbol{\Phi}, \boldsymbol{\Psi}) = \sqrt{N} \max_{1 \leq i,j \leq N} |\langle \boldsymbol{\phi}_i, \boldsymbol{\psi}_j \rangle| μ(Φ,Ψ)=N 1i,jNmaxϕi,ψj

Welch界限:对于任意单位向量系统 { ϕ i } i = 1 M \{\boldsymbol{\phi}_i\}_{i=1}^M {ϕi}i=1M { ψ j } j = 1 N \{\boldsymbol{\psi}_j\}_{j=1}^N {ψj}j=1N
μ ( Φ , Ψ ) ≥ N − M M ( N − 1 ) \mu(\boldsymbol{\Phi}, \boldsymbol{\Psi}) \geq \sqrt{\frac{N-M}{M(N-1)}} μ(Φ,Ψ)M(N1)NM

证明:考虑Gram矩阵 G = Φ T Ψ \mathbf{G} = \boldsymbol{\Phi}^T\boldsymbol{\Psi} G=ΦTΨ,有:
∑ i , j ∣ G i j ∣ 2 = tr ( G T G ) = tr ( Ψ T Φ Φ T Ψ ) = M \sum_{i,j} |G_{ij}|^2 = \text{tr}(\mathbf{G}^T\mathbf{G}) = \text{tr}(\boldsymbol{\Psi}^T\boldsymbol{\Phi}\boldsymbol{\Phi}^T\boldsymbol{\Psi}) = M i,jGij2=tr(GTG)=tr(ΨTΦΦTΨ)=M

由Cauchy-Schwarz不等式:
M 2 ≤ M N max ⁡ i , j ∣ G i j ∣ 2 M^2 \leq MN \max_{i,j} |G_{ij}|^2 M2MNi,jmaxGij2

因此:
max ⁡ i , j ∣ G i j ∣ ≥ M N = M N \max_{i,j} |G_{ij}| \geq \sqrt{\frac{M}{N}} = \frac{\sqrt{M}}{\sqrt{N}} i,jmaxGijNM =N M

结合单位化条件得到Welch界限。□

当相干性较小时,稀疏恢复条件为:
k < 1 2 ( 1 + 1 μ ( Φ , Ψ ) ) k < \frac{1}{2}\left(1 + \frac{1}{\mu(\boldsymbol{\Phi}, \boldsymbol{\Psi})}\right) k<21(1+μ(Φ,Ψ)1)

扩展的相干性分析

平均相干性

定义平均相干性:
μ ˉ ( Φ , Ψ ) = 1 M N ∑ i = 1 M ∑ j = 1 N ∣ ⟨ ϕ i , ψ j ⟩ ∣ 2 \bar{\mu}(\boldsymbol{\Phi}, \boldsymbol{\Psi}) = \frac{1}{MN}\sum_{i=1}^M\sum_{j=1}^N |\langle \boldsymbol{\phi}_i, \boldsymbol{\psi}_j \rangle|^2 μˉ(Φ,Ψ)=MN1i=1Mj=1Nϕi,ψj2

定理8(平均相干性与RIP的关系):若 μ ˉ ( Φ , Ψ ) ≤ 1 k \bar{\mu}(\boldsymbol{\Phi}, \boldsymbol{\Psi}) \leq \frac{1}{k} μˉ(Φ,Ψ)k1,则测量矩阵满足:
δ k ≤ ( k − 1 ) μ ˉ ( Φ , Ψ ) \delta_k \leq (k-1)\bar{\mu}(\boldsymbol{\Phi}, \boldsymbol{\Psi}) δk(k1)μˉ(Φ,Ψ)

累积相干性

对于索引集 T ⊆ [ N ] T \subseteq [N] T[N],定义累积相干性:
μ 1 ( T ) = max ⁡ j ∉ T ∑ i ∈ T ∣ ⟨ ϕ i , ϕ j ⟩ ∣ \mu_1(T) = \max_{j \notin T} \sum_{i \in T} |\langle \boldsymbol{\phi}_i, \boldsymbol{\phi}_j \rangle| μ1(T)=j/TmaxiTϕi,ϕj

定理9(ERC条件):若 μ 1 ( T ) < 1 \mu_1(T) < 1 μ1(T)<1对所有 ∣ T ∣ ≤ k |T| \leq k Tk成立,则所有k-稀疏信号可通过 ℓ 1 \ell_1 1最小化精确恢复。

重构算法的数学理论

L₀最小化问题与复杂度分析

理想的稀疏重构问题为:
min ⁡ x ∥ x ∥ 0 s.t. y = Φ x \min_{\mathbf{x}} \|\mathbf{x}\|_0 \quad \text{s.t.} \quad \mathbf{y} = \boldsymbol{\Phi}\mathbf{x} xminx0s.t.y=Φx

复杂度分析:该问题等价于从 ( N k ) \binom{N}{k} (kN)个可能的支撑集中选择正确的一个,计算复杂度为 O ( N k ) O(N^k) O(Nk),属于NP-hard问题。

对于噪声情况,松弛为:
min ⁡ x ∥ x ∥ 0 s.t. ∥ y − Φ x ∥ 2 ≤ ϵ \min_{\mathbf{x}} \|\mathbf{x}\|_0 \quad \text{s.t.} \quad \|\mathbf{y} - \boldsymbol{\Phi}\mathbf{x}\|_2 \leq \epsilon xminx0s.t.yΦx2ϵ

L₁凸松弛理论与对偶分析

基追踪算法将L₀问题松弛为L₁凸优化:
min ⁡ x ∥ x ∥ 1 s.t. y = Φ x \min_{\mathbf{x}} \|\mathbf{x}\|_1 \quad \text{s.t.} \quad \mathbf{y} = \boldsymbol{\Phi}\mathbf{x} xminx1s.t.y=Φx

对于噪声情况(基追踪去噪):
min ⁡ x ∥ x ∥ 1 s.t. ∥ y − Φ x ∥ 2 ≤ ϵ \min_{\mathbf{x}} \|\mathbf{x}\|_1 \quad \text{s.t.} \quad \|\mathbf{y} - \boldsymbol{\Phi}\mathbf{x}\|_2 \leq \epsilon xminx1s.t.yΦx2ϵ

定理2(L₁等价性条件):当测量矩阵 Φ \boldsymbol{\Phi} Φ满足RIP条件 δ 2 k < 2 − 1 ≈ 0.414 \delta_{2k} < \sqrt{2} - 1 \approx 0.414 δ2k<2 10.414时,L₁最小化解与L₀最小化解等价。

详细证明:设 x ∗ \mathbf{x}^* x为真实k-稀疏信号, x ^ \hat{\mathbf{x}} x^为L₁最小化的解, h = x ^ − x ∗ \mathbf{h} = \hat{\mathbf{x}} - \mathbf{x}^* h=x^x

T T T x ∗ \mathbf{x}^* x的支撑集, T c T^c Tc为其补集。由于 Φ h = 0 \boldsymbol{\Phi}\mathbf{h} = \mathbf{0} Φh=0,有:
Φ T h T + Φ T c h T c = 0 \boldsymbol{\Phi}_T\mathbf{h}_T + \boldsymbol{\Phi}_{T^c}\mathbf{h}_{T^c} = \mathbf{0} ΦThT+ΦTchTc=0

即:
Φ T h T = − Φ T c h T c \boldsymbol{\Phi}_T\mathbf{h}_T = -\boldsymbol{\Phi}_{T^c}\mathbf{h}_{T^c} ΦThT=ΦTchTc

由L₁最小化的最优性:
∥ x ∗ + h ∥ 1 ≤ ∥ x ∗ ∥ 1 \|\mathbf{x}^* + \mathbf{h}\|_1 \leq \|\mathbf{x}^*\|_1 x+h1x1

展开得:
∥ x T ∗ + h T ∥ 1 + ∥ h T c ∥ 1 ≤ ∥ x T ∗ ∥ 1 \|\mathbf{x}^*_T + \mathbf{h}_T\|_1 + \|\mathbf{h}_{T^c}\|_1 \leq \|\mathbf{x}^*_T\|_1 xT+hT1+hTc1xT1

由三角不等式的逆:
∥ h T ∥ 1 ≤ ∥ h T c ∥ 1 \|\mathbf{h}_T\|_1 \leq \|\mathbf{h}_{T^c}\|_1 hT1hTc1

T c T^c Tc分解为 T 1 , T 2 , … T_1, T_2, \ldots T1,T2,,每个 ∣ T i ∣ ≤ k |T_i| \leq k Tik,应用RIP得到矛盾。□

拉格朗日对偶理论与KKT条件

引入拉格朗日乘子 λ > 0 \lambda > 0 λ>0,无约束形式为:
min ⁡ x f ( x ) = 1 2 ∥ y − Φ x ∥ 2 2 + λ ∥ x ∥ 1 \min_{\mathbf{x}} f(\mathbf{x}) = \frac{1}{2}\|\mathbf{y} - \boldsymbol{\Phi}\mathbf{x}\|_2^2 + \lambda\|\mathbf{x}\|_1 xminf(x)=21yΦx22+λx1

次梯度分析

L₁范数的次梯度为:
∂ ∥ x ∥ 1 = { z ∈ R N : z i = { sign ( x i ) if  x i ≠ 0 [ − 1 , 1 ] if  x i = 0 } \partial\|\mathbf{x}\|_1 = \left\{\mathbf{z} \in \mathbb{R}^N : z_i = \begin{cases} \text{sign}(x_i) & \text{if } x_i \neq 0 \\ [-1, 1] & \text{if } x_i = 0 \end{cases}\right\} x1={zRN:zi={sign(xi)[1,1]if xi=0if xi=0}

最优性条件(KKT条件):
Φ T ( Φ x ∗ − y ) + λ z ∗ = 0 \boldsymbol{\Phi}^T(\boldsymbol{\Phi}\mathbf{x}^* - \mathbf{y}) + \lambda \mathbf{z}^* = \mathbf{0} ΦT(Φxy)+λz=0

其中 z ∗ ∈ ∂ ∥ x ∗ ∥ 1 \mathbf{z}^* \in \partial\|\mathbf{x}^*\|_1 zx1

对偶问题构造

定义对偶函数:
g ( ν ) = inf ⁡ x { ⟨ ν , y − Φ x ⟩ + 1 2 ∥ y − Φ x ∥ 2 2 + λ ∥ x ∥ 1 } g(\boldsymbol{\nu}) = \inf_{\mathbf{x}} \left\{\langle \boldsymbol{\nu}, \mathbf{y} - \boldsymbol{\Phi}\mathbf{x} \rangle + \frac{1}{2}\|\mathbf{y} - \boldsymbol{\Phi}\mathbf{x}\|_2^2 + \lambda\|\mathbf{x}\|_1\right\} g(ν)=xinf{ν,yΦx+21yΦx22+λx1}

x \mathbf{x} x求导并令其为零:
− Φ T ν − Φ T ( y − Φ x ) + λ z = 0 -\boldsymbol{\Phi}^T\boldsymbol{\nu} - \boldsymbol{\Phi}^T(\mathbf{y} - \boldsymbol{\Phi}\mathbf{x}) + \lambda\mathbf{z} = \mathbf{0} ΦTνΦT(yΦx)+λz=0

得到对偶问题:
max ⁡ ν { − 1 2 ∥ ν ∥ 2 2 + ⟨ ν , y ⟩ } s.t. ∥ Φ T ν ∥ ∞ ≤ λ \max_{\boldsymbol{\nu}} \left\{-\frac{1}{2}\|\boldsymbol{\nu}\|_2^2 + \langle \boldsymbol{\nu}, \mathbf{y} \rangle\right\} \quad \text{s.t.} \quad \|\boldsymbol{\Phi}^T\boldsymbol{\nu}\|_\infty \leq \lambda νmax{21ν22+ν,y}s.t.ΦTνλ

软阈值算子理论

定义软阈值算子 S τ : R → R \mathcal{S}_\tau: \mathbb{R} \to \mathbb{R} Sτ:RR
S τ ( x ) = { x − τ if  x > τ 0 if  ∣ x ∣ ≤ τ x + τ if  x < − τ \mathcal{S}_\tau(x) = \begin{cases} x - \tau & \text{if } x > \tau \\ 0 & \text{if } |x| \leq \tau \\ x + \tau & \text{if } x < -\tau \end{cases} Sτ(x)= xτ0x+τif x>τif xτif x<τ

向量形式: [ S τ ( x ) ] i = S τ ( x i ) [\mathcal{S}_\tau(\mathbf{x})]_i = \mathcal{S}_\tau(x_i) [Sτ(x)]i=Sτ(xi)

软阈值算子的性质

性质1(收缩性) ∣ S τ ( x ) ∣ ≤ ∣ x ∣ |\mathcal{S}_\tau(x)| \leq |x| Sτ(x)x

性质2(单调性):若 x ≥ y x \geq y xy,则 S τ ( x ) ≥ S τ ( y ) \mathcal{S}_\tau(x) \geq \mathcal{S}_\tau(y) Sτ(x)Sτ(y)

性质3(Lipschitz连续性) ∣ S τ ( x ) − S τ ( y ) ∣ ≤ ∣ x − y ∣ |\mathcal{S}_\tau(x) - \mathcal{S}_\tau(y)| \leq |x - y| Sτ(x)Sτ(y)xy

定理10(软阈值的近似算子性质)
S τ ( x ) = arg ⁡ min ⁡ z 1 2 ( x − z ) 2 + τ ∣ z ∣ \mathcal{S}_\tau(x) = \arg\min_z \frac{1}{2}(x-z)^2 + \tau|z| Sτ(x)=argzmin21(xz)2+τz

证明:设 f ( z ) = 1 2 ( x − z ) 2 + τ ∣ z ∣ f(z) = \frac{1}{2}(x-z)^2 + \tau|z| f(z)=21(xz)2+τz,考虑三种情况:

  1. x > τ x > \tau x>τ时,在 z > 0 z > 0 z>0区域, f ( z ) = 1 2 ( x − z ) 2 + τ z f(z) = \frac{1}{2}(x-z)^2 + \tau z f(z)=21(xz)2+τz,导数 f ′ ( z ) = − ( x − z ) + τ = 0 f'(z) = -(x-z) + \tau = 0 f(z)=(xz)+τ=0 z = x − τ z = x - \tau z=xτ
  2. x < − τ x < -\tau x<τ时,在 z < 0 z < 0 z<0区域, f ( z ) = 1 2 ( x − z ) 2 − τ z f(z) = \frac{1}{2}(x-z)^2 - \tau z f(z)=21(xz)2τz,导数 f ′ ( z ) = − ( x − z ) − τ = 0 f'(z) = -(x-z) - \tau = 0 f(z)=(xz)τ=0 z = x + τ z = x + \tau z=x+τ
  3. ∣ x ∣ ≤ τ |x| \leq \tau xτ时, z = 0 z = 0 z=0使 f ( z ) f(z) f(z)最小

验证这些解确实对应软阈值算子。□

迭代收缩阈值算法(ISTA)理论

算法描述

算法1(ISTA)
x ( t + 1 ) = S λ / L ( x ( t ) − 1 L Φ T ( Φ x ( t ) − y ) ) \mathbf{x}^{(t+1)} = \mathcal{S}_{\lambda/L}\left(\mathbf{x}^{(t)} - \frac{1}{L}\boldsymbol{\Phi}^T(\boldsymbol{\Phi}\mathbf{x}^{(t)} - \mathbf{y})\right) x(t+1)=Sλ/L(x(t)L1ΦT(Φx(t)y))

其中 L = ∥ Φ T Φ ∥ 2 L = \|\boldsymbol{\Phi}^T\boldsymbol{\Phi}\|_2 L=ΦTΦ2是Lipschitz常数。

收敛性分析

设目标函数为 F ( x ) = 1 2 ∥ y − Φ x ∥ 2 2 + λ ∥ x ∥ 1 F(\mathbf{x}) = \frac{1}{2}\|\mathbf{y} - \boldsymbol{\Phi}\mathbf{x}\|_2^2 + \lambda\|\mathbf{x}\|_1 F(x)=21yΦx22+λx1

定理11(ISTA收敛率)
F ( x ( t ) ) − F ( x ∗ ) ≤ L ∥ x ( 0 ) − x ∗ ∥ 2 2 2 t F(\mathbf{x}^{(t)}) - F(\mathbf{x}^*) \leq \frac{L\|\mathbf{x}^{(0)} - \mathbf{x}^*\|_2^2}{2t} F(x(t))F(x)2tLx(0)x22

详细证明

定义辅助函数:
Q L ( x , y ) = F ( y ) + ⟨ ∇ f ( y ) , x − y ⟩ + L 2 ∥ x − y ∥ 2 2 + λ ∥ x ∥ 1 Q_L(\mathbf{x}, \mathbf{y}) = F(\mathbf{y}) + \langle \nabla f(\mathbf{y}), \mathbf{x} - \mathbf{y} \rangle + \frac{L}{2}\|\mathbf{x} - \mathbf{y}\|_2^2 + \lambda\|\mathbf{x}\|_1 QL(x,y)=F(y)+f(y),xy+2Lxy22+λx1

其中 f ( x ) = 1 2 ∥ y − Φ x ∥ 2 2 f(\mathbf{x}) = \frac{1}{2}\|\mathbf{y} - \boldsymbol{\Phi}\mathbf{x}\|_2^2 f(x)=21yΦx22 ∇ f ( x ) = Φ T ( Φ x − y ) \nabla f(\mathbf{x}) = \boldsymbol{\Phi}^T(\boldsymbol{\Phi}\mathbf{x} - \mathbf{y}) f(x)=ΦT(Φxy)

由于 f f f的Lipschitz连续性:
F ( x ) ≤ Q L ( x , y ) F(\mathbf{x}) \leq Q_L(\mathbf{x}, \mathbf{y}) F(x)QL(x,y)

ISTA更新规则等价于:
x ( t + 1 ) = arg ⁡ min ⁡ x Q L ( x , x ( t ) ) \mathbf{x}^{(t+1)} = \arg\min_{\mathbf{x}} Q_L(\mathbf{x}, \mathbf{x}^{(t)}) x(t+1)=argxminQL(x,x(t))

应用充分下降引理和凸性得到收敛率。□

快速迭代收缩阈值算法(FISTA)

算法描述

算法2(FISTA)
v ( t ) = x ( t − 1 ) + t − 2 t + 1 ( x ( t − 1 ) − x ( t − 2 ) ) x ( t ) = S λ / L ( v ( t ) − 1 L Φ T ( Φ v ( t ) − y ) ) \begin{align} \mathbf{v}^{(t)} &= \mathbf{x}^{(t-1)} + \frac{t-2}{t+1}(\mathbf{x}^{(t-1)} - \mathbf{x}^{(t-2)}) \\ \mathbf{x}^{(t)} &= \mathcal{S}_{\lambda/L}\left(\mathbf{v}^{(t)} - \frac{1}{L}\boldsymbol{\Phi}^T(\boldsymbol{\Phi}\mathbf{v}^{(t)} - \mathbf{y})\right) \end{align} v(t)x(t)=x(t1)+t+1t2(x(t1)x(t2))=Sλ/L(v(t)L1ΦT(Φv(t)y))

加速机制分析

FISTA采用Nesterov加速机制,动量项为:
t − 2 t + 1 = 1 − 3 t + 1 \frac{t-2}{t+1} = 1 - \frac{3}{t+1} t+1t2=1t+13

定理12(FISTA收敛率)
F ( x ( t ) ) − F ( x ∗ ) ≤ 2 L ∥ x ( 0 ) − x ∗ ∥ 2 2 ( t + 1 ) 2 F(\mathbf{x}^{(t)}) - F(\mathbf{x}^*) \leq \frac{2L\|\mathbf{x}^{(0)} - \mathbf{x}^*\|_2^2}{(t+1)^2} F(x(t))F(x)(t+1)22Lx(0)x22

证明思路

  1. 定义势函数 Φ t = t 2 ( F ( x ( t ) ) − F ( x ∗ ) ) \Phi_t = t^2(F(\mathbf{x}^{(t)}) - F(\mathbf{x}^*)) Φt=t2(F(x(t))F(x))
  2. 证明 Φ t + 1 ≤ Φ t \Phi_{t+1} \leq \Phi_t Φt+1Φt
  3. 应用数学归纳法得到 O ( 1 / t 2 ) O(1/t^2) O(1/t2)收敛率

正交匹配追踪算法理论

算法描述

算法3(OMP)

  1. 初始化: r ( 0 ) = y \mathbf{r}^{(0)} = \mathbf{y} r(0)=y Λ ( 0 ) = ∅ \Lambda^{(0)} = \emptyset Λ(0)= t = 0 t = 0 t=0
  2. 选择: j ( t ) = arg ⁡ max ⁡ j ∉ Λ ( t ) ∣ ⟨ r ( t ) , ϕ j ⟩ ∣ j^{(t)} = \arg\max_{j \notin \Lambda^{(t)}} |\langle \mathbf{r}^{(t)}, \boldsymbol{\phi}_j \rangle| j(t)=argmaxj/Λ(t)r(t),ϕj
  3. 更新支撑集: Λ ( t + 1 ) = Λ ( t ) ∪ { j ( t ) } \Lambda^{(t+1)} = \Lambda^{(t)} \cup \{j^{(t)}\} Λ(t+1)=Λ(t){j(t)}
  4. 最小二乘: x Λ ( t + 1 ) ( t + 1 ) = arg ⁡ min ⁡ z ∥ y − Φ Λ ( t + 1 ) z ∥ 2 2 \mathbf{x}_{\Lambda^{(t+1)}}^{(t+1)} = \arg\min_{\mathbf{z}} \|\mathbf{y} - \boldsymbol{\Phi}_{\Lambda^{(t+1)}}\mathbf{z}\|_2^2 xΛ(t+1)(t+1)=argminzyΦΛ(t+1)z22
  5. 更新残差: r ( t + 1 ) = y − Φ Λ ( t + 1 ) x Λ ( t + 1 ) ( t + 1 ) \mathbf{r}^{(t+1)} = \mathbf{y} - \boldsymbol{\Phi}_{\Lambda^{(t+1)}}\mathbf{x}_{\Lambda^{(t+1)}}^{(t+1)} r(t+1)=yΦΛ(t+1)xΛ(t+1)(t+1)
  6. 如果 ∥ r ( t + 1 ) ∥ 2 ≤ ϵ \|\mathbf{r}^{(t+1)}\|_2 \leq \epsilon r(t+1)2ϵ t ≥ k t \geq k tk,停止;否则 t = t + 1 t = t+1 t=t+1,返回步骤2
理论分析

最小二乘解为:
x Λ ( t + 1 ) ( t + 1 ) = ( Φ Λ ( t + 1 ) T Φ Λ ( t + 1 ) ) − 1 Φ Λ ( t + 1 ) T y \mathbf{x}_{\Lambda^{(t+1)}}^{(t+1)} = (\boldsymbol{\Phi}_{\Lambda^{(t+1)}}^T\boldsymbol{\Phi}_{\Lambda^{(t+1)}})^{-1}\boldsymbol{\Phi}_{\Lambda^{(t+1)}}^T\mathbf{y} xΛ(t+1)(t+1)=(ΦΛ(t+1)TΦΛ(t+1))1ΦΛ(t+1)Ty

残差更新:
r ( t + 1 ) = y − Φ Λ ( t + 1 ) ( Φ Λ ( t + 1 ) T Φ Λ ( t + 1 ) ) − 1 Φ Λ ( t + 1 ) T y \mathbf{r}^{(t+1)} = \mathbf{y} - \boldsymbol{\Phi}_{\Lambda^{(t+1)}}(\boldsymbol{\Phi}_{\Lambda^{(t+1)}}^T\boldsymbol{\Phi}_{\Lambda^{(t+1)}})^{-1}\boldsymbol{\Phi}_{\Lambda^{(t+1)}}^T\mathbf{y} r(t+1)=yΦΛ(t+1)(ΦΛ(t+1)TΦΛ(t+1))1ΦΛ(t+1)Ty

定理13(OMP理论保证):当测量矩阵满足RIP条件 δ k + 1 < 1 k + 1 \delta_{k+1} < \frac{1}{\sqrt{k}+1} δk+1<k +11时,OMP能在k步内精确恢复所有k-稀疏信号。

证明框架

  1. 证明每一步都选择正确的原子(支撑集的元素)
  2. 证明残差以几何级数衰减
  3. 证明算法在有限步内终止

迭代硬阈值算法理论

算法描述

算法4(IHT)
x ( t + 1 ) = H k ( x ( t ) + μ Φ T ( y − Φ x ( t ) ) ) \mathbf{x}^{(t+1)} = \mathcal{H}_k\left(\mathbf{x}^{(t)} + \mu\boldsymbol{\Phi}^T(\mathbf{y} - \boldsymbol{\Phi}\mathbf{x}^{(t)})\right) x(t+1)=Hk(x(t)+μΦT(yΦx(t)))

其中 H k ( x ) \mathcal{H}_k(\mathbf{x}) Hk(x)是硬阈值算子,保留 x \mathbf{x} x中k个最大绝对值元素,其余置零。

硬阈值算子分析

硬阈值算子 H k : R N → R N \mathcal{H}_k: \mathbb{R}^N \to \mathbb{R}^N Hk:RNRN定义为:
[ H k ( x ) ] i = { x i if  i ∈ T k ( x ) 0 otherwise [\mathcal{H}_k(\mathbf{x})]_i = \begin{cases} x_i & \text{if } i \in T_k(\mathbf{x}) \\ 0 & \text{otherwise} \end{cases} [Hk(x)]i={xi0if iTk(x)otherwise

其中 T k ( x ) T_k(\mathbf{x}) Tk(x) x \mathbf{x} x中k个最大绝对值元素的索引集。

性质1(投影性质) H k ( x ) = arg ⁡ min ⁡ z : ∥ z ∥ 0 ≤ k ∥ x − z ∥ 2 2 \mathcal{H}_k(\mathbf{x}) = \arg\min_{\mathbf{z}: \|\mathbf{z}\|_0 \leq k} \|\mathbf{x} - \mathbf{z}\|_2^2 Hk(x)=argminz:z0kxz22

性质2(非扩张性):对于任意k-稀疏信号 x \mathbf{x} x ∥ H k ( x ) ∥ 2 ≤ ∥ x ∥ 2 \|\mathcal{H}_k(\mathbf{x})\|_2 \leq \|\mathbf{x}\|_2 Hk(x)2x2

定理14(IHT收敛条件):当 μ ∈ ( 0 , 2 / ∥ Φ ∥ 2 2 ) \mu \in (0, 2/\|\boldsymbol{\Phi}\|_2^2) μ(0,2/∥Φ22) δ 3 k < 1 32 \delta_{3k} < \frac{1}{\sqrt{32}} δ3k<32 1时,IHT线性收敛到真实稀疏解。

收敛性分析

x ∗ \mathbf{x}^* x为真实k-稀疏信号,定义误差 e ( t ) = x ( t ) − x ∗ \mathbf{e}^{(t)} = \mathbf{x}^{(t)} - \mathbf{x}^* e(t)=x(t)x

引理1:在RIP条件 δ 3 k < 1 32 \delta_{3k} < \frac{1}{\sqrt{32}} δ3k<32 1下,存在常数 ρ ∈ ( 0 , 1 ) \rho \in (0, 1) ρ(0,1)使得:
∥ e ( t + 1 ) ∥ 2 ≤ ρ ∥ e ( t ) ∥ 2 \|\mathbf{e}^{(t+1)}\|_2 \leq \rho \|\mathbf{e}^{(t)}\|_2 e(t+1)2ρe(t)2

证明步骤

  1. 分析 x ( t ) + μ Φ T ( y − Φ x ( t ) ) \mathbf{x}^{(t)} + \mu\boldsymbol{\Phi}^T(\mathbf{y} - \boldsymbol{\Phi}\mathbf{x}^{(t)}) x(t)+μΦT(yΦx(t))的误差结构
  2. 应用硬阈值算子的投影性质
  3. 利用RIP条件控制误差传播

测量矩阵理论与构造

限制等距性质(RIP)深入分析

RIP的几何解释

定义:矩阵 Φ ∈ R M × N \boldsymbol{\Phi} \in \mathbb{R}^{M \times N} ΦRM×N满足阶数为k的限制等距性质,当且仅当存在最小常数 δ k ∈ ( 0 , 1 ) \delta_k \in (0,1) δk(0,1),使得对所有k-稀疏向量 x \mathbf{x} x
( 1 − δ k ) ∥ x ∥ 2 2 ≤ ∥ Φ x ∥ 2 2 ≤ ( 1 + δ k ) ∥ x ∥ 2 2 (1-\delta_k)\|\mathbf{x}\|_2^2 \leq \|\boldsymbol{\Phi}\mathbf{x}\|_2^2 \leq (1+\delta_k)\|\mathbf{x}\|_2^2 (1δk)x22Φx22(1+δk)x22

这等价于所有k-稀疏向量的Gram矩阵 G T = Φ T T Φ T \mathbf{G}_T = \boldsymbol{\Phi}_T^T\boldsymbol{\Phi}_T GT=ΦTTΦT的特征值都在 [ 1 − δ k , 1 + δ k ] [1-\delta_k, 1+\delta_k] [1δk,1+δk]范围内。

RIP常数的精确计算

定理15(RIP常数的变分表示)
δ k = max ⁡ x ≠ 0 ∥ x ∥ 0 ≤ k ∣ ∥ Φ x ∥ 2 2 − ∥ x ∥ 2 2 ∣ ∥ x ∥ 2 2 \delta_k = \max_{\substack{\mathbf{x} \neq \mathbf{0} \\ \|\mathbf{x}\|_0 \leq k}} \frac{|\|\boldsymbol{\Phi}\mathbf{x}\|_2^2 - \|\mathbf{x}\|_2^2|}{\|\mathbf{x}\|_2^2} δk=x=0x0kmaxx22∣∥Φx22x22

证明:直接由RIP定义,通过变分原理得到。□

推论1:RIP常数等价于:
δ k = max ⁡ ∣ T ∣ ≤ k ∥ Φ T T Φ T − I T ∥ 2 \delta_k = \max_{\substack{|T| \leq k}} \|\boldsymbol{\Phi}_T^T\boldsymbol{\Phi}_T - \mathbf{I}_T\|_2 δk=TkmaxΦTTΦTIT2

其中 Φ T \boldsymbol{\Phi}_T ΦT表示 Φ \boldsymbol{\Phi} Φ对应索引集 T T T的子矩阵。

Johnson-Lindenstrauss引理的推广

引理2(稀疏Johnson-Lindenstrauss):对于高斯随机矩阵 Φ ∈ R M × N \boldsymbol{\Phi} \in \mathbb{R}^{M \times N} ΦRM×N,元素独立同分布于 N ( 0 , 1 / M ) \mathcal{N}(0, 1/M) N(0,1/M),若:
M ≥ C δ − 2 k log ⁡ ( e N / k ) M \geq C\delta^{-2}k\log(eN/k) MCδ2klog(eN/k)

则以概率至少 1 − 2 exp ⁡ ( − c δ 2 M ) 1 - 2\exp(-c\delta^2 M) 12exp(cδ2M)满足 δ k ( Φ ) ≤ δ \delta_k(\boldsymbol{\Phi}) \leq \delta δk(Φ)δ,其中 C , c > 0 C, c > 0 C,c>0是绝对常数。

详细证明

  1. 固定k-稀疏单位向量 x \mathbf{x} x ∥ Φ x ∥ 2 2 = ∑ i = 1 M ( ∑ j ∈ T Φ i j x j ) 2 \|\boldsymbol{\Phi}\mathbf{x}\|_2^2 = \sum_{i=1}^M (\sum_{j \in T} \Phi_{ij}x_j)^2 Φx22=i=1M(jTΦijxj)2
  2. 每个 ( ∑ j ∈ T Φ i j x j ) 2 (\sum_{j \in T} \Phi_{ij}x_j)^2 (jTΦijxj)2 χ 2 \chi^2 χ2分布的缩放版本
  3. 应用Chernoff界限: P ( ∣ ∥ Φ x ∥ 2 2 − 1 ∣ > δ ) ≤ 2 exp ⁡ ( − c δ 2 M ) \mathbb{P}(|\|\boldsymbol{\Phi}\mathbf{x}\|_2^2 - 1| > \delta) \leq 2\exp(-c\delta^2 M) P(∣∥Φx221∣>δ)2exp(cδ2M)
  4. 构造 ϵ \epsilon ϵ-网络覆盖k-稀疏单位球面,网络大小为 ( 3 / ϵ ) 2 k (3/\epsilon)^{2k} (3/ϵ)2k
  5. 联合界:选择 ϵ = δ / 2 \epsilon = \delta/2 ϵ=δ/2,应用union bound

随机矩阵的RIP性质深入分析

高斯随机矩阵

定理3(高斯矩阵的精确RIP界):设 Φ ∈ R M × N \boldsymbol{\Phi} \in \mathbb{R}^{M \times N} ΦRM×N的元素独立同分布于 N ( 0 , 1 / M ) \mathcal{N}(0, 1/M) N(0,1/M),则对任意 δ ∈ ( 0 , 1 ) \delta \in (0,1) δ(0,1)和:
k ≤ c δ 2 M log ⁡ ( e N / k ) k \leq c\frac{\delta^2 M}{\log(eN/k)} kclog(eN/k)δ2M

有:
P ( δ k ( Φ ) ≤ δ ) ≥ 1 − 2 exp ⁡ ( − c ′ δ 2 M ) \mathbb{P}(\delta_k(\boldsymbol{\Phi}) \leq \delta) \geq 1 - 2\exp(-c'\delta^2 M) P(δk(Φ)δ)12exp(cδ2M)

其中 c = 1 / ( 4 log ⁡ 3 ) ≈ 0.228 c = 1/(4\log 3) \approx 0.228 c=1/(4log3)0.228 c ′ = 1 / 32 c' = 1/32 c=1/32

子高斯随机矩阵

定义(子高斯随机变量):随机变量 X X X称为参数为 σ \sigma σ的子高斯随机变量,如果对所有 t ∈ R t \in \mathbb{R} tR
E [ exp ⁡ ( t X ) ] ≤ exp ⁡ ( σ 2 t 2 / 2 ) \mathbb{E}[\exp(tX)] \leq \exp(\sigma^2 t^2/2) E[exp(tX)]exp(σ2t2/2)

定理16(子高斯矩阵的RIP):设 Φ \boldsymbol{\Phi} Φ的元素独立同分布的子高斯随机变量,参数为 σ 2 / M \sigma^2/M σ2/M,则存在常数 c 1 , c 2 , c 3 c_1, c_2, c_3 c1,c2,c3,当:
M ≥ c 1 σ 2 δ − 2 k log ⁡ ( e N / k ) M \geq c_1\sigma^2\delta^{-2}k\log(eN/k) Mc1σ2δ2klog(eN/k)

时,以概率至少 1 − exp ⁡ ( − c 2 δ 2 M / σ 2 ) 1 - \exp(-c_2\delta^2 M/\sigma^2) 1exp(c2δ2M/σ2)满足 δ k ( Φ ) ≤ δ \delta_k(\boldsymbol{\Phi}) \leq \delta δk(Φ)δ

伯努利随机矩阵详细分析

定理4(伯努利矩阵的RIP):设 Φ \boldsymbol{\Phi} Φ的元素独立取值 ± 1 / M \pm 1/\sqrt{M} ±1/M ,概率各为1/2,则存在常数 c 1 , c 2 > 0 c_1, c_2 > 0 c1,c2>0,当:
M ≥ c 1 δ − 2 k log ⁡ ( e N / k ) M \geq c_1\delta^{-2}k\log(eN/k) Mc1δ2klog(eN/k)

时,以概率至少 1 − exp ⁡ ( − c 2 δ 2 M ) 1 - \exp(-c_2\delta^2 M) 1exp(c2δ2M)满足 δ k ( Φ ) ≤ δ \delta_k(\boldsymbol{\Phi}) \leq \delta δk(Φ)δ

证明要点

  1. 应用Hoeffding不等式控制二次型的集中性
  2. 使用对称化技术简化分析
  3. 构造合适的 ϵ \epsilon ϵ-网络并应用union bound

部分傅里叶矩阵与相干性分析

离散傅里叶变换矩阵

F ∈ C N × N \mathbf{F} \in \mathbb{C}^{N \times N} FCN×N为归一化DFT矩阵:
F j k = 1 N e − 2 π i j k / N , j , k = 0 , 1 , … , N − 1 F_{jk} = \frac{1}{\sqrt{N}}e^{-2\pi ijk/N}, \quad j,k = 0,1,\ldots,N-1 Fjk=N 1e2πijk/N,j,k=0,1,,N1

部分随机傅里叶矩阵构造

定义部分随机傅里叶矩阵:
Φ = N M R F \boldsymbol{\Phi} = \sqrt{\frac{N}{M}}\mathbf{R}\mathbf{F} Φ=MN RF

其中 R ∈ { 0 , 1 } M × N \mathbf{R} \in \{0,1\}^{M \times N} R{0,1}M×N是随机选择矩阵,每行恰好有一个1。

定理5(部分傅里叶矩阵的RIP):当信号在时域或小波域稀疏时,随机选择的部分傅里叶矩阵以高概率满足RIP,所需测量数为:
M ≥ C μ 2 ( Ψ ) δ − 2 k log ⁡ 4 ( N ) log ⁡ ( k ) M \geq C\mu^2(\boldsymbol{\Psi})\delta^{-2}k\log^4(N)\log(k) MCμ2(Ψ)δ2klog4(N)log(k)

其中 μ ( Ψ ) \mu(\boldsymbol{\Psi}) μ(Ψ)是稀疏基 Ψ \boldsymbol{\Psi} Ψ的最大相干性。

相干性的精确分析

对于标准基 { e j } \{\mathbf{e}_j\} {ej}和傅里叶基 { f k } \{\mathbf{f}_k\} {fk}
μ = max ⁡ j , k ∣ ⟨ e j , f k ⟩ ∣ = 1 N \mu = \max_{j,k} |\langle \mathbf{e}_j, \mathbf{f}_k \rangle| = \frac{1}{\sqrt{N}} μ=j,kmaxej,fk=N 1

定理17(时域-频域相干性):时域标准基与频域傅里叶基的相干性为:
μ ( I , F ) = 1 N \mu(\mathbf{I}, \mathbf{F}) = \frac{1}{\sqrt{N}} μ(I,F)=N 1

这是所有正交基对的最小可能相干性。

小波基的相干性分析

对于Daubechies小波基 Ψ d b \boldsymbol{\Psi}_{db} Ψdb
μ ( F , Ψ d b ) ≤ C log ⁡ N \mu(\mathbf{F}, \boldsymbol{\Psi}_{db}) \leq C\sqrt{\log N} μ(F,Ψdb)ClogN

证明思路

  1. 分析小波函数的频域局部化性质
  2. 利用小波的紧支撑性和正交性
  3. 应用Plancherel定理建立时频关系

确定性测量矩阵构造

互不相关序列(Chirp序列)

利用二次相位函数构造确定性矩阵:
Φ i , j = 1 M e 2 π i a i j 2 / p \Phi_{i,j} = \frac{1}{\sqrt{M}}e^{2\pi i a_i j^2/p} Φi,j=M 1e2πiaij2/p

其中 p p p是素数, { a i } \{a_i\} {ai}是模 p p p的二次非剩余。

定理18(Chirp序列的相干性):上述构造的测量矩阵满足:
μ ( Φ ) ≤ 2 log ⁡ p M \mu(\boldsymbol{\Phi}) \leq \sqrt{\frac{2\log p}{M}} μ(Φ)M2logp

代数构造方法

基于有限域 F q \mathbb{F}_q Fq上的代数结构:

构造1(Reed-Solomon型)
Φ i , j = ω Tr ( α i β j d ) \Phi_{i,j} = \omega^{\text{Tr}(\alpha_i \beta_j^d)} Φi,j=ωTr(αiβjd)

其中 ω = e 2 π i / p \omega = e^{2\pi i/p} ω=e2πi/p Tr : F q m → F q \text{Tr}: \mathbb{F}_{q^m} \to \mathbb{F}_q Tr:FqmFq是迹函数。

定理19(代数构造的RIP界):适当选择参数时,上述构造满足:
δ k ≤ C k log ⁡ q M \delta_k \leq C\sqrt{\frac{k\log q}{M}} δkCMklogq

BCH码构造

利用BCH码的生成矩阵构造测量矩阵:

g ( x ) = ∏ i = 1 2 t ( x − α i ) g(x) = \prod_{i=1}^{2t}(x - \alpha^i) g(x)=i=12t(xαi)为BCH码的生成多项式,其中 α \alpha α F 2 m \mathbb{F}_{2^m} F2m的本原元。

构造2(BCH测量矩阵)
Φ i , j = ( − 1 ) ⟨ c i , x j ⟩ \Phi_{i,j} = (-1)^{\langle \mathbf{c}_i, \mathbf{x}_j \rangle} Φi,j=(1)ci,xj

其中 c i \mathbf{c}_i ci是BCH码字, x j \mathbf{x}_j xj是信号向量。

Gram矩阵分析与特征值分布

Gram矩阵的构造

定义Gram矩阵 G = Φ T Φ ∈ R N × N \mathbf{G} = \boldsymbol{\Phi}^T\boldsymbol{\Phi} \in \mathbb{R}^{N \times N} G=ΦTΦRN×N,其 ( i , j ) (i,j) (i,j)元素为:
G i j = ⟨ ϕ i , ϕ j ⟩ G_{ij} = \langle \boldsymbol{\phi}_i, \boldsymbol{\phi}_j \rangle Gij=ϕi,ϕj

特征值与RIP的关系

定理20(Gram矩阵特征值界)
δ k = max ⁡ { max ⁡ S ⊆ [ N ] ∣ S ∣ ≤ k λ max ⁡ ( G S ) − 1 , 1 − min ⁡ S ⊆ [ N ] ∣ S ∣ ≤ k λ min ⁡ ( G S ) } \delta_k = \max\left\{\max_{\substack{S \subseteq [N] \\ |S| \leq k}} \lambda_{\max}(\mathbf{G}_S) - 1, 1 - \min_{\substack{S \subseteq [N] \\ |S| \leq k}} \lambda_{\min}(\mathbf{G}_S)\right\} δk=max S[N]Skmaxλmax(GS)1,1S[N]Skminλmin(GS)

其中 G S \mathbf{G}_S GS G \mathbf{G} G对应索引集 S S S的主子矩阵。

随机矩阵理论应用

Marchenko-Pastur定律的应用:对于 M × N M \times N M×N随机矩阵 Φ \boldsymbol{\Phi} Φ,当 M , N → ∞ M, N \to \infty M,N M / N → γ ∈ ( 0 , 1 ) M/N \to \gamma \in (0,1) M/Nγ(0,1)时,Gram矩阵 G = Φ T Φ \mathbf{G} = \boldsymbol{\Phi}^T\boldsymbol{\Phi} G=ΦTΦ的经验谱分布趋向于Marchenko-Pastur分布:

μ M P ( d x ) = 1 2 π x ( b − x ) ( x − a ) 1 [ a , b ] ( x ) d x + ( 1 − γ − 1 ) + δ 0 ( d x ) \mu_{MP}(dx) = \frac{1}{2\pi x}\sqrt{(b-x)(x-a)} \mathbf{1}_{[a,b]}(x) dx + (1-\gamma^{-1})^+\delta_0(dx) μMP(dx)=2πx1(bx)(xa) 1[a,b](x)dx+(1γ1)+δ0(dx)

其中 a = ( 1 − γ ) 2 a = (1-\sqrt{\gamma})^2 a=(1γ )2 b = ( 1 + γ ) 2 b = (1+\sqrt{\gamma})^2 b=(1+γ )2

相干性理论的扩展

平均相干性深入分析

定义平均相干性:
μ ˉ ( Φ , Ψ ) = 1 M N ∑ i = 1 M ∑ j = 1 N ∣ ⟨ ϕ i , ψ j ⟩ ∣ 2 = 1 M N ∥ Φ T Ψ ∥ F 2 \bar{\mu}(\boldsymbol{\Phi}, \boldsymbol{\Psi}) = \frac{1}{MN}\sum_{i=1}^M\sum_{j=1}^N |\langle \boldsymbol{\phi}_i, \boldsymbol{\psi}_j \rangle|^2 = \frac{1}{MN}\|\boldsymbol{\Phi}^T\boldsymbol{\Psi}\|_F^2 μˉ(Φ,Ψ)=MN1i=1Mj=1Nϕi,ψj2=MN1ΦTΨF2

定理8(平均相干性与RIP的关系):若 μ ˉ ( Φ , Ψ ) ≤ 1 k \bar{\mu}(\boldsymbol{\Phi}, \boldsymbol{\Psi}) \leq \frac{1}{k} μˉ(Φ,Ψ)k1,则:
δ k ≤ ( k − 1 ) μ ˉ ( Φ , Ψ ) \delta_k \leq (k-1)\bar{\mu}(\boldsymbol{\Phi}, \boldsymbol{\Psi}) δk(k1)μˉ(Φ,Ψ)

详细证明
x \mathbf{x} x为k-稀疏信号,支撑集为 T T T。则:
∥ Φ x ∥ 2 2 = x T Φ T Φ x = ∑ i , j ∈ T x i x j G i j \|\boldsymbol{\Phi}\mathbf{x}\|_2^2 = \mathbf{x}^T\boldsymbol{\Phi}^T\boldsymbol{\Phi}\mathbf{x} = \sum_{i,j \in T} x_ix_j G_{ij} Φx22=xTΦTΦx=i,jTxixjGij

其中 G i j = ⟨ ϕ i , ϕ j ⟩ G_{ij} = \langle \boldsymbol{\phi}_i, \boldsymbol{\phi}_j \rangle Gij=ϕi,ϕj

分解为对角项和非对角项:
∥ Φ x ∥ 2 2 = ∑ i ∈ T x i 2 + ∑ i , j ∈ T i ≠ j x i x j G i j \|\boldsymbol{\Phi}\mathbf{x}\|_2^2 = \sum_{i \in T} x_i^2 + \sum_{\substack{i,j \in T \\ i \neq j}} x_ix_j G_{ij} Φx22=iTxi2+i,jTi=jxixjGij

应用Cauchy-Schwarz不等式控制非对角项,得到所需结果。□

累积相干性理论

定义(累积相干性):对于索引集 T ⊆ [ N ] T \subseteq [N] T[N]
μ 1 ( T ) = max ⁡ j ∉ T ∑ i ∈ T ∣ ⟨ ϕ i , ϕ j ⟩ ∣ \mu_1(T) = \max_{j \notin T} \sum_{i \in T} |\langle \boldsymbol{\phi}_i, \boldsymbol{\phi}_j \rangle| μ1(T)=j/TmaxiTϕi,ϕj

定理9(精确恢复条件,ERC):若对所有 ∣ T ∣ ≤ k |T| \leq k Tk的索引集 T T T都有 μ 1 ( T ) < 1 \mu_1(T) < 1 μ1(T)<1,则所有k-稀疏信号可通过 ℓ 1 \ell_1 1最小化精确恢复。

证明框架

  1. 构造对偶证明向量 v \mathbf{v} v满足 Φ T T v = sign ( x T ) \boldsymbol{\Phi}_T^T\mathbf{v} = \text{sign}(\mathbf{x}_T) ΦTTv=sign(xT)
  2. 验证 ∥ Φ T c T v ∥ ∞ < 1 \|\boldsymbol{\Phi}_{T^c}^T\mathbf{v}\|_\infty < 1 ΦTcTv<1
  3. 应用 ℓ 1 \ell_1 1最小化的最优性条件
块相干性分析

对于块稀疏信号,定义块相干性:
μ B = max ⁡ i ≠ j 1 ≤ i , j ≤ G ∥ Φ i T Φ j ∥ 2 \mu_B = \max_{\substack{i \neq j \\ 1 \leq i,j \leq G}} \|\boldsymbol{\Phi}_i^T\boldsymbol{\Phi}_j\|_2 μB=i=j1i,jGmaxΦiTΦj2

其中 Φ i \boldsymbol{\Phi}_i Φi是第 i i i个块对应的子矩阵。

定理21(块稀疏恢复条件):若 μ B < 1 2 s − 1 \mu_B < \frac{1}{2s-1} μB<2s11,其中 s s s是非零块的数量,则块稀疏信号可通过混合 ℓ 2 , 1 \ell_{2,1} 2,1范数最小化恢复:
min ⁡ x ∑ i = 1 G ∥ x i ∥ 2 s.t. y = Φ x \min_{\mathbf{x}} \sum_{i=1}^G \|\mathbf{x}_i\|_2 \quad \text{s.t.} \quad \mathbf{y} = \boldsymbol{\Phi}\mathbf{x} xmini=1Gxi2s.t.y=Φx

最优测量矩阵设计理论

Grassmannian流形优化

测量矩阵的行向量构成Grassmannian流形 G ( M , N ) \mathcal{G}(M,N) G(M,N)上的点。优化问题为:
min ⁡ Φ ∈ G ( M , N ) δ k ( Φ ) \min_{\boldsymbol{\Phi} \in \mathcal{G}(M,N)} \delta_k(\boldsymbol{\Phi}) ΦG(M,N)minδk(Φ)

黎曼几何方法

在Grassmannian流形上定义黎曼度量:
⟨ Ξ , H ⟩ Φ = tr ( Ξ T H ) \langle \boldsymbol{\Xi}, \boldsymbol{\Eta} \rangle_{\boldsymbol{\Phi}} = \text{tr}(\boldsymbol{\Xi}^T\boldsymbol{\Eta}) Ξ,HΦ=tr(ΞTH)

其中 Ξ , H \boldsymbol{\Xi}, \boldsymbol{\Eta} Ξ,H是切空间 T Φ G ( M , N ) T_{\boldsymbol{\Phi}}\mathcal{G}(M,N) TΦG(M,N)中的向量。

黎曼梯度:设 f ( Φ ) = δ k ( Φ ) f(\boldsymbol{\Phi}) = \delta_k(\boldsymbol{\Phi}) f(Φ)=δk(Φ),则黎曼梯度为:
grad f ( Φ ) = ∇ f ( Φ ) − Φ Φ T ∇ f ( Φ ) \text{grad} f(\boldsymbol{\Phi}) = \nabla f(\boldsymbol{\Phi}) - \boldsymbol{\Phi}\boldsymbol{\Phi}^T\nabla f(\boldsymbol{\Phi}) gradf(Φ)=f(Φ)ΦΦTf(Φ)

半正定规划松弛

将RIP约束松弛为半正定规划:
min ⁡ G tr ( G ) s.t. G ⪰ 0 G i i = 1 , i = 1 , … , N ∣ G i j ∣ ≤ μ , i ≠ j rank ( G ) ≤ M \begin{align} \min_{\mathbf{G}} &\quad \text{tr}(\mathbf{G}) \\ \text{s.t.} &\quad \mathbf{G} \succeq 0 \\ &\quad \mathbf{G}_{ii} = 1, \quad i = 1,\ldots,N \\ &\quad |\mathbf{G}_{ij}| \leq \mu, \quad i \neq j \\ &\quad \text{rank}(\mathbf{G}) \leq M \end{align} Gmins.t.tr(G)G0Gii=1,i=1,,NGijμ,i=jrank(G)M

定理22(SDP松弛界):设 G ∗ \mathbf{G}^* G为上述SDP的最优解,则:
δ k ≥ tr ( G ∗ ) − k k \delta_k \geq \frac{\text{tr}(\mathbf{G}^*) - k}{k} δkktr(G)k

交替投影算法详细分析

算法5(测量矩阵优化)

  1. 初始化随机矩阵 Φ ( 0 ) \boldsymbol{\Phi}^{(0)} Φ(0),满足 ∥ ϕ i ∥ 2 = 1 \|\boldsymbol{\phi}_i\|_2 = 1 ϕi2=1
  2. t = 0 , 1 , 2 , … t = 0, 1, 2, \ldots t=0,1,2,
    • 计算RIP梯度: ∇ δ k ( Φ ( t ) ) \nabla \delta_k(\boldsymbol{\Phi}^{(t)}) δk(Φ(t))
    • 梯度下降: Φ ~ ( t + 1 ) = Φ ( t ) − α t ∇ δ k ( Φ ( t ) ) \widetilde{\boldsymbol{\Phi}}^{(t+1)} = \boldsymbol{\Phi}^{(t)} - \alpha_t \nabla \delta_k(\boldsymbol{\Phi}^{(t)}) Φ (t+1)=Φ(t)αtδk(Φ(t))
    • 投影到单位球面: ϕ i ( t + 1 ) = ϕ ~ i ( t + 1 ) ∥ ϕ ~ i ( t + 1 ) ∥ 2 \boldsymbol{\phi}_i^{(t+1)} = \frac{\widetilde{\boldsymbol{\phi}}_i^{(t+1)}}{\|\widetilde{\boldsymbol{\phi}}_i^{(t+1)}\|_2} ϕi(t+1)=ϕ i(t+1)2ϕ i(t+1)

收敛性分析:在适当的步长选择下,算法收敛到局部最优解。

噪声分析与鲁棒性理论

有界噪声模型

考虑有界噪声模型: y = Φ x + n \mathbf{y} = \boldsymbol{\Phi}\mathbf{x} + \mathbf{n} y=Φx+n,其中 ∥ n ∥ 2 ≤ ϵ \|\mathbf{n}\|_2 \leq \epsilon n2ϵ

定理23(有界噪声下的稳定恢复):当 δ 2 k < 2 − 1 \delta_{2k} < \sqrt{2} - 1 δ2k<2 1时,基追踪去噪的解 x ^ \hat{\mathbf{x}} x^满足:
∥ x ^ − x ∥ 2 ≤ C 1 ϵ + C 2 σ k ( x ) k \|\hat{\mathbf{x}} - \mathbf{x}\|_2 \leq C_1\epsilon + C_2\frac{\sigma_k(\mathbf{x})}{\sqrt{k}} x^x2C1ϵ+C2k σk(x)

其中 σ k ( x ) = min ⁡ z : ∥ z ∥ 0 ≤ k ∥ x − z ∥ 1 \sigma_k(\mathbf{x}) = \min_{\mathbf{z}: \|\mathbf{z}\|_0 \leq k} \|\mathbf{x} - \mathbf{z}\|_1 σk(x)=minz:z0kxz1是最佳k项逼近误差。

高斯噪声模型

考虑高斯噪声: n ∼ N ( 0 , σ 2 I ) \mathbf{n} \sim \mathcal{N}(\mathbf{0}, \sigma^2\mathbf{I}) nN(0,σ2I)

定理24(高斯噪声下的性能界):以高概率 1 − δ 1 - \delta 1δ,有:
∥ x ^ − x ∥ 2 ≤ C σ k log ⁡ ( N / k ) M \|\hat{\mathbf{x}} - \mathbf{x}\|_2 \leq C\sigma\sqrt{\frac{k\log(N/k)}{M}} x^x2CσMklog(N/k)

脉冲噪声模型

考虑稀疏脉冲噪声: y = Φ x + s \mathbf{y} = \boldsymbol{\Phi}\mathbf{x} + \mathbf{s} y=Φx+s,其中 s \mathbf{s} s是稀疏向量。

联合稀疏恢复问题:
min ⁡ x , s ∥ x ∥ 1 + λ ∥ s ∥ 1 s.t. y = Φ x + s \min_{\mathbf{x}, \mathbf{s}} \|\mathbf{x}\|_1 + \lambda\|\mathbf{s}\|_1 \quad \text{s.t.} \quad \mathbf{y} = \boldsymbol{\Phi}\mathbf{x} + \mathbf{s} x,sminx1+λs1s.t.y=Φx+s

定理25(脉冲噪声下的恢复条件):当 δ k + s < 1 3 \delta_{k+s} < \frac{1}{3} δk+s<31时,上述优化问题能同时恢复信号 x \mathbf{x} x和噪声 s \mathbf{s} s

压缩感知的扩展理论

矩阵压缩感知

低秩矩阵恢复

考虑矩阵观测模型: Y = A ( X ) + N \mathcal{Y} = \mathcal{A}(\mathbf{X}) + \mathcal{N} Y=A(X)+N,其中 A : R n 1 × n 2 → R m \mathcal{A}: \mathbb{R}^{n_1 \times n_2} \to \mathbb{R}^m A:Rn1×n2Rm是线性观测算子。

核范数最小化:
min ⁡ X ∥ X ∥ ∗ s.t. ∥ Y − A ( X ) ∥ F ≤ ϵ \min_{\mathbf{X}} \|\mathbf{X}\|_* \quad \text{s.t.} \quad \|\mathcal{Y} - \mathcal{A}(\mathbf{X})\|_F \leq \epsilon XminXs.t.YA(X)Fϵ

其中 ∥ X ∥ ∗ = ∑ i σ i ( X ) \|\mathbf{X}\|_* = \sum_i \sigma_i(\mathbf{X}) X=iσi(X)是核范数。

定理26(矩阵RIP):当观测算子 A \mathcal{A} A满足矩阵限制等距性质:
( 1 − δ r ) ∥ X ∥ F 2 ≤ ∥ A ( X ) ∥ 2 2 ≤ ( 1 + δ r ) ∥ X ∥ F 2 (1-\delta_r)\|\mathbf{X}\|_F^2 \leq \|\mathcal{A}(\mathbf{X})\|_2^2 \leq (1+\delta_r)\|\mathbf{X}\|_F^2 (1δr)XF2A(X)22(1+δr)XF2

对所有秩不超过 r r r的矩阵 X \mathbf{X} X成立,且 δ 5 r < 1 / 10 \delta_{5r} < 1/10 δ5r<1/10时,核范数最小化能精确恢复秩为 r r r的矩阵。

矩阵补全问题

特殊情况: A ( X ) = P Ω ( X ) \mathcal{A}(\mathbf{X}) = \mathcal{P}_\Omega(\mathbf{X}) A(X)=PΩ(X),其中 P Ω \mathcal{P}_\Omega PΩ是到观测集 Ω \Omega Ω的投影算子。

定理27(矩阵补全的采样复杂度):对于 n × n n \times n n×n的秩 r r r矩阵,当观测数满足:
∣ Ω ∣ ≥ C r μ n log ⁡ 2 n |\Omega| \geq Cr\mu n\log^2 n ∣Ω∣Crμnlog2n

时,其中 μ \mu μ是相干性参数,核范数最小化能以高概率精确恢复原矩阵。

张量压缩感知

多线性代数基础

三阶张量 X ∈ R n 1 × n 2 × n 3 \mathcal{X} \in \mathbb{R}^{n_1 \times n_2 \times n_3} XRn1×n2×n3的模态展开:

  • 模态-1展开: X ( 1 ) ∈ R n 1 × n 2 n 3 \mathbf{X}_{(1)} \in \mathbb{R}^{n_1 \times n_2n_3} X(1)Rn1×n2n3
  • 模态-2展开: X ( 2 ) ∈ R n 2 × n 1 n 3 \mathbf{X}_{(2)} \in \mathbb{R}^{n_2 \times n_1n_3} X(2)Rn2×n1n3
  • 模态-3展开: X ( 3 ) ∈ R n 3 × n 1 n 2 \mathbf{X}_{(3)} \in \mathbb{R}^{n_3 \times n_1n_2} X(3)Rn3×n1n2
张量核范数

定义张量核范数:
∥ X ∥ T N N = ∑ i = 1 3 α i ∥ X ( i ) ∥ ∗ \|\mathcal{X}\|_{TNN} = \sum_{i=1}^3 \alpha_i \|\mathbf{X}_{(i)}\|_* XTNN=i=13αiX(i)

其中 α i ≥ 0 \alpha_i \geq 0 αi0是权重参数。

张量恢复问题
min ⁡ X ∥ X ∥ T N N s.t. ∥ Y − A ( X ) ∥ F ≤ ϵ \min_{\mathcal{X}} \|\mathcal{X}\|_{TNN} \quad \text{s.t.} \quad \|\mathcal{Y} - \mathcal{A}(\mathcal{X})\|_F \leq \epsilon XminXTNNs.t.YA(X)Fϵ

你可能感兴趣的:(算法,机器学习,信号处理,开发语言,人工智能,数学建模,线性代数)