压缩感知理论由Emmanuel Candès、Terence Tao、David Donoho等数学家在2004年前后建立,该理论证明:对于在某种变换域中具有稀疏性的信号,可以通过远少于奈奎斯特采样率的随机测量实现完美重构。
压缩感知的核心数学模型为:
y = Φ x + n \mathbf{y} = \boldsymbol{\Phi}\mathbf{x} + \mathbf{n} y=Φx+n
其中:
信号的稀疏性通过 ℓ 0 \ell_0 ℓ0范数刻画:
∥ x ∥ 0 = ∣ { i : x i ≠ 0 } ∣ \|\mathbf{x}\|_0 = |\{i : x_i \neq 0\}| ∥x∥0=∣{i:xi=0}∣
对于k-稀疏信号,定义稀疏集合:
Σ k = { x ∈ R N : ∥ x ∥ 0 ≤ k } \Sigma_k = \{\mathbf{x} \in \mathbb{R}^N : \|\mathbf{x}\|_0 \leq k\} Σk={x∈RN:∥x∥0≤k}
当信号 x \mathbf{x} x在正交基 Ψ = [ ψ 1 , ψ 2 , … , ψ N ] \boldsymbol{\Psi} = [\boldsymbol{\psi}_1, \boldsymbol{\psi}_2, \ldots, \boldsymbol{\psi}_N] Ψ=[ψ1,ψ2,…,ψN]下稀疏时:
x = Ψ α = ∑ i = 1 N α i ψ i \mathbf{x} = \boldsymbol{\Psi}\boldsymbol{\alpha} = \sum_{i=1}^N \alpha_i \boldsymbol{\psi}_i x=Ψα=i=1∑Nαiψi
其中 α \boldsymbol{\alpha} α是稀疏系数向量, ∥ α ∥ 0 ≤ k \|\boldsymbol{\alpha}\|_0 \leq k ∥α∥0≤k。
测量过程表示为:
y = Φ Ψ α = Θ α \mathbf{y} = \boldsymbol{\Phi}\boldsymbol{\Psi}\boldsymbol{\alpha} = \boldsymbol{\Theta}\boldsymbol{\alpha} y=ΦΨα=Θα
这里 Θ = Φ Ψ \boldsymbol{\Theta} = \boldsymbol{\Phi}\boldsymbol{\Psi} Θ=ΦΨ是感知矩阵。
设 K ( x ) K(\mathbf{x}) K(x)为信号 x \mathbf{x} x的Kolmogorov复杂度,则k-稀疏信号的复杂度界限为:
K ( x ) ≤ k log 2 ( N / k ) + k log 2 ( R ) + O ( log k ) K(\mathbf{x}) \leq k\log_2(N/k) + k\log_2(R) + O(\log k) K(x)≤klog2(N/k)+klog2(R)+O(logk)
其中 R R R是量化精度。这表明稀疏信号的信息量远小于其维度 N N N。
定理7(Fano不等式在压缩感知中的应用):对于任意重构算法 x ^ ( y ) \hat{\mathbf{x}}(\mathbf{y}) x^(y),存在k-稀疏信号使得:
E [ ∥ x ^ ( y ) − x ∥ 2 2 ] ≥ c k log ( N / k ) M \mathbb{E}[\|\hat{\mathbf{x}}(\mathbf{y}) - \mathbf{x}\|_2^2] \geq c\frac{k\log(N/k)}{M} E[∥x^(y)−x∥22]≥cMklog(N/k)
其中 c > 0 c > 0 c>0是常数。
证明思路:
定理1(稀疏恢复的唯一性):设 x ∗ , x ∈ Σ k \mathbf{x}^*, \mathbf{x} \in \Sigma_k x∗,x∈Σk,若 Φ x ∗ = Φ x \boldsymbol{\Phi}\mathbf{x}^* = \boldsymbol{\Phi}\mathbf{x} Φx∗=Φx,则当 Φ \boldsymbol{\Phi} Φ满足限制等距性质且 δ 2 k < 1 \delta_{2k} < 1 δ2k<1时,有 x ∗ = x \mathbf{x}^* = \mathbf{x} x∗=x。
详细证明:设 h = x ∗ − x \mathbf{h} = \mathbf{x}^* - \mathbf{x} h=x∗−x,则 Φ h = 0 \boldsymbol{\Phi}\mathbf{h} = \mathbf{0} Φh=0且 ∥ h ∥ 0 ≤ ∥ x ∗ ∥ 0 + ∥ x ∥ 0 ≤ 2 k \|\mathbf{h}\|_0 \leq \|\mathbf{x}^*\|_0 + \|\mathbf{x}\|_0 \leq 2k ∥h∥0≤∥x∗∥0+∥x∥0≤2k。
设 h = h T + h T c \mathbf{h} = \mathbf{h}_T + \mathbf{h}_{T^c} h=hT+hTc,其中 T T T为 h \mathbf{h} h的最大 k k k个元素的索引集。则:
∥ h T ∥ 0 ≤ k , ∥ h T c ∥ 0 ≤ k \|\mathbf{h}_T\|_0 \leq k, \quad \|\mathbf{h}_{T^c}\|_0 \leq k ∥hT∥0≤k,∥hTc∥0≤k
由RIP条件:
( 1 − δ 2 k ) ∥ h ∥ 2 2 ≤ ∥ Φ h ∥ 2 2 = 0 (1-\delta_{2k})\|\mathbf{h}\|_2^2 \leq \|\boldsymbol{\Phi}\mathbf{h}\|_2^2 = 0 (1−δ2k)∥h∥22≤∥Φh∥22=0
因 δ 2 k < 1 \delta_{2k} < 1 δ2k<1,故 ( 1 − δ 2 k ) > 0 (1-\delta_{2k}) > 0 (1−δ2k)>0,得 ∥ h ∥ 2 = 0 \|\mathbf{h}\|_2 = 0 ∥h∥2=0,即 h = 0 \mathbf{h} = \mathbf{0} h=0,故 x ∗ = x \mathbf{x}^* = \mathbf{x} x∗=x。□
测量矩阵 Φ \boldsymbol{\Phi} Φ与稀疏基 Ψ \boldsymbol{\Psi} Ψ的相干性定义为:
μ ( Φ , Ψ ) = N max 1 ≤ i , j ≤ N ∣ ⟨ ϕ i , ψ j ⟩ ∣ \mu(\boldsymbol{\Phi}, \boldsymbol{\Psi}) = \sqrt{N} \max_{1 \leq i,j \leq N} |\langle \boldsymbol{\phi}_i, \boldsymbol{\psi}_j \rangle| μ(Φ,Ψ)=N1≤i,j≤Nmax∣⟨ϕi,ψj⟩∣
Welch界限:对于任意单位向量系统 { ϕ i } i = 1 M \{\boldsymbol{\phi}_i\}_{i=1}^M {ϕi}i=1M和 { ψ j } j = 1 N \{\boldsymbol{\psi}_j\}_{j=1}^N {ψj}j=1N:
μ ( Φ , Ψ ) ≥ N − M M ( N − 1 ) \mu(\boldsymbol{\Phi}, \boldsymbol{\Psi}) \geq \sqrt{\frac{N-M}{M(N-1)}} μ(Φ,Ψ)≥M(N−1)N−M
证明:考虑Gram矩阵 G = Φ T Ψ \mathbf{G} = \boldsymbol{\Phi}^T\boldsymbol{\Psi} G=ΦTΨ,有:
∑ i , j ∣ G i j ∣ 2 = tr ( G T G ) = tr ( Ψ T Φ Φ T Ψ ) = M \sum_{i,j} |G_{ij}|^2 = \text{tr}(\mathbf{G}^T\mathbf{G}) = \text{tr}(\boldsymbol{\Psi}^T\boldsymbol{\Phi}\boldsymbol{\Phi}^T\boldsymbol{\Psi}) = M i,j∑∣Gij∣2=tr(GTG)=tr(ΨTΦΦTΨ)=M
由Cauchy-Schwarz不等式:
M 2 ≤ M N max i , j ∣ G i j ∣ 2 M^2 \leq MN \max_{i,j} |G_{ij}|^2 M2≤MNi,jmax∣Gij∣2
因此:
max i , j ∣ G i j ∣ ≥ M N = M N \max_{i,j} |G_{ij}| \geq \sqrt{\frac{M}{N}} = \frac{\sqrt{M}}{\sqrt{N}} i,jmax∣Gij∣≥NM=NM
结合单位化条件得到Welch界限。□
当相干性较小时,稀疏恢复条件为:
k < 1 2 ( 1 + 1 μ ( Φ , Ψ ) ) k < \frac{1}{2}\left(1 + \frac{1}{\mu(\boldsymbol{\Phi}, \boldsymbol{\Psi})}\right) k<21(1+μ(Φ,Ψ)1)
定义平均相干性:
μ ˉ ( Φ , Ψ ) = 1 M N ∑ i = 1 M ∑ j = 1 N ∣ ⟨ ϕ i , ψ j ⟩ ∣ 2 \bar{\mu}(\boldsymbol{\Phi}, \boldsymbol{\Psi}) = \frac{1}{MN}\sum_{i=1}^M\sum_{j=1}^N |\langle \boldsymbol{\phi}_i, \boldsymbol{\psi}_j \rangle|^2 μˉ(Φ,Ψ)=MN1i=1∑Mj=1∑N∣⟨ϕi,ψj⟩∣2
定理8(平均相干性与RIP的关系):若 μ ˉ ( Φ , Ψ ) ≤ 1 k \bar{\mu}(\boldsymbol{\Phi}, \boldsymbol{\Psi}) \leq \frac{1}{k} μˉ(Φ,Ψ)≤k1,则测量矩阵满足:
δ k ≤ ( k − 1 ) μ ˉ ( Φ , Ψ ) \delta_k \leq (k-1)\bar{\mu}(\boldsymbol{\Phi}, \boldsymbol{\Psi}) δk≤(k−1)μˉ(Φ,Ψ)
对于索引集 T ⊆ [ N ] T \subseteq [N] T⊆[N],定义累积相干性:
μ 1 ( T ) = max j ∉ T ∑ i ∈ T ∣ ⟨ ϕ i , ϕ j ⟩ ∣ \mu_1(T) = \max_{j \notin T} \sum_{i \in T} |\langle \boldsymbol{\phi}_i, \boldsymbol{\phi}_j \rangle| μ1(T)=j∈/Tmaxi∈T∑∣⟨ϕi,ϕj⟩∣
定理9(ERC条件):若 μ 1 ( T ) < 1 \mu_1(T) < 1 μ1(T)<1对所有 ∣ T ∣ ≤ k |T| \leq k ∣T∣≤k成立,则所有k-稀疏信号可通过 ℓ 1 \ell_1 ℓ1最小化精确恢复。
理想的稀疏重构问题为:
min x ∥ x ∥ 0 s.t. y = Φ x \min_{\mathbf{x}} \|\mathbf{x}\|_0 \quad \text{s.t.} \quad \mathbf{y} = \boldsymbol{\Phi}\mathbf{x} xmin∥x∥0s.t.y=Φx
复杂度分析:该问题等价于从 ( N k ) \binom{N}{k} (kN)个可能的支撑集中选择正确的一个,计算复杂度为 O ( N k ) O(N^k) O(Nk),属于NP-hard问题。
对于噪声情况,松弛为:
min x ∥ x ∥ 0 s.t. ∥ y − Φ x ∥ 2 ≤ ϵ \min_{\mathbf{x}} \|\mathbf{x}\|_0 \quad \text{s.t.} \quad \|\mathbf{y} - \boldsymbol{\Phi}\mathbf{x}\|_2 \leq \epsilon xmin∥x∥0s.t.∥y−Φx∥2≤ϵ
基追踪算法将L₀问题松弛为L₁凸优化:
min x ∥ x ∥ 1 s.t. y = Φ x \min_{\mathbf{x}} \|\mathbf{x}\|_1 \quad \text{s.t.} \quad \mathbf{y} = \boldsymbol{\Phi}\mathbf{x} xmin∥x∥1s.t.y=Φx
对于噪声情况(基追踪去噪):
min x ∥ x ∥ 1 s.t. ∥ y − Φ x ∥ 2 ≤ ϵ \min_{\mathbf{x}} \|\mathbf{x}\|_1 \quad \text{s.t.} \quad \|\mathbf{y} - \boldsymbol{\Phi}\mathbf{x}\|_2 \leq \epsilon xmin∥x∥1s.t.∥y−Φx∥2≤ϵ
定理2(L₁等价性条件):当测量矩阵 Φ \boldsymbol{\Phi} Φ满足RIP条件 δ 2 k < 2 − 1 ≈ 0.414 \delta_{2k} < \sqrt{2} - 1 \approx 0.414 δ2k<2−1≈0.414时,L₁最小化解与L₀最小化解等价。
详细证明:设 x ∗ \mathbf{x}^* x∗为真实k-稀疏信号, x ^ \hat{\mathbf{x}} x^为L₁最小化的解, h = x ^ − x ∗ \mathbf{h} = \hat{\mathbf{x}} - \mathbf{x}^* h=x^−x∗。
设 T T T为 x ∗ \mathbf{x}^* x∗的支撑集, T c T^c Tc为其补集。由于 Φ h = 0 \boldsymbol{\Phi}\mathbf{h} = \mathbf{0} Φh=0,有:
Φ T h T + Φ T c h T c = 0 \boldsymbol{\Phi}_T\mathbf{h}_T + \boldsymbol{\Phi}_{T^c}\mathbf{h}_{T^c} = \mathbf{0} ΦThT+ΦTchTc=0
即:
Φ T h T = − Φ T c h T c \boldsymbol{\Phi}_T\mathbf{h}_T = -\boldsymbol{\Phi}_{T^c}\mathbf{h}_{T^c} ΦThT=−ΦTchTc
由L₁最小化的最优性:
∥ x ∗ + h ∥ 1 ≤ ∥ x ∗ ∥ 1 \|\mathbf{x}^* + \mathbf{h}\|_1 \leq \|\mathbf{x}^*\|_1 ∥x∗+h∥1≤∥x∗∥1
展开得:
∥ x T ∗ + h T ∥ 1 + ∥ h T c ∥ 1 ≤ ∥ x T ∗ ∥ 1 \|\mathbf{x}^*_T + \mathbf{h}_T\|_1 + \|\mathbf{h}_{T^c}\|_1 \leq \|\mathbf{x}^*_T\|_1 ∥xT∗+hT∥1+∥hTc∥1≤∥xT∗∥1
由三角不等式的逆:
∥ h T ∥ 1 ≤ ∥ h T c ∥ 1 \|\mathbf{h}_T\|_1 \leq \|\mathbf{h}_{T^c}\|_1 ∥hT∥1≤∥hTc∥1
将 T c T^c Tc分解为 T 1 , T 2 , … T_1, T_2, \ldots T1,T2,…,每个 ∣ T i ∣ ≤ k |T_i| \leq k ∣Ti∣≤k,应用RIP得到矛盾。□
引入拉格朗日乘子 λ > 0 \lambda > 0 λ>0,无约束形式为:
min x f ( x ) = 1 2 ∥ y − Φ x ∥ 2 2 + λ ∥ x ∥ 1 \min_{\mathbf{x}} f(\mathbf{x}) = \frac{1}{2}\|\mathbf{y} - \boldsymbol{\Phi}\mathbf{x}\|_2^2 + \lambda\|\mathbf{x}\|_1 xminf(x)=21∥y−Φx∥22+λ∥x∥1
L₁范数的次梯度为:
∂ ∥ x ∥ 1 = { z ∈ R N : z i = { sign ( x i ) if x i ≠ 0 [ − 1 , 1 ] if x i = 0 } \partial\|\mathbf{x}\|_1 = \left\{\mathbf{z} \in \mathbb{R}^N : z_i = \begin{cases} \text{sign}(x_i) & \text{if } x_i \neq 0 \\ [-1, 1] & \text{if } x_i = 0 \end{cases}\right\} ∂∥x∥1={z∈RN:zi={sign(xi)[−1,1]if xi=0if xi=0}
最优性条件(KKT条件):
Φ T ( Φ x ∗ − y ) + λ z ∗ = 0 \boldsymbol{\Phi}^T(\boldsymbol{\Phi}\mathbf{x}^* - \mathbf{y}) + \lambda \mathbf{z}^* = \mathbf{0} ΦT(Φx∗−y)+λz∗=0
其中 z ∗ ∈ ∂ ∥ x ∗ ∥ 1 \mathbf{z}^* \in \partial\|\mathbf{x}^*\|_1 z∗∈∂∥x∗∥1。
定义对偶函数:
g ( ν ) = inf x { ⟨ ν , y − Φ x ⟩ + 1 2 ∥ y − Φ x ∥ 2 2 + λ ∥ x ∥ 1 } g(\boldsymbol{\nu}) = \inf_{\mathbf{x}} \left\{\langle \boldsymbol{\nu}, \mathbf{y} - \boldsymbol{\Phi}\mathbf{x} \rangle + \frac{1}{2}\|\mathbf{y} - \boldsymbol{\Phi}\mathbf{x}\|_2^2 + \lambda\|\mathbf{x}\|_1\right\} g(ν)=xinf{⟨ν,y−Φx⟩+21∥y−Φx∥22+λ∥x∥1}
对 x \mathbf{x} x求导并令其为零:
− Φ T ν − Φ T ( y − Φ x ) + λ z = 0 -\boldsymbol{\Phi}^T\boldsymbol{\nu} - \boldsymbol{\Phi}^T(\mathbf{y} - \boldsymbol{\Phi}\mathbf{x}) + \lambda\mathbf{z} = \mathbf{0} −ΦTν−ΦT(y−Φx)+λz=0
得到对偶问题:
max ν { − 1 2 ∥ ν ∥ 2 2 + ⟨ ν , y ⟩ } s.t. ∥ Φ T ν ∥ ∞ ≤ λ \max_{\boldsymbol{\nu}} \left\{-\frac{1}{2}\|\boldsymbol{\nu}\|_2^2 + \langle \boldsymbol{\nu}, \mathbf{y} \rangle\right\} \quad \text{s.t.} \quad \|\boldsymbol{\Phi}^T\boldsymbol{\nu}\|_\infty \leq \lambda νmax{−21∥ν∥22+⟨ν,y⟩}s.t.∥ΦTν∥∞≤λ
定义软阈值算子 S τ : R → R \mathcal{S}_\tau: \mathbb{R} \to \mathbb{R} Sτ:R→R:
S τ ( x ) = { x − τ if x > τ 0 if ∣ x ∣ ≤ τ x + τ if x < − τ \mathcal{S}_\tau(x) = \begin{cases} x - \tau & \text{if } x > \tau \\ 0 & \text{if } |x| \leq \tau \\ x + \tau & \text{if } x < -\tau \end{cases} Sτ(x)=⎩ ⎨ ⎧x−τ0x+τif x>τif ∣x∣≤τif x<−τ
向量形式: [ S τ ( x ) ] i = S τ ( x i ) [\mathcal{S}_\tau(\mathbf{x})]_i = \mathcal{S}_\tau(x_i) [Sτ(x)]i=Sτ(xi)
性质1(收缩性): ∣ S τ ( x ) ∣ ≤ ∣ x ∣ |\mathcal{S}_\tau(x)| \leq |x| ∣Sτ(x)∣≤∣x∣
性质2(单调性):若 x ≥ y x \geq y x≥y,则 S τ ( x ) ≥ S τ ( y ) \mathcal{S}_\tau(x) \geq \mathcal{S}_\tau(y) Sτ(x)≥Sτ(y)
性质3(Lipschitz连续性): ∣ S τ ( x ) − S τ ( y ) ∣ ≤ ∣ x − y ∣ |\mathcal{S}_\tau(x) - \mathcal{S}_\tau(y)| \leq |x - y| ∣Sτ(x)−Sτ(y)∣≤∣x−y∣
定理10(软阈值的近似算子性质):
S τ ( x ) = arg min z 1 2 ( x − z ) 2 + τ ∣ z ∣ \mathcal{S}_\tau(x) = \arg\min_z \frac{1}{2}(x-z)^2 + \tau|z| Sτ(x)=argzmin21(x−z)2+τ∣z∣
证明:设 f ( z ) = 1 2 ( x − z ) 2 + τ ∣ z ∣ f(z) = \frac{1}{2}(x-z)^2 + \tau|z| f(z)=21(x−z)2+τ∣z∣,考虑三种情况:
验证这些解确实对应软阈值算子。□
算法1(ISTA):
x ( t + 1 ) = S λ / L ( x ( t ) − 1 L Φ T ( Φ x ( t ) − y ) ) \mathbf{x}^{(t+1)} = \mathcal{S}_{\lambda/L}\left(\mathbf{x}^{(t)} - \frac{1}{L}\boldsymbol{\Phi}^T(\boldsymbol{\Phi}\mathbf{x}^{(t)} - \mathbf{y})\right) x(t+1)=Sλ/L(x(t)−L1ΦT(Φx(t)−y))
其中 L = ∥ Φ T Φ ∥ 2 L = \|\boldsymbol{\Phi}^T\boldsymbol{\Phi}\|_2 L=∥ΦTΦ∥2是Lipschitz常数。
设目标函数为 F ( x ) = 1 2 ∥ y − Φ x ∥ 2 2 + λ ∥ x ∥ 1 F(\mathbf{x}) = \frac{1}{2}\|\mathbf{y} - \boldsymbol{\Phi}\mathbf{x}\|_2^2 + \lambda\|\mathbf{x}\|_1 F(x)=21∥y−Φx∥22+λ∥x∥1
定理11(ISTA收敛率):
F ( x ( t ) ) − F ( x ∗ ) ≤ L ∥ x ( 0 ) − x ∗ ∥ 2 2 2 t F(\mathbf{x}^{(t)}) - F(\mathbf{x}^*) \leq \frac{L\|\mathbf{x}^{(0)} - \mathbf{x}^*\|_2^2}{2t} F(x(t))−F(x∗)≤2tL∥x(0)−x∗∥22
详细证明:
定义辅助函数:
Q L ( x , y ) = F ( y ) + ⟨ ∇ f ( y ) , x − y ⟩ + L 2 ∥ x − y ∥ 2 2 + λ ∥ x ∥ 1 Q_L(\mathbf{x}, \mathbf{y}) = F(\mathbf{y}) + \langle \nabla f(\mathbf{y}), \mathbf{x} - \mathbf{y} \rangle + \frac{L}{2}\|\mathbf{x} - \mathbf{y}\|_2^2 + \lambda\|\mathbf{x}\|_1 QL(x,y)=F(y)+⟨∇f(y),x−y⟩+2L∥x−y∥22+λ∥x∥1
其中 f ( x ) = 1 2 ∥ y − Φ x ∥ 2 2 f(\mathbf{x}) = \frac{1}{2}\|\mathbf{y} - \boldsymbol{\Phi}\mathbf{x}\|_2^2 f(x)=21∥y−Φx∥22, ∇ f ( x ) = Φ T ( Φ x − y ) \nabla f(\mathbf{x}) = \boldsymbol{\Phi}^T(\boldsymbol{\Phi}\mathbf{x} - \mathbf{y}) ∇f(x)=ΦT(Φx−y)。
由于 f f f的Lipschitz连续性:
F ( x ) ≤ Q L ( x , y ) F(\mathbf{x}) \leq Q_L(\mathbf{x}, \mathbf{y}) F(x)≤QL(x,y)
ISTA更新规则等价于:
x ( t + 1 ) = arg min x Q L ( x , x ( t ) ) \mathbf{x}^{(t+1)} = \arg\min_{\mathbf{x}} Q_L(\mathbf{x}, \mathbf{x}^{(t)}) x(t+1)=argxminQL(x,x(t))
应用充分下降引理和凸性得到收敛率。□
算法2(FISTA):
v ( t ) = x ( t − 1 ) + t − 2 t + 1 ( x ( t − 1 ) − x ( t − 2 ) ) x ( t ) = S λ / L ( v ( t ) − 1 L Φ T ( Φ v ( t ) − y ) ) \begin{align} \mathbf{v}^{(t)} &= \mathbf{x}^{(t-1)} + \frac{t-2}{t+1}(\mathbf{x}^{(t-1)} - \mathbf{x}^{(t-2)}) \\ \mathbf{x}^{(t)} &= \mathcal{S}_{\lambda/L}\left(\mathbf{v}^{(t)} - \frac{1}{L}\boldsymbol{\Phi}^T(\boldsymbol{\Phi}\mathbf{v}^{(t)} - \mathbf{y})\right) \end{align} v(t)x(t)=x(t−1)+t+1t−2(x(t−1)−x(t−2))=Sλ/L(v(t)−L1ΦT(Φv(t)−y))
FISTA采用Nesterov加速机制,动量项为:
t − 2 t + 1 = 1 − 3 t + 1 \frac{t-2}{t+1} = 1 - \frac{3}{t+1} t+1t−2=1−t+13
定理12(FISTA收敛率):
F ( x ( t ) ) − F ( x ∗ ) ≤ 2 L ∥ x ( 0 ) − x ∗ ∥ 2 2 ( t + 1 ) 2 F(\mathbf{x}^{(t)}) - F(\mathbf{x}^*) \leq \frac{2L\|\mathbf{x}^{(0)} - \mathbf{x}^*\|_2^2}{(t+1)^2} F(x(t))−F(x∗)≤(t+1)22L∥x(0)−x∗∥22
证明思路:
算法3(OMP):
最小二乘解为:
x Λ ( t + 1 ) ( t + 1 ) = ( Φ Λ ( t + 1 ) T Φ Λ ( t + 1 ) ) − 1 Φ Λ ( t + 1 ) T y \mathbf{x}_{\Lambda^{(t+1)}}^{(t+1)} = (\boldsymbol{\Phi}_{\Lambda^{(t+1)}}^T\boldsymbol{\Phi}_{\Lambda^{(t+1)}})^{-1}\boldsymbol{\Phi}_{\Lambda^{(t+1)}}^T\mathbf{y} xΛ(t+1)(t+1)=(ΦΛ(t+1)TΦΛ(t+1))−1ΦΛ(t+1)Ty
残差更新:
r ( t + 1 ) = y − Φ Λ ( t + 1 ) ( Φ Λ ( t + 1 ) T Φ Λ ( t + 1 ) ) − 1 Φ Λ ( t + 1 ) T y \mathbf{r}^{(t+1)} = \mathbf{y} - \boldsymbol{\Phi}_{\Lambda^{(t+1)}}(\boldsymbol{\Phi}_{\Lambda^{(t+1)}}^T\boldsymbol{\Phi}_{\Lambda^{(t+1)}})^{-1}\boldsymbol{\Phi}_{\Lambda^{(t+1)}}^T\mathbf{y} r(t+1)=y−ΦΛ(t+1)(ΦΛ(t+1)TΦΛ(t+1))−1ΦΛ(t+1)Ty
定理13(OMP理论保证):当测量矩阵满足RIP条件 δ k + 1 < 1 k + 1 \delta_{k+1} < \frac{1}{\sqrt{k}+1} δk+1<k+11时,OMP能在k步内精确恢复所有k-稀疏信号。
证明框架:
算法4(IHT):
x ( t + 1 ) = H k ( x ( t ) + μ Φ T ( y − Φ x ( t ) ) ) \mathbf{x}^{(t+1)} = \mathcal{H}_k\left(\mathbf{x}^{(t)} + \mu\boldsymbol{\Phi}^T(\mathbf{y} - \boldsymbol{\Phi}\mathbf{x}^{(t)})\right) x(t+1)=Hk(x(t)+μΦT(y−Φx(t)))
其中 H k ( x ) \mathcal{H}_k(\mathbf{x}) Hk(x)是硬阈值算子,保留 x \mathbf{x} x中k个最大绝对值元素,其余置零。
硬阈值算子 H k : R N → R N \mathcal{H}_k: \mathbb{R}^N \to \mathbb{R}^N Hk:RN→RN定义为:
[ H k ( x ) ] i = { x i if i ∈ T k ( x ) 0 otherwise [\mathcal{H}_k(\mathbf{x})]_i = \begin{cases} x_i & \text{if } i \in T_k(\mathbf{x}) \\ 0 & \text{otherwise} \end{cases} [Hk(x)]i={xi0if i∈Tk(x)otherwise
其中 T k ( x ) T_k(\mathbf{x}) Tk(x)是 x \mathbf{x} x中k个最大绝对值元素的索引集。
性质1(投影性质): H k ( x ) = arg min z : ∥ z ∥ 0 ≤ k ∥ x − z ∥ 2 2 \mathcal{H}_k(\mathbf{x}) = \arg\min_{\mathbf{z}: \|\mathbf{z}\|_0 \leq k} \|\mathbf{x} - \mathbf{z}\|_2^2 Hk(x)=argminz:∥z∥0≤k∥x−z∥22
性质2(非扩张性):对于任意k-稀疏信号 x \mathbf{x} x, ∥ H k ( x ) ∥ 2 ≤ ∥ x ∥ 2 \|\mathcal{H}_k(\mathbf{x})\|_2 \leq \|\mathbf{x}\|_2 ∥Hk(x)∥2≤∥x∥2
定理14(IHT收敛条件):当 μ ∈ ( 0 , 2 / ∥ Φ ∥ 2 2 ) \mu \in (0, 2/\|\boldsymbol{\Phi}\|_2^2) μ∈(0,2/∥Φ∥22)且 δ 3 k < 1 32 \delta_{3k} < \frac{1}{\sqrt{32}} δ3k<321时,IHT线性收敛到真实稀疏解。
设 x ∗ \mathbf{x}^* x∗为真实k-稀疏信号,定义误差 e ( t ) = x ( t ) − x ∗ \mathbf{e}^{(t)} = \mathbf{x}^{(t)} - \mathbf{x}^* e(t)=x(t)−x∗。
引理1:在RIP条件 δ 3 k < 1 32 \delta_{3k} < \frac{1}{\sqrt{32}} δ3k<321下,存在常数 ρ ∈ ( 0 , 1 ) \rho \in (0, 1) ρ∈(0,1)使得:
∥ e ( t + 1 ) ∥ 2 ≤ ρ ∥ e ( t ) ∥ 2 \|\mathbf{e}^{(t+1)}\|_2 \leq \rho \|\mathbf{e}^{(t)}\|_2 ∥e(t+1)∥2≤ρ∥e(t)∥2
证明步骤:
定义:矩阵 Φ ∈ R M × N \boldsymbol{\Phi} \in \mathbb{R}^{M \times N} Φ∈RM×N满足阶数为k的限制等距性质,当且仅当存在最小常数 δ k ∈ ( 0 , 1 ) \delta_k \in (0,1) δk∈(0,1),使得对所有k-稀疏向量 x \mathbf{x} x:
( 1 − δ k ) ∥ x ∥ 2 2 ≤ ∥ Φ x ∥ 2 2 ≤ ( 1 + δ k ) ∥ x ∥ 2 2 (1-\delta_k)\|\mathbf{x}\|_2^2 \leq \|\boldsymbol{\Phi}\mathbf{x}\|_2^2 \leq (1+\delta_k)\|\mathbf{x}\|_2^2 (1−δk)∥x∥22≤∥Φx∥22≤(1+δk)∥x∥22
这等价于所有k-稀疏向量的Gram矩阵 G T = Φ T T Φ T \mathbf{G}_T = \boldsymbol{\Phi}_T^T\boldsymbol{\Phi}_T GT=ΦTTΦT的特征值都在 [ 1 − δ k , 1 + δ k ] [1-\delta_k, 1+\delta_k] [1−δk,1+δk]范围内。
定理15(RIP常数的变分表示):
δ k = max x ≠ 0 ∥ x ∥ 0 ≤ k ∣ ∥ Φ x ∥ 2 2 − ∥ x ∥ 2 2 ∣ ∥ x ∥ 2 2 \delta_k = \max_{\substack{\mathbf{x} \neq \mathbf{0} \\ \|\mathbf{x}\|_0 \leq k}} \frac{|\|\boldsymbol{\Phi}\mathbf{x}\|_2^2 - \|\mathbf{x}\|_2^2|}{\|\mathbf{x}\|_2^2} δk=x=0∥x∥0≤kmax∥x∥22∣∥Φx∥22−∥x∥22∣
证明:直接由RIP定义,通过变分原理得到。□
推论1:RIP常数等价于:
δ k = max ∣ T ∣ ≤ k ∥ Φ T T Φ T − I T ∥ 2 \delta_k = \max_{\substack{|T| \leq k}} \|\boldsymbol{\Phi}_T^T\boldsymbol{\Phi}_T - \mathbf{I}_T\|_2 δk=∣T∣≤kmax∥ΦTTΦT−IT∥2
其中 Φ T \boldsymbol{\Phi}_T ΦT表示 Φ \boldsymbol{\Phi} Φ对应索引集 T T T的子矩阵。
引理2(稀疏Johnson-Lindenstrauss):对于高斯随机矩阵 Φ ∈ R M × N \boldsymbol{\Phi} \in \mathbb{R}^{M \times N} Φ∈RM×N,元素独立同分布于 N ( 0 , 1 / M ) \mathcal{N}(0, 1/M) N(0,1/M),若:
M ≥ C δ − 2 k log ( e N / k ) M \geq C\delta^{-2}k\log(eN/k) M≥Cδ−2klog(eN/k)
则以概率至少 1 − 2 exp ( − c δ 2 M ) 1 - 2\exp(-c\delta^2 M) 1−2exp(−cδ2M)满足 δ k ( Φ ) ≤ δ \delta_k(\boldsymbol{\Phi}) \leq \delta δk(Φ)≤δ,其中 C , c > 0 C, c > 0 C,c>0是绝对常数。
详细证明:
定理3(高斯矩阵的精确RIP界):设 Φ ∈ R M × N \boldsymbol{\Phi} \in \mathbb{R}^{M \times N} Φ∈RM×N的元素独立同分布于 N ( 0 , 1 / M ) \mathcal{N}(0, 1/M) N(0,1/M),则对任意 δ ∈ ( 0 , 1 ) \delta \in (0,1) δ∈(0,1)和:
k ≤ c δ 2 M log ( e N / k ) k \leq c\frac{\delta^2 M}{\log(eN/k)} k≤clog(eN/k)δ2M
有:
P ( δ k ( Φ ) ≤ δ ) ≥ 1 − 2 exp ( − c ′ δ 2 M ) \mathbb{P}(\delta_k(\boldsymbol{\Phi}) \leq \delta) \geq 1 - 2\exp(-c'\delta^2 M) P(δk(Φ)≤δ)≥1−2exp(−c′δ2M)
其中 c = 1 / ( 4 log 3 ) ≈ 0.228 c = 1/(4\log 3) \approx 0.228 c=1/(4log3)≈0.228, c ′ = 1 / 32 c' = 1/32 c′=1/32。
定义(子高斯随机变量):随机变量 X X X称为参数为 σ \sigma σ的子高斯随机变量,如果对所有 t ∈ R t \in \mathbb{R} t∈R:
E [ exp ( t X ) ] ≤ exp ( σ 2 t 2 / 2 ) \mathbb{E}[\exp(tX)] \leq \exp(\sigma^2 t^2/2) E[exp(tX)]≤exp(σ2t2/2)
定理16(子高斯矩阵的RIP):设 Φ \boldsymbol{\Phi} Φ的元素独立同分布的子高斯随机变量,参数为 σ 2 / M \sigma^2/M σ2/M,则存在常数 c 1 , c 2 , c 3 c_1, c_2, c_3 c1,c2,c3,当:
M ≥ c 1 σ 2 δ − 2 k log ( e N / k ) M \geq c_1\sigma^2\delta^{-2}k\log(eN/k) M≥c1σ2δ−2klog(eN/k)
时,以概率至少 1 − exp ( − c 2 δ 2 M / σ 2 ) 1 - \exp(-c_2\delta^2 M/\sigma^2) 1−exp(−c2δ2M/σ2)满足 δ k ( Φ ) ≤ δ \delta_k(\boldsymbol{\Phi}) \leq \delta δk(Φ)≤δ。
定理4(伯努利矩阵的RIP):设 Φ \boldsymbol{\Phi} Φ的元素独立取值 ± 1 / M \pm 1/\sqrt{M} ±1/M,概率各为1/2,则存在常数 c 1 , c 2 > 0 c_1, c_2 > 0 c1,c2>0,当:
M ≥ c 1 δ − 2 k log ( e N / k ) M \geq c_1\delta^{-2}k\log(eN/k) M≥c1δ−2klog(eN/k)
时,以概率至少 1 − exp ( − c 2 δ 2 M ) 1 - \exp(-c_2\delta^2 M) 1−exp(−c2δ2M)满足 δ k ( Φ ) ≤ δ \delta_k(\boldsymbol{\Phi}) \leq \delta δk(Φ)≤δ。
证明要点:
设 F ∈ C N × N \mathbf{F} \in \mathbb{C}^{N \times N} F∈CN×N为归一化DFT矩阵:
F j k = 1 N e − 2 π i j k / N , j , k = 0 , 1 , … , N − 1 F_{jk} = \frac{1}{\sqrt{N}}e^{-2\pi ijk/N}, \quad j,k = 0,1,\ldots,N-1 Fjk=N1e−2πijk/N,j,k=0,1,…,N−1
定义部分随机傅里叶矩阵:
Φ = N M R F \boldsymbol{\Phi} = \sqrt{\frac{N}{M}}\mathbf{R}\mathbf{F} Φ=MNRF
其中 R ∈ { 0 , 1 } M × N \mathbf{R} \in \{0,1\}^{M \times N} R∈{0,1}M×N是随机选择矩阵,每行恰好有一个1。
定理5(部分傅里叶矩阵的RIP):当信号在时域或小波域稀疏时,随机选择的部分傅里叶矩阵以高概率满足RIP,所需测量数为:
M ≥ C μ 2 ( Ψ ) δ − 2 k log 4 ( N ) log ( k ) M \geq C\mu^2(\boldsymbol{\Psi})\delta^{-2}k\log^4(N)\log(k) M≥Cμ2(Ψ)δ−2klog4(N)log(k)
其中 μ ( Ψ ) \mu(\boldsymbol{\Psi}) μ(Ψ)是稀疏基 Ψ \boldsymbol{\Psi} Ψ的最大相干性。
对于标准基 { e j } \{\mathbf{e}_j\} {ej}和傅里叶基 { f k } \{\mathbf{f}_k\} {fk}:
μ = max j , k ∣ ⟨ e j , f k ⟩ ∣ = 1 N \mu = \max_{j,k} |\langle \mathbf{e}_j, \mathbf{f}_k \rangle| = \frac{1}{\sqrt{N}} μ=j,kmax∣⟨ej,fk⟩∣=N1
定理17(时域-频域相干性):时域标准基与频域傅里叶基的相干性为:
μ ( I , F ) = 1 N \mu(\mathbf{I}, \mathbf{F}) = \frac{1}{\sqrt{N}} μ(I,F)=N1
这是所有正交基对的最小可能相干性。
对于Daubechies小波基 Ψ d b \boldsymbol{\Psi}_{db} Ψdb:
μ ( F , Ψ d b ) ≤ C log N \mu(\mathbf{F}, \boldsymbol{\Psi}_{db}) \leq C\sqrt{\log N} μ(F,Ψdb)≤ClogN
证明思路:
利用二次相位函数构造确定性矩阵:
Φ i , j = 1 M e 2 π i a i j 2 / p \Phi_{i,j} = \frac{1}{\sqrt{M}}e^{2\pi i a_i j^2/p} Φi,j=M1e2πiaij2/p
其中 p p p是素数, { a i } \{a_i\} {ai}是模 p p p的二次非剩余。
定理18(Chirp序列的相干性):上述构造的测量矩阵满足:
μ ( Φ ) ≤ 2 log p M \mu(\boldsymbol{\Phi}) \leq \sqrt{\frac{2\log p}{M}} μ(Φ)≤M2logp
基于有限域 F q \mathbb{F}_q Fq上的代数结构:
构造1(Reed-Solomon型):
Φ i , j = ω Tr ( α i β j d ) \Phi_{i,j} = \omega^{\text{Tr}(\alpha_i \beta_j^d)} Φi,j=ωTr(αiβjd)
其中 ω = e 2 π i / p \omega = e^{2\pi i/p} ω=e2πi/p, Tr : F q m → F q \text{Tr}: \mathbb{F}_{q^m} \to \mathbb{F}_q Tr:Fqm→Fq是迹函数。
定理19(代数构造的RIP界):适当选择参数时,上述构造满足:
δ k ≤ C k log q M \delta_k \leq C\sqrt{\frac{k\log q}{M}} δk≤CMklogq
利用BCH码的生成矩阵构造测量矩阵:
设 g ( x ) = ∏ i = 1 2 t ( x − α i ) g(x) = \prod_{i=1}^{2t}(x - \alpha^i) g(x)=∏i=12t(x−αi)为BCH码的生成多项式,其中 α \alpha α是 F 2 m \mathbb{F}_{2^m} F2m的本原元。
构造2(BCH测量矩阵):
Φ i , j = ( − 1 ) ⟨ c i , x j ⟩ \Phi_{i,j} = (-1)^{\langle \mathbf{c}_i, \mathbf{x}_j \rangle} Φi,j=(−1)⟨ci,xj⟩
其中 c i \mathbf{c}_i ci是BCH码字, x j \mathbf{x}_j xj是信号向量。
定义Gram矩阵 G = Φ T Φ ∈ R N × N \mathbf{G} = \boldsymbol{\Phi}^T\boldsymbol{\Phi} \in \mathbb{R}^{N \times N} G=ΦTΦ∈RN×N,其 ( i , j ) (i,j) (i,j)元素为:
G i j = ⟨ ϕ i , ϕ j ⟩ G_{ij} = \langle \boldsymbol{\phi}_i, \boldsymbol{\phi}_j \rangle Gij=⟨ϕi,ϕj⟩
定理20(Gram矩阵特征值界):
δ k = max { max S ⊆ [ N ] ∣ S ∣ ≤ k λ max ( G S ) − 1 , 1 − min S ⊆ [ N ] ∣ S ∣ ≤ k λ min ( G S ) } \delta_k = \max\left\{\max_{\substack{S \subseteq [N] \\ |S| \leq k}} \lambda_{\max}(\mathbf{G}_S) - 1, 1 - \min_{\substack{S \subseteq [N] \\ |S| \leq k}} \lambda_{\min}(\mathbf{G}_S)\right\} δk=max⎩ ⎨ ⎧S⊆[N]∣S∣≤kmaxλmax(GS)−1,1−S⊆[N]∣S∣≤kminλmin(GS)⎭ ⎬ ⎫
其中 G S \mathbf{G}_S GS是 G \mathbf{G} G对应索引集 S S S的主子矩阵。
Marchenko-Pastur定律的应用:对于 M × N M \times N M×N随机矩阵 Φ \boldsymbol{\Phi} Φ,当 M , N → ∞ M, N \to \infty M,N→∞且 M / N → γ ∈ ( 0 , 1 ) M/N \to \gamma \in (0,1) M/N→γ∈(0,1)时,Gram矩阵 G = Φ T Φ \mathbf{G} = \boldsymbol{\Phi}^T\boldsymbol{\Phi} G=ΦTΦ的经验谱分布趋向于Marchenko-Pastur分布:
μ M P ( d x ) = 1 2 π x ( b − x ) ( x − a ) 1 [ a , b ] ( x ) d x + ( 1 − γ − 1 ) + δ 0 ( d x ) \mu_{MP}(dx) = \frac{1}{2\pi x}\sqrt{(b-x)(x-a)} \mathbf{1}_{[a,b]}(x) dx + (1-\gamma^{-1})^+\delta_0(dx) μMP(dx)=2πx1(b−x)(x−a)1[a,b](x)dx+(1−γ−1)+δ0(dx)
其中 a = ( 1 − γ ) 2 a = (1-\sqrt{\gamma})^2 a=(1−γ)2, b = ( 1 + γ ) 2 b = (1+\sqrt{\gamma})^2 b=(1+γ)2。
定义平均相干性:
μ ˉ ( Φ , Ψ ) = 1 M N ∑ i = 1 M ∑ j = 1 N ∣ ⟨ ϕ i , ψ j ⟩ ∣ 2 = 1 M N ∥ Φ T Ψ ∥ F 2 \bar{\mu}(\boldsymbol{\Phi}, \boldsymbol{\Psi}) = \frac{1}{MN}\sum_{i=1}^M\sum_{j=1}^N |\langle \boldsymbol{\phi}_i, \boldsymbol{\psi}_j \rangle|^2 = \frac{1}{MN}\|\boldsymbol{\Phi}^T\boldsymbol{\Psi}\|_F^2 μˉ(Φ,Ψ)=MN1i=1∑Mj=1∑N∣⟨ϕi,ψj⟩∣2=MN1∥ΦTΨ∥F2
定理8(平均相干性与RIP的关系):若 μ ˉ ( Φ , Ψ ) ≤ 1 k \bar{\mu}(\boldsymbol{\Phi}, \boldsymbol{\Psi}) \leq \frac{1}{k} μˉ(Φ,Ψ)≤k1,则:
δ k ≤ ( k − 1 ) μ ˉ ( Φ , Ψ ) \delta_k \leq (k-1)\bar{\mu}(\boldsymbol{\Phi}, \boldsymbol{\Psi}) δk≤(k−1)μˉ(Φ,Ψ)
详细证明:
设 x \mathbf{x} x为k-稀疏信号,支撑集为 T T T。则:
∥ Φ x ∥ 2 2 = x T Φ T Φ x = ∑ i , j ∈ T x i x j G i j \|\boldsymbol{\Phi}\mathbf{x}\|_2^2 = \mathbf{x}^T\boldsymbol{\Phi}^T\boldsymbol{\Phi}\mathbf{x} = \sum_{i,j \in T} x_ix_j G_{ij} ∥Φx∥22=xTΦTΦx=i,j∈T∑xixjGij
其中 G i j = ⟨ ϕ i , ϕ j ⟩ G_{ij} = \langle \boldsymbol{\phi}_i, \boldsymbol{\phi}_j \rangle Gij=⟨ϕi,ϕj⟩。
分解为对角项和非对角项:
∥ Φ x ∥ 2 2 = ∑ i ∈ T x i 2 + ∑ i , j ∈ T i ≠ j x i x j G i j \|\boldsymbol{\Phi}\mathbf{x}\|_2^2 = \sum_{i \in T} x_i^2 + \sum_{\substack{i,j \in T \\ i \neq j}} x_ix_j G_{ij} ∥Φx∥22=i∈T∑xi2+i,j∈Ti=j∑xixjGij
应用Cauchy-Schwarz不等式控制非对角项,得到所需结果。□
定义(累积相干性):对于索引集 T ⊆ [ N ] T \subseteq [N] T⊆[N]:
μ 1 ( T ) = max j ∉ T ∑ i ∈ T ∣ ⟨ ϕ i , ϕ j ⟩ ∣ \mu_1(T) = \max_{j \notin T} \sum_{i \in T} |\langle \boldsymbol{\phi}_i, \boldsymbol{\phi}_j \rangle| μ1(T)=j∈/Tmaxi∈T∑∣⟨ϕi,ϕj⟩∣
定理9(精确恢复条件,ERC):若对所有 ∣ T ∣ ≤ k |T| \leq k ∣T∣≤k的索引集 T T T都有 μ 1 ( T ) < 1 \mu_1(T) < 1 μ1(T)<1,则所有k-稀疏信号可通过 ℓ 1 \ell_1 ℓ1最小化精确恢复。
证明框架:
对于块稀疏信号,定义块相干性:
μ B = max i ≠ j 1 ≤ i , j ≤ G ∥ Φ i T Φ j ∥ 2 \mu_B = \max_{\substack{i \neq j \\ 1 \leq i,j \leq G}} \|\boldsymbol{\Phi}_i^T\boldsymbol{\Phi}_j\|_2 μB=i=j1≤i,j≤Gmax∥ΦiTΦj∥2
其中 Φ i \boldsymbol{\Phi}_i Φi是第 i i i个块对应的子矩阵。
定理21(块稀疏恢复条件):若 μ B < 1 2 s − 1 \mu_B < \frac{1}{2s-1} μB<2s−11,其中 s s s是非零块的数量,则块稀疏信号可通过混合 ℓ 2 , 1 \ell_{2,1} ℓ2,1范数最小化恢复:
min x ∑ i = 1 G ∥ x i ∥ 2 s.t. y = Φ x \min_{\mathbf{x}} \sum_{i=1}^G \|\mathbf{x}_i\|_2 \quad \text{s.t.} \quad \mathbf{y} = \boldsymbol{\Phi}\mathbf{x} xmini=1∑G∥xi∥2s.t.y=Φx
测量矩阵的行向量构成Grassmannian流形 G ( M , N ) \mathcal{G}(M,N) G(M,N)上的点。优化问题为:
min Φ ∈ G ( M , N ) δ k ( Φ ) \min_{\boldsymbol{\Phi} \in \mathcal{G}(M,N)} \delta_k(\boldsymbol{\Phi}) Φ∈G(M,N)minδk(Φ)
在Grassmannian流形上定义黎曼度量:
⟨ Ξ , H ⟩ Φ = tr ( Ξ T H ) \langle \boldsymbol{\Xi}, \boldsymbol{\Eta} \rangle_{\boldsymbol{\Phi}} = \text{tr}(\boldsymbol{\Xi}^T\boldsymbol{\Eta}) ⟨Ξ,H⟩Φ=tr(ΞTH)
其中 Ξ , H \boldsymbol{\Xi}, \boldsymbol{\Eta} Ξ,H是切空间 T Φ G ( M , N ) T_{\boldsymbol{\Phi}}\mathcal{G}(M,N) TΦG(M,N)中的向量。
黎曼梯度:设 f ( Φ ) = δ k ( Φ ) f(\boldsymbol{\Phi}) = \delta_k(\boldsymbol{\Phi}) f(Φ)=δk(Φ),则黎曼梯度为:
grad f ( Φ ) = ∇ f ( Φ ) − Φ Φ T ∇ f ( Φ ) \text{grad} f(\boldsymbol{\Phi}) = \nabla f(\boldsymbol{\Phi}) - \boldsymbol{\Phi}\boldsymbol{\Phi}^T\nabla f(\boldsymbol{\Phi}) gradf(Φ)=∇f(Φ)−ΦΦT∇f(Φ)
将RIP约束松弛为半正定规划:
min G tr ( G ) s.t. G ⪰ 0 G i i = 1 , i = 1 , … , N ∣ G i j ∣ ≤ μ , i ≠ j rank ( G ) ≤ M \begin{align} \min_{\mathbf{G}} &\quad \text{tr}(\mathbf{G}) \\ \text{s.t.} &\quad \mathbf{G} \succeq 0 \\ &\quad \mathbf{G}_{ii} = 1, \quad i = 1,\ldots,N \\ &\quad |\mathbf{G}_{ij}| \leq \mu, \quad i \neq j \\ &\quad \text{rank}(\mathbf{G}) \leq M \end{align} Gmins.t.tr(G)G⪰0Gii=1,i=1,…,N∣Gij∣≤μ,i=jrank(G)≤M
定理22(SDP松弛界):设 G ∗ \mathbf{G}^* G∗为上述SDP的最优解,则:
δ k ≥ tr ( G ∗ ) − k k \delta_k \geq \frac{\text{tr}(\mathbf{G}^*) - k}{k} δk≥ktr(G∗)−k
算法5(测量矩阵优化):
收敛性分析:在适当的步长选择下,算法收敛到局部最优解。
考虑有界噪声模型: y = Φ x + n \mathbf{y} = \boldsymbol{\Phi}\mathbf{x} + \mathbf{n} y=Φx+n,其中 ∥ n ∥ 2 ≤ ϵ \|\mathbf{n}\|_2 \leq \epsilon ∥n∥2≤ϵ。
定理23(有界噪声下的稳定恢复):当 δ 2 k < 2 − 1 \delta_{2k} < \sqrt{2} - 1 δ2k<2−1时,基追踪去噪的解 x ^ \hat{\mathbf{x}} x^满足:
∥ x ^ − x ∥ 2 ≤ C 1 ϵ + C 2 σ k ( x ) k \|\hat{\mathbf{x}} - \mathbf{x}\|_2 \leq C_1\epsilon + C_2\frac{\sigma_k(\mathbf{x})}{\sqrt{k}} ∥x^−x∥2≤C1ϵ+C2kσk(x)
其中 σ k ( x ) = min z : ∥ z ∥ 0 ≤ k ∥ x − z ∥ 1 \sigma_k(\mathbf{x}) = \min_{\mathbf{z}: \|\mathbf{z}\|_0 \leq k} \|\mathbf{x} - \mathbf{z}\|_1 σk(x)=minz:∥z∥0≤k∥x−z∥1是最佳k项逼近误差。
考虑高斯噪声: n ∼ N ( 0 , σ 2 I ) \mathbf{n} \sim \mathcal{N}(\mathbf{0}, \sigma^2\mathbf{I}) n∼N(0,σ2I)。
定理24(高斯噪声下的性能界):以高概率 1 − δ 1 - \delta 1−δ,有:
∥ x ^ − x ∥ 2 ≤ C σ k log ( N / k ) M \|\hat{\mathbf{x}} - \mathbf{x}\|_2 \leq C\sigma\sqrt{\frac{k\log(N/k)}{M}} ∥x^−x∥2≤CσMklog(N/k)
考虑稀疏脉冲噪声: y = Φ x + s \mathbf{y} = \boldsymbol{\Phi}\mathbf{x} + \mathbf{s} y=Φx+s,其中 s \mathbf{s} s是稀疏向量。
联合稀疏恢复问题:
min x , s ∥ x ∥ 1 + λ ∥ s ∥ 1 s.t. y = Φ x + s \min_{\mathbf{x}, \mathbf{s}} \|\mathbf{x}\|_1 + \lambda\|\mathbf{s}\|_1 \quad \text{s.t.} \quad \mathbf{y} = \boldsymbol{\Phi}\mathbf{x} + \mathbf{s} x,smin∥x∥1+λ∥s∥1s.t.y=Φx+s
定理25(脉冲噪声下的恢复条件):当 δ k + s < 1 3 \delta_{k+s} < \frac{1}{3} δk+s<31时,上述优化问题能同时恢复信号 x \mathbf{x} x和噪声 s \mathbf{s} s。
考虑矩阵观测模型: Y = A ( X ) + N \mathcal{Y} = \mathcal{A}(\mathbf{X}) + \mathcal{N} Y=A(X)+N,其中 A : R n 1 × n 2 → R m \mathcal{A}: \mathbb{R}^{n_1 \times n_2} \to \mathbb{R}^m A:Rn1×n2→Rm是线性观测算子。
核范数最小化:
min X ∥ X ∥ ∗ s.t. ∥ Y − A ( X ) ∥ F ≤ ϵ \min_{\mathbf{X}} \|\mathbf{X}\|_* \quad \text{s.t.} \quad \|\mathcal{Y} - \mathcal{A}(\mathbf{X})\|_F \leq \epsilon Xmin∥X∥∗s.t.∥Y−A(X)∥F≤ϵ
其中 ∥ X ∥ ∗ = ∑ i σ i ( X ) \|\mathbf{X}\|_* = \sum_i \sigma_i(\mathbf{X}) ∥X∥∗=∑iσi(X)是核范数。
定理26(矩阵RIP):当观测算子 A \mathcal{A} A满足矩阵限制等距性质:
( 1 − δ r ) ∥ X ∥ F 2 ≤ ∥ A ( X ) ∥ 2 2 ≤ ( 1 + δ r ) ∥ X ∥ F 2 (1-\delta_r)\|\mathbf{X}\|_F^2 \leq \|\mathcal{A}(\mathbf{X})\|_2^2 \leq (1+\delta_r)\|\mathbf{X}\|_F^2 (1−δr)∥X∥F2≤∥A(X)∥22≤(1+δr)∥X∥F2
对所有秩不超过 r r r的矩阵 X \mathbf{X} X成立,且 δ 5 r < 1 / 10 \delta_{5r} < 1/10 δ5r<1/10时,核范数最小化能精确恢复秩为 r r r的矩阵。
特殊情况: A ( X ) = P Ω ( X ) \mathcal{A}(\mathbf{X}) = \mathcal{P}_\Omega(\mathbf{X}) A(X)=PΩ(X),其中 P Ω \mathcal{P}_\Omega PΩ是到观测集 Ω \Omega Ω的投影算子。
定理27(矩阵补全的采样复杂度):对于 n × n n \times n n×n的秩 r r r矩阵,当观测数满足:
∣ Ω ∣ ≥ C r μ n log 2 n |\Omega| \geq Cr\mu n\log^2 n ∣Ω∣≥Crμnlog2n
时,其中 μ \mu μ是相干性参数,核范数最小化能以高概率精确恢复原矩阵。
三阶张量 X ∈ R n 1 × n 2 × n 3 \mathcal{X} \in \mathbb{R}^{n_1 \times n_2 \times n_3} X∈Rn1×n2×n3的模态展开:
定义张量核范数:
∥ X ∥ T N N = ∑ i = 1 3 α i ∥ X ( i ) ∥ ∗ \|\mathcal{X}\|_{TNN} = \sum_{i=1}^3 \alpha_i \|\mathbf{X}_{(i)}\|_* ∥X∥TNN=i=1∑3αi∥X(i)∥∗
其中 α i ≥ 0 \alpha_i \geq 0 αi≥0是权重参数。
张量恢复问题:
min X ∥ X ∥ T N N s.t. ∥ Y − A ( X ) ∥ F ≤ ϵ \min_{\mathcal{X}} \|\mathcal{X}\|_{TNN} \quad \text{s.t.} \quad \|\mathcal{Y} - \mathcal{A}(\mathcal{X})\|_F \leq \epsilon Xmin∥X∥TNNs.t.∥Y−A(X)∥F≤ϵ