作者:Zhengru Fang*, Zhenghao Liu‡, Jingjing Wang‡, Senkang Hu*, Yu Guo*, Yiqin Deng*, Yuguang Fang*
单位:
论文题目:Task-Oriented Communications for Visual Navigation with Edge-Aerial Collaboration in Low Altitude Economy
论文链接:https://arxiv.org/abs/2504.18317v3
代码链接:https://github.com/fangzr/TOC-Edge-Aerial
低空经济(Low Altitude Economy, LAE)时代,轻型无人机(UAV)被广泛应用于物流、巡检与应急响应等场景。然而,城市中 GPS 信号失效(如高楼遮挡、干扰)严重制约其定位性能。视觉导航成为主流替代方案,但受限于轻型无人机的算力和通信能力,目前大部分基于深度学习、大语言模型的视觉导航算法难以部署在资源严重受限的无人机平台。本研究借助边缘节点的计算卸载服务与面向任务的通信(Task-Oriented Communications, TOC)方法,提出一种基于空地协同的无人机视觉定位新框架,实现无GPS定位、极低通信开销的情况下的高效无人机视觉定位。
在动力约束和带宽受限的场景下,UAV 定位历来是一大挑战。早期方法主要依赖特征匹配与搜索算法:
SIFT/SURF + RANSAC 算法中,首先检测图像关键点(如 SIFT/SURF),接着在数据库中通过暴力匹配找出最近邻,最后用 RANSAC 去除外点并估计相机位姿。此方法对光照与视角变化敏感,而且匹配步骤计算量随数据库规模呈二次增长,在大城市级场景下难以实时执行。
随后出现的单视图深度网络(以 PoseNet 系列为代表)将输入 RGB 图像直接映射到位姿向量,实现端到端回归。尽管这种方式简化了管线,它对遮挡、动态物体及强透视效果不具鲁棒性,而且单视角信息往往不足以支撑高精度定位。
为了提升可靠性,研究者们引入多视角特征融合 + Transformer 架构:各路相机特征先分别提取,再通过自注意力或图神经网络整合全局上下文。这类方法在静态或半动态场景中显著提高了定位准确度,但其弱点在于所有视角特征都被全量回传,忽视了无线链路的容量上限——带宽瓶颈下,特征数据堆积会导致延迟暴涨或丢包增多。
更进一步的工作尝试使用学习型压缩——如基于 AutoEncoder/VAE 的潜变量编码,或在编码损失里加入 KL 散度约束,来压缩特征维度。但大多数此类方法缺乏对“传输比特数”或“延迟”这一实际通信成本的显式建模,难以保证在极端带宽受限环境下仍能达到目标任务精度。
本工作的创新在于将“任务性能”与“通信开销”耦合进同一可微优化目标,利用 ARD 瓶颈 自动剔除无效通道,并通过 正交正则 确保剩余维度互补,从根本上解决了“有用信息 vs. 有成本”两难问题,使 UAV 在严格的网络条件下依然保持高精度与低延迟。
目标是:在通信受限(带宽上限为 C max C_{\max} Cmax)条件下,最小化无人机定位误差:
min Θ E [ ∥ Y ^ t − Y t ∥ 2 ] , s.t. C ( Z t ) ≤ C max \min_{\Theta} \mathbb{E} \left[\| \hat{Y}_t - Y_t \|^2 \right], \quad \text{s.t.} \quad C(Z_t) \leq C_{\max} ΘminE[∥Y^t−Yt∥2],s.t.C(Zt)≤Cmax
其中:
多摄像头UAV + 无线通信 + 边缘服务器
核心思路:多视角图像提取 → 特征压缩 → 传输至边缘 → 推理定位
搭载 5 视角摄像头(前后左右下),通过 CLIP-ViT 编码器提取每帧 512 维嵌入,拼接形成全局视觉描述符。
经典信息瓶颈理论Information Bottleneck(IB) 要求在 压缩 X X X 的同时 保留 对任务标签 Y Y Y 预测的最大信息量,形式化为
min q ϕ ( z ∣ x ) I ( Z ; X ) − β I ( Z ; Y ) , (1) \min_{q_\phi(z|x)}\; I(Z;X)-\beta\,I(Z;Y), \tag{1} qϕ(z∣x)minI(Z;X)−βI(Z;Y),(1)
其中 I ( ⋅ ; ⋅ ) I(\cdot;\cdot) I(⋅;⋅) 为互信息, β \beta β 控制“保留 vs. 压缩”。 在本场景中,瓶颈变量 Z t Z_t Zt 直接通过无线链路发送,因此我们把 链路容量 纳入约束(或写成拉格朗日乘子)得到
min Θ E [ ∥ Y ^ t − Y t ∥ 2 ] + λ I ( Z t ; X t ) , s.t. C ( Z t ) ≤ C max , (2) \min_{\Theta}\; \mathbb{E}\!\bigl[\lVert\hat Y_t-Y_t\rVert^2\bigr] \;+\;\lambda\,I(Z_t;X_t), \quad\text{s.t.}\;C(Z_t)\le C_{\max}, \tag{2} ΘminE[∥Y^t−Yt∥2]+λI(Zt;Xt),s.t.C(Zt)≤Cmax,(2)
并用 K-L 上界 将 I ( Z ; X ) I(Z;X) I(Z;X) 近似为
I ( Z ; X ) ≤ E p ( x ) [ D K L ( q ϕ ( z ∣ x ) ∥ p ( z ) ) ] . (3) I(Z;X)\;\le\; \mathbb{E}_{p(x)} \bigl[ D_{\mathrm{KL}}\!\bigl(q_\phi(z|x)\,\|\,p(z)\bigr) \bigr]. \tag{3} I(Z;X)≤Ep(x)[DKL(qϕ(z∣x)∥p(z))].(3)
若把 p ( z ) = N ( 0 , I ) p(z)=\mathcal N(0,I) p(z)=N(0,I)、 q ϕ ( z ∣ x ) = N ( μ ϕ ( x ) , σ ϕ 2 ( x ) I ) q_\phi(z|x)=\mathcal N(\mu_\phi(x),\sigma_\phi^2(x)I) qϕ(z∣x)=N(μϕ(x),σϕ2(x)I),则 (3) 可写成元素级的“重参数化 + KL”项,方便反向传播。
核心思想:引入信息瓶颈(IB)理论,在保持定位信息的同时压缩无关冗余。
关键机制:
符号 | 含义 | 与传统 VIB 的差别 |
---|---|---|
O-VIB | Orthogonally-constrained VIB | 在常规 VIB 的 KL 瓶颈外,加入 正交正则 ∥ W W ⊤ − I ∥ F 2 \lVert WW^\top-I\rVert_F^2 ∥WW⊤−I∥F2,确保各潜维度互补、避免冗余;同时引入 ARD 取代固定先验。 |
W ∈ R d × m W\in\mathbb R^{d\times m} W∈Rd×m | 编码投影矩阵 | Vanilla VIB 只需输出 ( μ , σ ) (\mu,\sigma) (μ,σ);O-VIB 进一步要求 W W W 的行正交。 |
D ARD ( x ) D_{\text{ARD}}(x) DARD(x) | 自动相关性判别惩罚 | 用 可学习方差 σ k 2 ( x ) \sigma_k^2(x) σk2(x) 近似 KL,与正交项一同塑形潜空间。 |
在带宽受限 ( C max C_{\max} Cmax) 场景,可把 β \beta β 视作对链路费用的“物价系数”。
潜变量假设
z k = μ k + σ k ϵ , ϵ ∼ N ( 0 , 1 ) . z_k=\mu_k+\sigma_k\epsilon,\quad \epsilon\sim\mathcal N(0,1). zk=μk+σkϵ,ϵ∼N(0,1).
对数均匀先验
给每一维方差设置 p ( log σ k 2 ) = const p(\log\sigma_k^2)=\text{const} p(logσk2)=const,等价于
p ( z k ) = ∫ N ( 0 , σ k 2 ) p ( log σ k 2 ) d log σ k 2 ∝ 1 ∣ z k ∣ , p(z_k)=\int\! \mathcal N\!\bigl(0,\sigma_k^2\bigr)\;p(\log\sigma_k^2)\,d\log\sigma_k^2 \;\propto\;\frac{1}{|z_k|}, p(zk)=∫N(0,σk2)p(logσk2)dlogσk2∝∣zk∣1,
产生“重尾”分布:小权重易被压向零,大权重得到保留。
KL 项近似
D ARD ( x ) ≈ − 1 2 ∑ k = 1 d log σ k 2 + 1 2 ∑ k = 1 d μ k 2 σ k 2 + const , (4) D_{\text{ARD}}(x)\approx -\tfrac12\sum_{k=1}^{d}\log\sigma_k^2 +\tfrac12\sum_{k=1}^{d}\!\frac{\mu_k^2}{\sigma_k^2} +\text{const}, \tag{4} DARD(x)≈−21k=1∑dlogσk2+21k=1∑dσk2μk2+const,(4)
其中第一项鼓励 σ k 2 → ∞ \sigma_k^2\!\to\!\infty σk2→∞(弃用通道),第二项鼓励 μ k → 0 \mu_k\!\to\!0 μk→0。
训练后若 σ k 2 \sigma_k^2 σk2 较大且 μ k ≈ 0 \mu_k\!\approx\!0 μk≈0,该通道可 硬剪枝,实现自适应降维。
与 VIB 的区别
最终训练的损失函数设计如下
L = ∥ x − x ^ ∥ 2 ⏟ 重建 + α ∥ y − y ^ ∥ 2 ⏟ 定位 + β D ARD ( x ) ⏟ 可学习压缩 + γ ∥ W W ⊤ − I ∥ F 2 ⏟ 正交正则 (5) \boxed{ \mathcal L= \underbrace{\lVert x-\hat x\rVert^2}_{\text{重建}} +\alpha\,\underbrace{\lVert y-\hat y\rVert^2}_{\text{定位}} +\beta\,\underbrace{D_{\text{ARD}}(x)}_{\text{可学习压缩}} +\gamma\,\underbrace{\lVert WW^\top-I\rVert_F^2}_{\text{正交正则}} } \tag{5} L=重建 ∥x−x^∥2+α定位 ∥y−y^∥2+β可学习压缩 DARD(x)+γ正交正则 ∥WW⊤−I∥F2(5)
其中在带宽受限 ( C max C_{\max} Cmax) 场景,可把 β \beta β 视作对链路费用的“物价系数”。
五视角潜变量拼接为
Z t = [ z t ( 1 ) , … , z t ( V ) ] ∈ R V × d , V = 5. \mathbf Z_t=\bigl[\mathbf z_t^{(1)},\dots,\mathbf z_t^{(V)}\bigr]\in\mathbb R^{V\times d}, \quad V=5. Zt=[zt(1),…,zt(V)]∈RV×d,V=5.
对每个视角嵌入施加线性投影得到
Q t = Z t W Q , K t = Z t W K , V t = Z t W V , (6) \mathbf Q_t=\mathbf Z_tW_Q,\; \mathbf K_t=\mathbf Z_tW_K,\; \mathbf V_t=\mathbf Z_tW_V, \tag{6} Qt=ZtWQ,Kt=ZtWK,Vt=ZtWV,(6)
其中 W Q , W K , W V ∈ R d × d h W_Q,W_K,W_V\in\mathbb R^{d\times d_h} WQ,WK,WV∈Rd×dh。 Scaled Dot-Product Attention 计算权重
A t = softmax ( Q t K t ⊤ d h ) , (7) \mathbf A_t=\operatorname{softmax}\!\Bigl(\frac{\mathbf Q_t\mathbf K_t^{\!\top}}{\sqrt{d_h}}\Bigr), \tag{7} At=softmax(dhQtKt⊤),(7)
融合特征为
f t = Agg ( A t V t ) ∈ R d , (8) \mathbf f_t=\operatorname{Agg}\!\bigl(\mathbf A_t\mathbf V_t\bigr)\in\mathbb R^{d}, \tag{8} ft=Agg(AtVt)∈Rd,(8)
其中 Agg ( ⋅ ) \operatorname{Agg}(\cdot) Agg(⋅) 可取均值或首行读取;多头情形将各头结果级联再经 FC 层得到 f t \mathbf f_t ft。
y ^ t r e g = g Θ r e g ( f t ) , (9) \widehat{\mathbf y}_t^{\,reg}=g_{\Theta_{reg}}\bigl(\mathbf f_t\bigr), \tag{9} y treg=gΘreg(ft),(9)
g Θ r e g g_{\Theta_{reg}} gΘreg 为 3-layer MLP,输出三自由度 ( x , y , ψ ) (x,y,\psi) (x,y,ψ)。 同时回归分支预测对数方差 log σ r e g 2 \log\sigma_{reg}^2 logσreg2 作为置信度 κ r e g = 1 / σ r e g 2 \kappa_{reg}=1/\sigma_{reg}^2 κreg=1/σreg2。
数据库 D = { ( g i , y i ) } i = 1 M \mathcal D=\{(\mathbf g_i,\mathbf y_i)\}_{i=1}^M D={(gi,yi)}i=1M。 计算与融合特征的余弦相似度
s i = ⟨ f t , g i ⟩ ∥ f t ∥ ∥ g i ∥ , w i = e s i ∑ j ∈ N k e s j , i ∈ N k , (10) s_i=\frac{\langle \mathbf f_t,\mathbf g_i\rangle}{\|\mathbf f_t\|\,\|\mathbf g_i\|},\quad w_i=\frac{e^{s_i}}{\sum_{j\in\mathcal N_k}e^{s_j}},\;i\in\mathcal N_k, \tag{10} si=∥ft∥∥gi∥⟨ft,gi⟩,wi=∑j∈Nkesjesi,i∈Nk,(10)
其中 N k \mathcal N_k Nk 为相似度前 k k k 个条目。 检索位姿
y ^ t r e t = ∑ i ∈ N k w i y i , (11) \widehat{\mathbf y}_t^{\,ret}=\sum_{i\in\mathcal N_k}\!w_i\,\mathbf y_i, \tag{11} y tret=i∈Nk∑wiyi,(11)
并用相似度均值 s ˉ = 1 k ∑ i ∈ N k s i \bar s=\frac1k\sum_{i\in\mathcal N_k}s_i sˉ=k1∑i∈Nksi 给出置信度 κ r e t = s ˉ \kappa_{ret}=\bar s κret=sˉ.
η t = κ r e g κ r e g + κ r e t , y ^ t = η t y ^ t r e g + ( 1 − η t ) y ^ t r e t . (12) \eta_t=\frac{\kappa_{reg}}{\kappa_{reg}+\kappa_{ret}},\qquad \widehat{\mathbf y}_t=\eta_t\,\widehat{\mathbf y}_t^{\,reg}+\bigl(1-\eta_t\bigr)\,\widehat{\mathbf y}_t^{\,ret}. \tag{12} ηt=κreg+κretκreg,y t=ηty treg+(1−ηt)y tret.(12)
边缘端仅对回归输出反向传播
L l o c = ∥ y ^ t r e g − y t ∥ 2 , (13) \mathcal L_{loc}=\bigl\|\widehat{\mathbf y}_t^{\,reg}-\mathbf y_t\bigr\|^2, \tag{13} Lloc= y treg−yt 2,(13)
而检索路径参与 推断 不参与梯度;其相似度 s i s_i si 间接影响 η t \eta_t ηt,从而影响合成输出。
最终系统与 UAV-侧编码器共同最小化
L t o t a l = ∥ x − x ^ ∥ 2 + α L l o c + β D ARD ( x ) + γ ∥ W W ⊤ − I ∥ F 2 , (14) \mathcal L_{total}=\lVert x-\hat x\rVert^2+\alpha\mathcal L_{loc} +\beta\, D_{\text{ARD}}(x) +\gamma \,\lVert WW^\top-I\rVert^2_F, \tag{14} Ltotal=∥x−x^∥2+αLloc+βDARD(x)+γ∥WW⊤−I∥F2,(14)
利用任务为导向的通信方法实现“少发 ⊕ 准解”的通信–学习协同优化。
我们基于真实硬件搭建原型系统,以评估算法的编码解码复杂度与端到端时延:
无人机侧使用 Jetson Orin NX 8 GB 对五路相机流进行实时编码,并通过 IEEE 802.11 链路发送到附近的路侧单元(RSU)。前级 RSU(Raspberry Pi 5, 16 GB)负责初步转发,拥塞时通过千兆以太网将数据转发到云端边缘服务器;后级 RSU(Jetson Orin NX Super 16 GB)承担主干部位姿推理任务。该部署验证了 O-VIB 在实际带宽受限场景下(10 KB/s)依旧能够实现 <150 ms 的端到端延时与高精度定位。
绿点为真实位置(GT),红点为算法 Top-1 预测位置。
深度图示意,明暗表示近远距离。
Dataset_CARLA/Dataset_all/
├── town01_20241217_215934.tar
├── town02_20241218_153549.tar
├── town03_20241217_222228.tar
├── town04_20241217_225428.tar
├── town05_20241218_092919.tar
├── town06_20241217_233050.tar
├── town07_20241218_153942.tar
└── town10hd_20241218_151215.tar
town05_20241218_092919/
├── calibration/
│ └── camera_calibration.json # Contains parameters for all 5 UAV onboard cameras
├── depth/ # Depth images from all cameras
│ ├── Back/
│ │ ├── 000000.npy # Depth data in NumPy format
│ │ ├── 000000.png # Visualization of depth data
│ │ └── ...
│ ├── Down/
│ ├── Front/
│ ├── Left/
│ └── Right/
├── metadata/ # UAV position, rotation angles and timestamps
│ ├── 000000.json
│ ├── 000001.json
│ └── ...
├── rgb/ # RGB images from all cameras (PNG format only)
│ ├── Back/
│ ├── Down/
│ ├── Front/
│ ├── Left/
│ └── Right/
└── semantic/ # Semantic segmentation images (PNG format only)
├── Back/
├── Down/
├── Front/
├── Left/
└── Right/
数据集开源地址:https://huggingface.co/datasets/Peter341/Multi-View-UAV-Dataset
本文提出了一种面向任务的视觉通信框架,适用于低空无人机在城市环境中的导航定位。通过设计正交约束的O-VIB编码器和边缘协同推理机制,实现在极低带宽下的高精度导航,并在无人机和边缘计算节点的实物平台验证了算法在降低传输时延和定位精度提升方面的有效性。