Joint Geometrical and Statistical Alignment for Visual Domain Adaptation

视觉领域自适应的联合几何与统计对齐

景张,李婉清,菲利普·奥贡博纳
澳大利亚卧龙岗大学高级多媒体研究实验室
[email protected][email protected][email protected]

摘要

本文提出了一种新的用于跨域视觉识别的无监督域自适应方法。我们提出了一个统一的框架,从统计和几何两个方面减少域间的差异,称为联合几何与统计对齐(JGSA)。具体来说,我们学习两个耦合投影,将源域和目标域的数据投影到低维子空间中,同时减少几何差异和分布差异。目标函数可以通过闭式形式高效求解。大量实验证明,在合成数据集和三个不同的现实世界跨域视觉识别任务中,该方法显著优于几种最先进的域自适应方法。

1. 引言

统计学习理论的一个基本假设是训练数据和测试数据来自相同的分布。不幸的是,这个假设在许多应用中并不成立。例如,在视觉识别中,由于环境、传感器类型、分辨率和视角的不同,训练数据和测试数据的分布可能会有所差异。在基于视频的视觉识别中,除了基于图像的视觉识别中的因素外,还涉及更多因素。例如,在动作识别中,主体、执行风格和执行速度进一步增加了域间差异。标注数据既费力又昂贵,因此在新的域中重新标注大量数据是不切实际的。因此,一种可行的策略——域自适应,可以利用以前标注的源域数据来促进新目标域中的任务。根据目标域标注数据的可用性,域自适应通常可分为半监督域自适应和无监督域自适应。半监督方法需要目标域中有一定数量的标注训练样本,而无监督方法则不需要任何标注数据。然而,在半监督和无监督域自适应中,都需要足够的无标注目标域数据。本文主要关注无监督域自适应,这被认为更具实用性和挑战性。

最常用的域自适应方法包括基于实例的自适应、基于特征表示的自适应和基于分类器的自适应。在无监督域自适应中,由于目标域中没有标注数据,基于分类器的自适应并不可行。或者,我们可以通过最小化域间的分布差异以及源域的经验误差来解决这个问题。一般认为,分布差异可以通过基于实例的自适应方法来补偿,例如对源域中的样本重新加权,使其更好地匹配目标域的分布;也可以通过基于特征变换的方法,将两个域的特征投影到另一个分布差异较小的子空间中。基于实例的方法需要严格的假设:1)源域和目标域的条件分布相同;2)源域中的部分数据可以通过重新加权用于目标域的学习。而基于特征变换的方法放宽了这些假设,只假设存在一个公共空间,两个域在该空间中的分布相似。本文采用基于特征变换的方法。

文献中确定了两类主要的特征变换方法,即数据中心方法和子空间中心方法。数据中心方法寻求一种统一的变换,将两个域的数据投影到一个域不变空间中,以减少域间的分布差异,同时保留原始空间中的数据属性。数据中心方法只利用两个域中的共享特征,当两个不同域之间存在较大差异时,这种方法会失败,因为可能不存在这样一个公共空间,使得两个域的分布相同,同时数据属性也能最大程度地保留。对于子空间中心方法,通过操纵两个域的子空间来减少域间差异,使得每个单独域的子空间都对最终映射有所贡献。因此,利用了域特定的特征。然而,子空间中心方法只对两个域的子空间进行操作,没有明确考虑两个域投影数据之间的分布差异。第4.1节将在合成数据集上说明数据中心方法和子空间中心方法的局限性。

在本文中,我们提出了一个统一的框架,通过利用共享特征和域特定特征,同时减少域间的分布差异和几何差异。具体来说,我们学习两个耦合投影,将源数据和目标数据映射到各自的子空间中。投影后,1)最大化目标域数据的方差,以保留目标域数据的属性;2)保留源数据的判别信息,以有效地传递类别信息;3)最小化源域和目标域之间的边际分布和条件分布差异,从统计上减少域间差异;4)限制两个投影的差异较小,从几何上减少域间差异。

因此,与基于数据中心的方法不同,我们不要求存在一个统一的变换来减少分布差异并保留数据属性。与基于子空间中心的方法不同,我们不仅减少了子空间几何形状的差异,还减少了两个域的分布差异。此外,我们的方法可以很容易地扩展到核化版本,以处理域间差异为非线性的情况。目标函数可以通过闭式形式高效求解。我们通过在合成数据集和三个不同的现实世界跨域视觉识别任务(物体识别(Office、Caltech-256)、手写数字识别(USPS、MNIST)和基于RGB-D的动作识别(MSRAction3DExt、G3D、UTD-MHAD和MAD))上进行全面实验,验证了所提方法的有效性。

2. 相关工作
2.1 数据中心方法

Pan等人提出了转移成分分析(TCA),利用最大平均差异(MMD)在再生核希尔伯特空间(RKHS)中学习跨域的转移成分。TCA是一种典型的数据中心方法,它找到一个统一的变换,将两个域的数据投影到一个新的空间中,以减少差异。在TCA中,作者旨在最小化源数据和目标数据在k维嵌入中的样本均值之间的距离,同时保留原始空间中的数据属性。联合分布分析(JDA)通过使用目标域的伪标签,不仅考虑了边际分布差异,还考虑了条件分布差异,改进了TCA。转移联合匹配(TJM)通过联合重新加权实例和寻找公共子空间,改进了TCA。散度成分分析(SCA)考虑了源域的类间和类内散度。然而,这些方法都需要一个强假设,即存在一个统一的变换,将源域和目标域映射到一个分布差异较小的共享子空间中。

2.2 子空间中心方法

如前所述,子空间中心方法可以解决数据中心方法只利用两个域的公共特征的问题。Fernando等人提出了一种子空间中心方法,即子空间对齐(SA)。SA的关键思想是使用变换矩阵M将源域的基向量与目标域的基向量对齐。A和B分别通过对源域和目标域进行主成分分析(PCA)得到。因此,他们不假设存在一个统一的变换来减少域间差异。然而,由于域间差异,使用线性映射将源子空间映射后,投影后的源域数据的方差将与目标域的方差不同。在这种情况下,SA在对齐子空间后无法最小化域间分布差异。此外,SA无法处理两个子空间之间的差异为非线性的情况。子空间分布对齐(SDA)通过考虑正交主成分的方差改进了SA。然而,方差是基于对齐后的子空间考虑的。因此,只改变了每个特征方向的大小,当域间差异较大时,这种方法仍然可能失败。图2中合成数据的示例和真实世界数据集上的实验结果验证了这一点。

3. 联合几何与统计对齐

本节详细介绍联合几何与统计对齐(JGSA)方法。

3.1 问题定义

我们首先定义术语。源域数据表示为 X s ∈ R D × n s X_{s} \in \mathbb{R}^{D ×n_{s}} XsRD×ns,从分布 P s ( X s ) P_{s}(X_{s}) Ps(Xs)中抽取;目标域数据表示为 X t ∈ R D × n t X_{t} \in \mathbb{R}^{D ×n_{t}} XtRD×nt,从分布 P t ( X t ) P_{t}(X_{t}) Pt(Xt)中抽取,其中D是数据实例的维度, n s n_{s} ns n t n_{t} nt分别是源域和目标域中的样本数量。我们关注无监督域自适应问题。在无监督域自适应中,训练阶段有足够的标注源域数据 D s = ( x i , y i ) i = 1 n s D_{s}={(x_{i}, y_{i})}_{i=1}^{n_{s}} Ds=(xi,yi)i=1ns x i ∈ R D x_{i} \in \mathbb{R}^{D} xiRD,以及无标注的目标域数据 D t = ( x j ) j = 1 n t D_{t}={(x_{j})}_{j=1}^{n_{t}} Dt=(xj)j=1nt x j ∈ R D x_{j} \in \mathbb{R}^{D} xjRD。我们假设域间的特征空间和标签空间相同: X s = X t X_{s}=X_{t} Xs=Xt y s = Y t y_{s}=Y_{t} ys=Yt。由于数据集的差异, P s ( X s ) ≠ P t ( X t ) P_{s}(X_{s}) ≠P_{t}(X_{t}) Ps(Xs)=Pt(Xt)。与以前的域自适应方法不同,我们不假设存在一个统一的变换 ϕ ( ⋅ ) \phi(\cdot) ϕ(),使得 P s ( ϕ ( X s ) ) = P t ( ϕ ( X t ) ) P_{s}(\phi(X_{s}))=P_{t}(\phi(X_{t})) Ps(ϕ(Xs))=Pt(ϕ(Xt)) P s ( Y s ∣ ϕ ( X s ) ) = P t ( Y t ∣ ϕ ( X s ) ) P_{s}(Y_{s} | \phi(X_{s}))=P_{t}(Y_{t} | \phi(X_{s})) Ps(Ysϕ(Xs))=Pt(Ytϕ(Xs)),因为当数据集差异较大时,这个假设不再成立。

3.2 公式化

为了解决数据中心方法和子空间中心方法的局限性,所提出的框架(JGSA)通过利用两个域的共享特征和域特定特征,从统计和几何两个方面减少域间差异。JGSA通过找到两个耦合投影(源域的A和目标域的B)来获得各自域的新表示,使得:1)最大化目标域的方差;2)保留源域的判别信息;3)源域和目标域分布的差异较小;4)源域和目标域子空间的差异较小。

3.2.1 目标方差最大化

为了避免将特征投影到无关的维度,我们鼓励在各自的子空间中最大化目标域的方差。因此,方差最大化可以通过以下方式实现:
max ⁡ B T r ( B T S t B ) \max_{B} Tr\left(B^{T} S_{t} B\right) BmaxTr(BTStB)
其中
S t = X t H t X t T S_{t}=X_{t} H_{t} X_{t}^{T} St=XtHtXtT
是目标域的散度矩阵, H t = I t − 1 n t 1 t 1 t T H_{t}=I_{t}-\frac{1}{n_{t}} 1_{t} 1_{t}^{T} Ht=Itnt11t1tT是中心化矩阵, 1 t ∈ R n t 1_{t} \in \mathbb{R}^{n_{t}} 1tRnt是全1列向量。

3.2.2 源判别信息保留

由于源域中的标签是可用的,我们可以利用标签信息来约束源域数据的新表示具有判别性。
max ⁡ A T r ( A T S b A ) \max_{A} Tr\left(A^{T} S_{b} A\right) AmaxTr(ATSbA)
min ⁡ A T r ( A T S w A ) \min_{A} Tr\left(A^{T} S_{w} A\right) AminTr(ATSwA)
其中 S w S_{w} Sw是类内散度矩阵, S b S_{b} Sb是源域数据的类间散度矩阵,定义如下:
S w = ∑ c = 1 C X s ( c ) H s ( c ) ( X s ( c ) ) T S_{w}=\sum_{c=1}^{C} X_{s}^{(c)} H_{s}^{(c)}\left(X_{s}^{(c)}\right)^{T} Sw=c=1CXs(c)Hs(c)(Xs(c))T
S b = ∑ c = 1 C n s ( c ) ( m s ( c ) − m ‾ s ) ( m s ( c ) − m ‾ s ) T S_{b}=\sum_{c=1}^{C} n_{s}^{(c)}\left(m_{s}^{(c)}-\overline{m}_{s}\right)\left(m_{s}^{(c)}-\overline{m}_{s}\right)^{T} Sb=c=1Cns(c)(ms(c)ms)(ms(c)ms)T
其中 X s ( c ) ∈ R D × n s ( c ) X_{s}^{(c)} \in \mathbb{R}^{D ×n_{s}^{(c)}} Xs(c)RD×ns(c)是属于类c的源样本集, m s ( c ) = 1 n s ( c ) ∑ i = 1 n s ( c ) x i ( c ) m_{s}^{(c)}=\frac{1}{n_{s}^{(c)}} \sum_{i=1}^{n_{s}^{(c)}} x_{i}^{(c)} ms(c)=ns(c)1i=1ns(c)xi(c) m ˉ s = 1 n s ∑ i = 1 n s x i \bar{m}_{s}=\frac{1}{n_{s}} \sum_{i=1}^{n_{s}} x_{i} mˉs=ns1i=1nsxi H s ( c ) = I s ( c ) − 1 n s ( c ) 1 s ( c ) ( 1 s ( c ) ) T H_{s}^{(c)}=I_{s}^{(c)}-\frac{1}{n_{s}^{(c)}} 1_{s}^{(c)}(1_{s}^{(c)})^{T} Hs(c)=Is(c)ns(c)11s(c)(1s(c))T是类c内数据的中心化矩阵, I s ( c ) ∈ R n s ( c ) × n s ( c ) I_{s}^{(c)} \in \mathbb{R}^{n_{s}^{(c)} ×n_{s}^{(c)}} Is(c)Rns(c)×ns(c)是单位矩阵, 1 s ∈ R n s ( c ) 1_{s} \in \mathbb{R}^{n_{s}^{(c)}} 1sRns(c)是全1列向量, n s ( c ) n_{s}^{(c)} ns(c)是类c中的源样本数量。

3.2.3 分布差异最小化

我们采用MMD准则来比较域间的分布,它计算源数据和目标数据在k维嵌入中的样本均值之间的距离:
min ⁡ A , B ∥ 1 n s ∑ x i ∈ X s A T x i − 1 n t ∑ x j ∈ X t B T x j ∥ F 2 \min_{A, B}\left\| \frac{1}{n_{s}} \sum_{x_{i} \in X_{s}} A^{T} x_{i}-\frac{1}{n_{t}} \sum_{x_{j} \in X_{t}} B^{T} x_{j}\right\| _{F}^{2} A,Bmin ns1xiXsATxint1xjXtBTxj F2
Long等人提出利用源域分类器预测的目标域伪标签来表示目标域中的类条件数据分布。然后迭代优化目标域的伪标签,以进一步减少两个域之间的条件分布差异。我们遵循他们的思路,最小化域间的条件分布差异:
min ⁡ A , B ∑ c = 1 C ∥ 1 n s ( c ) ∑ x i ∈ X s ( c ) A T x i − 1 n t ( c ) ∑ x j ∈ X t ( c ) B T x j ∥ F 2 \min_{A, B} \sum_{c=1}^{C}\left\| \frac{1}{n_{s}^{(c)}} \sum_{x_{i} \in X_{s}^{(c)}} A^{T} x_{i}-\frac{1}{n_{t}^{(c)}} \sum_{x_{j} \in X_{t}^{(c)}} B^{T} x_{j}\right\| _{F}^{2} A,Bminc=1C ns(c)1xiXs(c)ATxint(c)1xjXt(c)BTxj F2
因此,通过结合边际分布和条件分布差异最小化项,最终的分布差异最小化项可以重写为:
min ⁡ A , B T r ( [ A T B T ] [ M s M s t M t s M t ] [ A B ] ) \min_{A, B} Tr\left(\left[\begin{array}{ll}A^{T} & B^{T}\end{array}\right]\left[\begin{array}{cc}M_{s} & M_{s t} \\ M_{t s} & M_{t}\end{array}\right]\left[\begin{array}{l}A \\ B\end{array}\right]\right) A,BminTr([ATBT][MsMtsMstMt][AB])
其中
M s = X s ( L s + ∑ c = 1 C L s ( c ) ) X s T , L s = 1 n s 2 1 s 1 s T , ( L s ( c ) ) i j = { 1 ( n s ( c ) ) 2 x i , x j ∈ X s ( c ) 0 otherwise \begin{gathered} M_{s}=X_{s}\left(L_{s}+\sum_{c=1}^{C} L_{s}^{(c)}\right) X_{s}^{T}, L_{s}=\frac{1}{n_{s}^{2}} 1_{s} 1_{s}^{T}, \\ \left(L_{s}^{(c)}\right)_{i j}= \begin{cases} \frac{1}{\left(n_{s}^{(c)}\right)^{2}} & x_{i}, x_{j} \in X_{s}^{(c)} \\ 0 & \text{otherwise} \end{cases} \end{gathered} Ms=Xs(Ls+c=1CLs(c))XsT,Ls=ns211s1sT,(Ls(c))ij= (ns(c))210xi,xjXs(c)otherwise
M t = X t ( L t + ∑ c = 1 C L t ( c ) ) X t T , L t = 1 n t 2 1 t 1 t T , ( L t ( c ) ) i j = { 1 ( n t ( c ) ) 2 x i , x j ∈ X t ( c ) 0 otherwise \begin{gathered} M_{t}=X_{t}\left(L_{t}+\sum_{c=1}^{C} L_{t}^{(c)}\right) X_{t}^{T}, L_{t}=\frac{1}{n_{t}^{2}} 1_{t} 1_{t}^{T}, \\ \left(L_{t}^{(c)}\right)_{i j}=\left\{\begin{array}{ll} \frac{1}{\left(n_{t}^{(c)}\right)^{2}} & x_{i}, x_{j} \in X_{t}^{(c)} \\ 0 & \text{otherwise} \end{array} \quad\right. \end{gathered} Mt=Xt(Lt+c=1CLt(c))XtT,Lt=nt211t1tT,(Lt(c))ij= (nt(c))210xi,xjXt(c)otherwise
M s t = X s ( L s t + ∑ c = 1 C L s t ( c ) ) X t T , L s t = − 1 n s n t 1 s 1 t T , ( L s t ( c ) ) i j = { − 1 n s ( c ) n t ( c ) x i ∈ X s ( c ) , x j ∈ X t ( c ) 0 otherwise \begin{gathered} M_{s t}=X_{s}\left(L_{s t}+\sum_{c=1}^{C} L_{s t}^{(c)}\right) X_{t}^{T}, L_{s t}=-\frac{1}{n_{s} n_{t}} 1_{s} 1_{t}^{T}, \\ \left(L_{s t}^{(c)}\right)_{i j}= \begin{cases} -\frac{1}{n_{s}^{(c)} n_{t}^{(c)}} & x_{i} \in X_{s}^{(c)}, x_{j} \in X_{t}^{(c)} \\ 0 & \text{otherwise} \end{cases} \end{gathered} Mst=Xs(Lst+c=1CLst(c))XtT,Lst=nsnt11s1tT,(Lst(c))ij={ns(c)nt(c)10xiXs(c),xjXt(c)otherwise
M t s = X t ( L t s + ∑ c = 1 C L t s ( c ) ) X s T , L t s = − 1 n s n t 1 s T , ( L t s ( c ) ) i j = { − 1 n s ( c ) n t ( c ) x j ∈ X s ( c ) , x i ∈ X t ( c ) 0 otherwise \begin{gathered} M_{t s}=X_{t}\left(L_{t s}+\sum_{c=1}^{C} L_{t s}^{(c)}\right) X_{s}^{T}, L_{t s}=-\frac{1}{n_{s} n_{t}} 1_{s}^{T}, \\ \left(L_{t s}^{(c)}\right)_{i j}= \begin{cases} -\frac{1}{n_{s}^{(c)} n_{t}^{(c)}} & x_{j} \in X_{s}^{(c)}, x_{i} \in X_{t}^{(c)} \\ 0 & \text{otherwise} \end{cases} \end{gathered} Mts=Xt(Lts+c=1CLts(c))XsT,Lts=nsnt11sT,(Lts(c))ij={ns(c)nt(c)10xjXs(c),xiXt(c)otherwise
注意,这与TCA和JDA不同,因为我们不使用统一的子空间,因为可能不存在这样一个公共子空间,使得两个域的分布也相似。

3.2.4 子空间差异最小化

与SA类似,我们也通过拉近源域和目标域的子空间来减少域间差异。如前所述,在SA中需要一个额外的变换矩阵M将源子空间映射到目标子空间。然而,我们不学习一个额外的矩阵来映射两个子空间。相反,我们同时优化A和B,以便保留源类信息和目标方差,同时使两个子空间更接近。我们使用以下项来拉近两个子空间:
min ⁡ A , B ∥ A − B ∥ F 2 \min_{A, B}\| A - B\| _{F}^{2} A,BminABF2
通过将项(14)与(9)一起使用,我们利用了共享特征和域特定特征,使得两个域在几何和统计上都能很好地对齐。

3.2.5 总体目标函数

我们通过结合上述五个量((1)、(3)、(4)、(9)和(14))来制定JGSA方法,如下所示:
max ⁡ μ { Target Var. } + β { Between Class Var. } { Distribution shift } + λ { Subspace shift } + β { Within Class Var. } \max \frac{\mu\{ \text{Target Var.}\}+\beta\{ \text{Between Class Var.}\}}{\{ \text{Distribution shift}\}+\lambda\{ \text{Subspace shift}\}+\beta\{ \text{Within Class Var.}\}} max{Distribution shift}+λ{Subspace shift}+β{Within Class Var.}μ{Target Var.}+β{Between Class Var.}
其中 λ \lambda λ μ \mu μ β \beta β是权衡参数,用于平衡每个量的重要性,Var. 表示方差。

我们遵循[9]进一步施加约束 T r ( B T B ) Tr(B^{T}B) Tr(BTB)较小,以控制 B B B的尺度。具体来说,我们旨在通过求解以下优化函数来找到两个耦合投影 A A A B B B max ⁡ A , B T r ( [ A T B T ] [ β S b 0 0 μ S t ] [ A B ] ) T r ( [ A T B T ] [ M s + λ I + β S w M s t − λ I M t s − λ I M t + ( λ + μ ) I ] [ A B ] ) \max_{A,B} \frac{Tr\left(\left[\begin{array}{ll} A^{T} & B^{T}\end{array}\right]\left[\begin{array}{cc} \beta S_{b} & 0 \\ 0 & \mu S_{t} \end{array}\right]\left[\begin{array}{l} A \\ B \end{array}\right]\right)}{Tr\left(\left[\begin{array}{ll} A^{T} & B^{T}\end{array}\right]\left[\begin{array}{cc} M_{s}+\lambda I+\beta S_{w} & M_{s t}-\lambda I \\ M_{t s}-\lambda I & M_{t}+(\lambda+\mu) I \end{array}\right]\left[\begin{array}{l} A \\ B \end{array}\right]\right)} A,BmaxTr([ATBT][Ms+λI+βSwMtsλIMstλIMt+(λ+μ)I][AB])Tr([ATBT][βSb00μSt][AB])
其中 I ∈ R d × d I \in \mathbb{R}^{d×d} IRd×d是单位矩阵。

最小化(15)式的分母有助于减小源域中的边际和条件分布差异,以及类内方差。最大化(15)式的分子则有助于增大目标域方差和源域中的类间方差。与JDA类似,我们还使用学习到的变换迭代更新目标域数据的伪标签,以提高标注质量,直至收敛。

3.3 优化

为了优化(15)式,我们将([\begin{array}{ll}A^{T} & B{T}\end{array}])重写为(W{T}) 。然后,目标函数和相应的约束可以重写为:
max ⁡ W T r ( W T [ β S b 0 0 μ S t ] W ) T r ( W T [ M s + λ I + β S w M s t − λ I M t s − λ I M t + ( λ + μ ) I ] W ) \max_{W} \frac{Tr\left(W^{T}\left[\begin{array}{cc} \beta S_{b} & 0 \\ 0 & \mu S_{t} \end{array}\right]W\right)}{Tr\left(W^{T}\left[\begin{array}{cc} M_{s}+\lambda I+\beta S_{w} & M_{s t}-\lambda I \\ M_{t s}-\lambda I & M_{t}+(\lambda+\mu) I \end{array}\right]W\right)} WmaxTr(WT[Ms+λI+βSwMtsλIMstλIMt+(λ+μ)I]W)Tr(WT[βSb00μSt]W)
注意,目标函数对(W)的缩放是不变的。因此,我们将目标函数(16)重写为:
max ⁡ W T r ( W T [ β S b 0 0 μ S t ] W ) \max_{W} Tr\left(W^{T}\left[\begin{array}{cc}\beta S_{b} & 0 \\ 0 & \mu S_{t}\end{array}\right]W\right) WmaxTr(WT[βSb00μSt]W)
s . t . T r ( W T [ M s + λ I + β S w M s t − λ I M t s − λ I M t + ( λ + μ ) I ] W ) = 1 s.t. Tr\left(W^{T}\left[\begin{array}{cc}M_{s}+\lambda I+\beta S_{w} & M_{s t}-\lambda I \\ M_{t s}-\lambda I & M_{t}+(\lambda+\mu) I\end{array}\right]W\right)=1 s.t.Tr(WT[Ms+λI+βSwMtsλIMstλIMt+(λ+μ)I]W)=1
(17)式的拉格朗日函数为:
L = T r ( W T [ β S b 0 0 μ S t ] W ) + T r ( ( W T [ M s + λ I + β S w M s t − λ I M t s − λ I M t + ( λ + μ ) I ] W − I ) Φ ) \begin{aligned} L &= Tr\left(W^{T}\left[\begin{array}{cc} \beta S_{b} & 0 \\ 0 & \mu S_{t} \end{array}\right]W\right) \\ & + Tr\left(\left(W^{T}\left[\begin{array}{cc} M_{s}+\lambda I+\beta S_{w} & M_{s t}-\lambda I \\ M_{t s}-\lambda I & M_{t}+(\lambda+\mu) I \end{array}\right]W - I\right)\Phi\right) \end{aligned} L=Tr(WT[βSb00μSt]W)+Tr((WT[Ms+λI+βSwMtsλIMstλIMt+(λ+μ)I]WI)Φ)
令(\frac{\partial L}{\partial W}=0) ,我们得到:
[ β S b 0 0 μ S t ] W = [ M s + λ I + β S w M s t − λ I M t s − λ I M t + ( λ + μ ) I ] W Φ \left[\begin{array}{cc} \beta S_{b} & 0 \\ 0 & \mu S_{t} \end{array}\right]W=\left[\begin{array}{cc} M_{s}+\lambda I+\beta S_{w} & M_{s t}-\lambda I \\ M_{t s}-\lambda I & M_{t}+(\lambda+\mu) I \end{array}\right]W\Phi [βSb00μSt]W=[Ms+λI+βSwMtsλIMstλIMt+(λ+μ)I]WΦ
其中(\Phi = diag(\lambda_{1}, …, \lambda_{k}))是(k)个最大特征值,(W = [W_{1}, …, W_{k}])包含相应的特征向量,可通过广义特征值分解解析求解。一旦得到变换矩阵(W),就可以很容易地得到子空间(A)和(B) 。JGSA的伪代码总结在算法1中。

3.4 核化分析

JGSA方法可以使用一些核函数(\phi)在再生核希尔伯特空间(RKHS)中扩展到非线性问题。我们使用表示定理(P=\Phi(X)A)和(Q=\Phi(X)B)对我们的方法进行核化,其中(X = [X_{s}, X_{t}])表示所有源域和目标域的训练样本,(\Phi(X)=[\phi(x_{1}), …, \phi(x_{n})]) ,(n)是所有样本的数量。因此,目标函数变为:
max ⁡ P , Q T r ( [ P T Q T ] [ β S b 0 0 μ S t ] [ P Q ] ) T r ( [ P T Q T ] [ M s + λ I + β S w M s t − λ I M t s − λ I M t + ( λ + μ ) I ] [ P Q ] ) \max_{P,Q} \frac{Tr\left(\left[P^{T} Q^{T}\right]\left[\begin{array}{cc} \beta S_{b} & 0 \\ 0 & \mu S_{t} \end{array}\right]\left[\begin{array}{l} P \\ Q \end{array}\right]\right)}{Tr\left(\left[P^{T} Q^{T}\right]\left[\begin{array}{cc} M_{s}+\lambda I+\beta S_{w} & M_{s t}-\lambda I \\ M_{t s}-\lambda I & M_{t}+(\lambda+\mu) I \end{array}\right]\left[\begin{array}{l} P \\ Q \end{array}\right]\right)} P,QmaxTr([PTQT][Ms+λI+βSwMtsλIMstλIMt+(λ+μ)I][PQ])Tr([PTQT][βSb00μSt][PQ])
在核化版本中,(S_{t})、(S_{w})、(S_{b})、(M_{s})、(M_{t})、(M_{s t})和(M_{t s})中所有的(X_{t})都被(\Phi(X_{t}))替换,所有的(X_{s})都被(\Phi(X_{s}))替换。

我们用(\Phi(X)A)和(\Phi(X)B)替换§和(Q),得到如下目标函数:
max ⁡ A , B T r ( [ A T B T ] [ β S b 0 0 μ S t ] [ A B ] ) T r ( [ A T B T ] [ M s + λ K + β S w M s t − λ K M t s − λ K M t + ( λ + μ ) K ] [ A B ] ) \max_{A,B} \frac{Tr\left(\left[\begin{array}{ll} A^{T} & B^{T}\end{array}\right]\left[\begin{array}{cc} \beta S_{b} & 0 \\ 0 & \mu S_{t} \end{array}\right]\left[\begin{array}{l} A \\ B \end{array}\right]\right)}{Tr\left(\left[A^{T} B^{T}\right]\left[\begin{array}{cc} M_{s}+\lambda K+\beta S_{w} & M_{s t}-\lambda K \\ M_{t s}-\lambda K & M_{t}+(\lambda+\mu) K \end{array}\right]\left[\begin{array}{l} A \\ B \end{array}\right]\right)} A,BmaxTr([ATBT][Ms+λK+βSwMtsλKMstλKMt+(λ+μ)K][AB])Tr([ATBT][βSb00μSt][AB])
其中$$(S_{t}=\tilde{K}{t} \tilde{K}{t}^{T}) ,(S_{w}=K_{s} H_{s}^{©} K_{s}^{T}) ,(K=\Phi(X)^{T} \Phi(X)) ,(K_{s}=\Phi(X)^{T} \Phi(X_{s})) ,(K_{t}=\Phi(X)^{T} \Phi(X_{t})) ,(\tilde{K}{t}=K{t}-1_{t} K - K_{t} 1_{n}+1_{t} K 1_{n} ,(1_{t} \in \mathbb{R}^{n_{t}×n})和(1_{n} \in \mathbb{R}{n×n})是所有元素都为(\frac{1}{n})的矩阵。在(S_{b})中,(m_{s}{©}=\frac{1}{n_{s}^{©}} \sum_{i=1}{n_{s}{©}} k_{i}^{©}) ,(\bar{m}{s}=\frac{1}{n{s}} \sum_{i=1}^{n_{s}} k_{i}) ,其中(k_{i}=\Phi(X)^{T} \phi(x_{i})) 。在MMD项中,(M_{s}=K_{s}(L_{s}+\sum_{c=1}^{C} L_{s}^{©}) K_{s}^{T}) ,(M_{t}=K_{t}(L_{t}+\sum_{c=1}^{C} L_{t}^{©}) K_{t}^{T}) ,(M_{s t}=K_{s}(L_{s t}+\sum_{c=1}^{C} L_{s t}^{©}) K_{t}^{T}) ,(M_{t s}=K_{t}(L_{t s}+\sum_{c=1}^{C} L_{t s}^{©}) K_{s}^{T}) 。一旦得到核化目标函数(21),我们可以用与原始目标函数相同的方式简单求解,以计算(A)和(B) 。

4. 实验

在本节中,我们首先在合成数据集上进行实验,以验证JGSA方法的有效性。然后,我们评估我们的方法在跨域物体识别、跨域数字识别和跨数据集基于RGB - D的动作识别中的性能。代码可在网上获取。我们将我们的方法与几种最先进的方法进行比较:子空间对齐(SA)、子空间分布对齐(SDA)、测地流核(GFK)、转移成分分析(TCA)、联合分布分析(JDA)、转移联合匹配(TJM)、散度成分分析(SCA)、最优传输(OTGL)和核流形对齐(KEMA)。对于所有基线方法,我们使用原始论文中推荐的参数。对于JGSA,在所有实验中我们固定(\lambda = 1) ,(\mu = 1) ,使得分布差异、子空间差异和目标方差被视为同等重要。我们通过实验验证,固定的参数在不同类型的任务上都能取得有前景的结果。因此,子空间维度(k)、迭代次数(T)和正则化参数(\beta)是自由参数。

4.1 合成数据

在这里,我们旨在合成数据样本,以证明我们的方法可以保持域结构并减少域差异。合成的源域和目标域样本均从三个径向基函数(RBF)分布的混合中抽取。每个RBF分布代表一个类别。域间的全局均值以及第三类的均值有所偏移。原始数据是3维的。我们为所有方法将子空间的维度设置为2。

图2展示了原始合成数据集以及不同方法在该数据集上的域自适应结果。可以看出,在使用SA方法对齐子空间后,域间的差异仍然很大。因此,如果不考虑分布差异,对齐后的子空间对于减少域差异并非最优。SDA方法相对于SA方法没有明显改进,因为它像SA一样,是在(可能并非最优的)对齐子空间的基础上减少方差差异。TCA方法有效地减少了域差异。然而,由于可能不存在一个统一的子空间来同时减少域差异和保留原始信息,有两个类别混淆了。即使通过JDA减少条件分布差异或通过TJM重新加权实例,类别1和类别2仍然无法区分。SCA使用统一映射考虑了总散度、域散度和类散度。然而,可能不存在这样一个满足所有约束的公共子空间。

显然,即使源域和目标域之间的差异很大,JGSA也能很好地对齐两个域。

4.2 真实世界数据集

我们在三个跨域视觉识别任务上评估我们的方法:物体识别(Office、Caltech256)、手写数字识别(USPS、MNIST)和基于RGB - D的动作识别(MSRAction3DExt、G3D、UTD - MHAD和MAD)。样本图像或视频帧如图1所示。

4.2.1 设置
  • 物体识别:我们采用Gong等人发布的公开Office + Caltech物体数据集。该数据集包含来自四个不同域的图像:Amazon(从在线商家下载的图像)、Webcam(网络摄像头拍摄的低分辨率图像)、DSLR(数码单反相机拍摄的高分辨率图像)和Caltech256。Amazon、Webcam和DSLR是文献[17]中研究域差异影响的三个数据集。Caltech - 256包含从谷歌图片下载的256个物体类别。我们选择四个数据集中共有的十个类别:背包、自行车、计算器、耳机、键盘、笔记本电脑、显示器、鼠标、杯子和投影仪。考虑两种类型的特征:SURF描述符(用从Amazon图像子集训练的码本编码为800维直方图)和(Decaf_{6})特征(在ImageNet上训练的卷积网络的第6个全连接层的激活值)。如[10]所建议的,选择1 - 最近邻分类器(NN)作为基础分类器。对于自由参数,我们设置(k = 30) ,(T = 10) ,(\beta = 0.1) 。
  • 数字识别:对于跨域手写数字识别任务,我们使用MNIST和USPS数据集来评估我们的方法。MNIST数据集包含一个60,000个示例的训练集和一个10,000个示例的测试集,图像大小为28×28。USPS数据集由7,291个训练图像和2,007个测试图像组成,图像大小为16×16。我们选择两个数据集中共有的十个类别。我们遵循[7, 8]的设置,通过在USPS中随机采样1,800张图像形成源数据,在MNIST中随机采样2,000张图像形成目标数据,构建一对跨域数据集USPS→MNIST。然后交换源域和目标域,形成另一个数据集MNIST→USPS。所有图像统一缩放为16×16大小,每个图像由一个编码灰度像素值的特征向量表示。对于自由参数,我们设置(k = 100) ,(T = 10) ,(\beta = 0.01) 。
  • 基于RGB - D的动作识别:对于跨数据集基于RGB - D的动作识别,我们选择了四个基于RGB - D的动作识别数据集,即MSRAction3DExt、UTD - MHAD、G3D和MAD。所有四个数据集都由RGB和深度传感器捕获。我们选择MSRAction3DExt与其他三个数据集之间的共享动作,形成6个数据集对。MSRAction3DExt和G3D之间有8个共同动作:挥手、前冲拳、拍手、前踢、慢跑、网球挥拍、网球发球和高尔夫挥杆。MSRAction3DExt和UTD - MHAD之间有10个共同动作:挥手、接球、右臂高抛、画X、画圈、双手前拍、慢跑、网球挥拍、网球发球和捡起并投掷。MSRAction3DExt和MAD之间有7个共享动作:挥手、前冲拳、投掷、前踢、侧踢、慢跑和网球正手挥拍。跨数据集动作识别任务使用局部HON4D特征。我们按照与[26]类似的过程,在15个骨架关节周围提取局部HON4D描述符。选择的关节包括头部、颈部、左膝、右膝、左肘、右肘、左手腕、右手腕、左肩、右肩、臀部、左臀部、右臀部、左脚踝和右脚踝。对于分辨率为320×240的深度图,我们使用24×24×4的补丁大小;对于分辨率为640×480的深度图,使用48×48×4的补丁大小,然后将补丁划分为3×3×1的网格。由于动作识别的大多数实际应用需要识别目标域中未见过的数据,我们进一步使用跨主体协议将目标域划分为训练集和测试集,当一个数据集作为目标域评估时,一半的主体用作训练,其余主体用作测试。注意,目标训练集也是未标注的。对于自由参数,我们设置(k = 100) ,(\beta = 0.01) 。为了避免过拟合到目标训练集,在动作识别任务中我们设置(T = 1) 。按照原始论文[26],使用LibLINEAR进行动作识别。
4.2.2 结果与讨论

在三种类型的真实世界跨域(物体、数字和动作)数据集上的结果如表1、表2和表3所示。JGSA primal表示JGSA方法在原始数据空间上的结果,而JGSA linear和JGSA RBF分别表示使用线性核和RBF核的结果。我们遵循JDA报告数字数据集在原始特征空间中的结果。对于动作识别任务,由于原始空间维度较高,难以进行特征分解,因此结果是使用线性核得到的。可以观察到,JGSA在大多数数据集上优于最先进的域自适应方法。如前所述,子空间中心方法的一般缺点是没有明确减少域间的分布差异。数据中心方法明确减少了分布差异。然而,可能不存在一个统一的变换来同时减少分布差异和保留原始数据的属性。因此,JGSA在大多数数据集上优于子空间中心方法和数据中心方法。我们还比较了算法在物体识别任务上的原始版本和核化版本(表1)。结果表明,原始版本和核化版本平均能获得相似的结果。为了评估伪标签的有效性,我们将我们的方法与半监督方法KEMA进行比较。我们在8个Office-Caltech数据集对上使用与KEMA相同的 D e c a f 7 Decaf_{7} Decaf7特征。我们的方法(线性核)获得了90.18%的准确率,(RBF核)获得了89.91%的准确率,均高于KEMA报告的89.1%。

我们还评估了跨域物体数据集(带线性核的SURF特征)上的运行时复杂度。平均运行时间为28.97秒,大约是最佳基线方法(JDA)的三倍。这是因为JGSA同时学习两个映射,与JDA相比,特征分解的矩阵大小翻倍。

4.2.3 参数敏感性

我们分析了JGSA在不同类型数据集上的参数敏感性,以验证可以选择广泛的参数值来获得令人满意的性能。不同类型数据集上的结果证实,对于所有三个任务,固定 λ = 1 \lambda = 1 λ=1 μ = 1 \mu = 1 μ=1就足够了。因此,我们只评估其他三个参数( k k k β \beta β T T T )。我们在USPS→MNIST、W→A(带线性核的SURF描述符)和MSR→MAD数据集上进行实验进行说明,结果如图3所示。实线是使用不同参数的JGSA的准确率,虚线表示每个数据集上最佳基线方法的结果。在其他数据集上也观察到类似的趋势。

β \beta β是源域类内和类间方差的权衡参数。如果 β \beta β太小,源域的类别信息就不会被考虑。如果 β \beta β太大,分类器会过度拟合源域。然而,从图3a可以看出,可以选择很大范围的 β \beta β β ∈ [ 2 − 15 , 0.5 ] \beta \in[2^{-15}, 0.5] β[215,0.5] )来获得比最佳基线方法更好的结果。

图3b展示了不同 k k k值与准确率之间的关系。我们可以选择 k ∈ [ 20 , 180 ] k \in[20,180] k[20,180]来获得比最佳基线方法更好的结果。

对于迭代次数 T T T,物体和数字识别任务的结果在几次迭代后可以收敛到最优值。然而,对于动作识别,准确率没有明显变化(图3c)。这可能是因为我们在4.2.1节中提到的对动作识别使用了不同的协议。经过迭代标注(在目标训练集上进行)后,映射可能对拟合目标训练集足够好,但对测试集不一定如此。

5. 结论

本文提出了一种新的无监督域自适应框架,称为联合几何与统计对齐(JGSA)。JGSA通过考虑源域和目标域数据的几何和统计属性,并利用共享特征和域特定特征来减少域间差异。在合成数据和三种不同类型的现实世界视觉识别任务上的综合实验,验证了JGSA相较于几种最先进的域自适应方法的有效性。

你可能感兴趣的:(跨场景域适应遥感图像分类,机器学习,深度学习,图像处理,人工智能)