多模态特征融合方法学习

一、 图卷积做视觉、语言特征融合

多模态特征融合方法学习_第1张图片
这篇文章的重点是做图像内物体和句子单词的细粒度对齐,图像中物体和句子单词被做成同维度的特征表示,假设每张图像被表示成 F = d ∗ m F=d*m F=dm,取图像中 m m m个物体,每个被表示成 d d d维;每个句子被表示成 G = d ∗ n G=d*n G=dn,保留n个单词,每个单词d维。
图卷积的使用关键在于邻接矩阵A怎么构造。这里采用的方法是利用以下变换:
A = [ 0 G T F F T G 0 ] A = \begin{bmatrix} 0 & G^TF \\ F^TG & 0 \end{bmatrix} A=[0FTGGTF0]
即将图像中每个物体、句中每个单词均视为图中的一个节点,通过矩阵相乘的方式使得图像表示和文本表示有交互,得到一个维度 n + m n+m n+m的对称邻接矩阵。
在这里插入图片描述
有了邻接矩阵A之后再继续求得节点度对角阵D。之后,图卷积中需要的两部分输入分别来自原始的图文特征拼接 H 0 = ( m + n ) ∗ d H_0 = (m+n)*d H0=(m+n)d,以及矩阵 a d j = D − 0.5 A D − 0.5 adj = D^{-0.5}AD^{-0.5} adj=D0.5AD0.5

二、MFB做视觉、文本特征融合

多模态特征融合方法学习_第2张图片
m维视觉特征和n维文本特征可以很容易地做以上双线性变换得到特征值 z i z_i zi W i ∈ R m ∗ n W_i\in \reals ^{m*n} WiRmn,要得到 z ∈ R o z\in\reals^o zRo的最终特征则需要o个权值矩阵 W i W_i Wi,即 W = [ W 1 , W 2 , . . . , W o ] W = [W_1,W_2,...,W_o] W=[W1,W2,...,Wo],进一步矩阵分解,矩阵 W i W_i Wi可以由两个低秩矩阵 U i ∈ R m ∗ k U_i\in \reals ^{m*k} UiRmk V i ∈ R n ∗ k V_i\in \reals^{n*k} ViRnk来表示。将问题转化成要得到输出特征 z ∈ R o z\in\reals^o zRo,需要学习到两个三阶的张量矩阵 U ∈ R m ∗ k ∗ o U\in\reals^{m*k*o} URmko V ∈ R n ∗ k ∗ o V\in\reals^{n*k*o} VRnko,通过简单的reshape操作,不难将矩阵 U 和 V U和V UV形式化成二维矩阵即 U ˉ ∈ R m ∗ k o \bar{U}\in\reals^{m*ko} UˉRmko, V ˉ ∈ R n ∗ k o \bar{V}\in\reals^{n*ko} VˉRnko,那么视觉特征 x ∈ R m x\in\reals^m xRm和文本特征 y ∈ R n y\in\reals^{n} yRn经过以下式子的双线性变换,并作sumpooling得到最终的 z ∈ R o z\in\reals^o zRo
z = S u m P o o l i n g ( U ˉ T x ∘ V ˉ T y , k ) z = SumPooling(\bar{U}^Tx\circ\bar{V}^Ty,k) z=SumPooling(UˉTxVˉTy,k)
其中 ∘ \circ 是Hadmard product,即逐元素乘积。SumPooling使用大小为k的池化核,步长为k,做求和池化。
图示如下:
多模态特征融合方法学习_第3张图片
参考论文:
Deep Cross-Modal Hashing by Exploiting Instance-level Correspondences
Multi-modal Factorized Bilinear Pooling with Co-Attention Learning for Visual Question Answering

你可能感兴趣的:(深度学习,计算机视觉)