多模态机器学习,MMML

总述

多模态通常指 语音/文本/图像 等不同形态的特征. 同时,模态也可以有非常广泛的定义,比如我们可以把两种不同的语言当做是两种模态.
很多人工智能的应用, 会同时涉及到多种模态的信息,所以它成了一个研究分支. 该分支下有以下几个领域.

多模态表示学习

multimodal representations.
是指通过利用多模态之间的互补性,剔除模态间的冗余性,从而学习到更好的特征表示。主要包括两大研究方向:联合表示(Joint Representations)和协同表示(Coordinated Representations)。

多模态融合

Multimodal Fusion.
负责联合多个模态的信息,进行目标预测(分类或者回归).
模态间的信息融合可以发生在不同的阶段.

  • early
    For early fusion, we concatenate features from the different modalities into a single vector, and train a deep neural network on this new feature representation.
    不同模态数据经各自的特征提取器后, 直接融合(拼接或加和), 送入后续的DNN.

  • intermidiate
    不同模态数据经各自的特征提取器后, 继续各自维护DNN, 之后再融合.
    多模态机器学习,MMML_第1张图片
    该例子来自参考3, 论文叫 late fusion, 我想归为 middle_fusion.

  • late
    像deepFM那种, 直到最后一步才融合.

参考

  1. 综述paper, Multimodal Intelligence: Representation Learning, Information Fusion, and Applications
  2. blog, 什么是多模态学习?
  3. paper, Deep Multimodal Fusion for Persuasiveness Prediction.

你可能感兴趣的:(多模态)