基于互信息分解表示学习的多模态情感分析

涉及到完全不懂的理论部分,全部创新都在损失函数

整体通过信息论工具显式分离多模态信息,突破传统融合方法的信息混杂问题

Q1:作者创新在模型模块还是理论?

A1:主要是理论创新,为互信息理论的扩展应用。

传统互信息(MI)的应用​​:已有工作用MI衡量模态间共享信息量(例如,文本和语音的MI高,说明它们表达情感一致)。

本文改进之处在于:不仅用MI定性判断“模态间是否有共享信息”,还定量计算三类信息(不变、特定、互补)的比例。引入更加复杂的条件MI(例如,已知文本信息时,语音和图像之间的MI),更精准建模信息依赖关系。

从理论层面解释了哪些信息对情感分析真正有用,指导模型设计。

关键理论详解:

MI互信息 -> 衡量2个变了之间的“关联程度”。例如文本说“开心”,语音语调轻快,他们的MI就会比较高,若语音语调低沉,MI就比较低。

基于互信息分解表示学习的多模态情感分析_第1张图片

若X和Y独立无关联,则MI=0,关联越强,MI越大

在MSA中的应用​​:

  • ​Han等人[12]​​:最大化单模态特征(如文本)与融合特征之间的MI,迫使融合特征包含各模态信息。
  • ​Colombo等人[13]​​:用MI增强模态间依赖性,使模型在部分模态缺失时仍能工作(如缺少图像时,依赖文本和语音的MI)。

在本文中的具体应用:

特征提取阶段:计算​​模态不变信息​​(如文本和语音的MI)、​​模态特定信息​​(如文本独有的MI)、​​模态互补信息​​(如文本和语音组合后的MI)。技术实现是通过MI或条件MI估计这些信息的比例

融合阶段:评估融合后的表征中保留了多少各模态的信息,例如I(Hfusion;Xtext)衡量融合特征包含多少文本信息,若某个模态的MI比较低,降低其权重

Q2:  哪里看得出来互补信息分离?

A2:

互补信息被定义为 两对模态的条件互信息(CMI)之和的平均

  • ​条件互信息(CMI)​​:
    表示在给定上下文概念 C(如情感类别)的条件下,两个模态间的依赖关系。
    • 例如,I(ht​;ha​∣C) 表示文本和音频在已知情感类别时的协同信息。
    • ​互补性​​:这种依赖关系是其他模态无法单独提供的(如音频修正文本与视频的矛盾)。

通过 最大化互补信息 来构建损失函数

  • ​负号的意义​​:
    损失函数通常被最小化,因此负号表示需要 ​​最大化互补信息​​(最小化负互信息等价于最大化正互信息)。
  • ​优化目标​​:
    迫使模型学习模态间的动态协同关系,例如:
    • 当文本与视频矛盾时,模型通过音频的互补信息修正预测

abstract

多模态

你可能感兴趣的:(对比学习,新颖模块,学习,人工智能)