Compressed Video Action Recognition论文笔记

该文章是首篇,在行为识别领域中,用压缩视频进行深度网络训练的论文。文中阐述了将压缩视频用于行为识别理由;作者尝试的过程及实验结果。

视频压缩感知重构时利用到了帧间的差异。帧间的差异与运动向量以及帧间残差有关,将运动向量及残差作为网络的输入,减少网络建模时序运动信息的难度;同时压缩的视频减少了冗余信息,易于训练。

摘要:

由于视频的size大及时序信息的冗余,深度的视频学习任务训练要比图像的表示学习要难得多。作者提出直接在压缩视频上训练深度网络。

理由:

1.经过压缩的视频,具有高信息密度,更容易训练

2.经过压缩的视频,也提供了滤除噪声影响的运动信息

实验效果:

1. 训练速度上的优势:比Res3D快4.6倍;比ResNet-152快2.7倍

2. 精度:UCF101,HMDB-51,Charades


Introduction:

1.作者主要分析在视频行为中,深度技术效果与传统技术相比优势不大的主要原因:

    A.视频信息密度低

    B.只有多张RGB图像,难以学习到时序结构

2.将压缩视频用于深度网络(可行性分析):

视频压缩感知重构时利用到了帧间的差异。帧间的差异与运动向量以及帧间残差有关。

    A.压缩视频:二阶信息----》特征信号突出

    B.提供运动信息,同时包括空间信息

    C.压缩视频,利用帧间差异储存数据,----》原始图像加上差异得到当前图像,数据量少于,直接将一张张图像保存

    D.高效


Video Compression:

压缩视频:主要将视频分为 I-frames (intracoded frames), P-frames (predictive frames) 和 B-frames (bi-directional frames)(有时为0)。

I-frames:原始图像。P-frames:则以先前帧为参考,只编码与先前帧的差异(changes)。这差异的一部分,可认为是运动向量,即是原始图像块(source)到t时刻的目标图像块(target)的运动,记为

。差异的另一部分:上述通过运动向量得到之后的预测图像与原始图像的残差,

P帧的重建则为:

P-frames:描述运动信息,与光流类似;残差:粗略描述运动边界



Modeling Compressed Representations :

尝试1:直接将I-frames,P-frames,残差分离输入,最后再融合,Failed

作者认为:单独的P帧或者残差并不能包含全部的运动信息。破坏了P帧与I帧的依赖关系

 Q1:如何利用网络表达这种依赖关系。

尝试2:由于P帧依赖于I帧,每一帧的重构依赖于前一帧。类似于RNN或者LSTM的结构,下一个神经元的输入依赖于前一个神经元的输出。作者尝试了RNN结构,初步实验表明该方法无效。

作者初步分析:随着P帧的增多,帧间依赖关系增强;

Q2:能否用LSTM网络?LSTM网络,短时记忆,会不会偏离于原始图像----》影响理解


尝试3:1.需表达I帧与P帧的依赖关系;2.解除P帧间的依赖关系。

作者采用回溯的方法,由当前帧回溯到I帧,计算运动向量(即为累积的运动向量),残差(累积残差)。


给定t帧的某个位置的像素点i,

表示该像素点在前一帧的参考位置,则i在前k帧的位置表示为(k

则运动向量及残差:




网络结构:



整体网络架构:文中采用类似于双流的方法。在用上图中的网络之外,还结合TSN网络(Temporal Segments Networks)

网络输入:


Q:网络具体结构?每个输入单独构建网络,之后再融合?

网络结构:

I帧网络:ResNet152(I帧储存大部分信息)

P帧,残差网络:ResNet18(只需学习从I帧到p帧的更新信息)



实验效果:

1.速度:


2.精度:

A.各网络效果


B.与其他模型对比



你可能感兴趣的:(Compressed Video Action Recognition论文笔记)