学习笔记--Structural-RNN: Deep Learning on Spatio-Temporal Graphs

论文链接:https://www.cv-foundation.org/openaccess/content_cvpr_2016/papers/Jain_Structural-RNN_Deep_Learning_CVPR_2016_paper.pdf
此为原创笔记,如需转载请注明

Structural-RNN: Deep Learning on Spatio-Temporal Graphs

  [–Ashesh Jain, etc… ICCV2016]

文章目录

    • Structural-RNN: Deep Learning on Spatio-Temporal Graphs
      • 1、Motivation
      • 2、Contributions
      • 3、Overview
        • 3.1 st-graphs表示法
        • 3.2 由st-graph到S-RNN
        • 3.3 训练S-RNN架构
      • 4、High lights
      • 5、Experimental results
        • 5.1 人类动作建模和预测(推测)
        • 5.2 对S-RNN进行更深层的观测
        • 5.3 人类活动检测和预测
        • 5.4 驾驶机动预测
      • 6、Summary


1、Motivation

• 当前的深度学习RNN框架缺少一个直观的高端(相对于底层、隐藏层)的空时结构;
• 计算机视觉先天潜在高端结构,如果能够去很好的拟合出这个结构,那势必在此领域上有所突破;
• 空时结构能够很好的模拟现实世界的绝大多数问题,用空时结构作为高端架构进行RNN的序列学习是值得尝试探究的,本文因此而作。
• 由于S-RNN是以RNN为基本单元模块的,因此存在如下挑战:

  1. 既要尽量的丰富RNN的混合搭建,从而确保学习到复杂的(函数关系)功能;
  2. 但也要保证RNN混合搭建体能够在面对不同的时空图(st-graph)时是能够度量的,换句话说就是对于一般的st-graphs都能运作起来(scalable)。

2、Contributions

• 本文提出了一个通用的方法,这个方法使得一个任意的st-graph构架的问题能够转化为一个(学习参数)丰富而可测量,且可以共同训练的以RNN为基本单元的混合结构;
• 为了突出结构化的优点,实验对比表明S-RNN较无结构化的(plain-vanilla)RNN性能要好;
• 为了突出RNN基本单元的优点,实验对比也表明S-RNN较其他非深度学习的结构化方法在空时问题上性能要好。


3、Overview

本文的基本目标有三个:
a. 提出一种通用的、不受限于特定问题的(空时)算法框架;
b. 提供一种将st-graph转化成可测量且具有丰富前馈的RNN混合架构的方法;
c. 确保网络参数是可以共同训练的。

3.1 st-graphs表示法

  st-graphs(spatio-temporal graphs),是通过图结构来表示现实中时间和空间推理的活动,一般情况下st-graph中有三个基本成分,
    在这里插入图片描述
分别是物理对象(抽象成图上的点,一般包含人和物),空间上的边(表示对象在空间上的联系)和时间上的边(表示对象在时间上的联系)。总的来说st-graph由实物抽象的点和两类边构成,是一个图结构。
  Figure 1中,中间图层即为一个st-graph。其中,蓝点和红点即为实物点,蓝点表示物品(碗和微波炉),红点表示人;黑边和绿边是空间上的边,黄边和紫边表示时间上的边。通过这个图也可以看到点和边也是被细分类了的,后续细讲。
  在图中,点的特征可以是人和物的姿态(pose),而边特征可以是相对位置关系。点的标签(label)一般有两种(人物交互HOI),分别是人类行为活动和物品的直观功能(affordance)。

学习笔记--Structural-RNN: Deep Learning on Spatio-Temporal Graphs_第1张图片

Affordance:在人机交互(HCI)领域

你可能感兴趣的:(CV论文笔记,Structural,RNN,RNN,CV,spatiotemporal)