那些年,那些论文

那些年,那些论文

  1. Image Generation from Scene Graphs
    自写硕士论文以来看的第一篇文章,也是 sg2im 的开山之作。作者论述了从文字生成图片遇到的困境,接着提出从场景图生成图片。因为场景图更具有结构性,这样解析之后可以更容易得到图片的布局。作者创造性地提出 scene graph --> layout --> image,给图片生成领域造成了深远的影响。而使用 GCN 网络处理 scene graph 也是后来者处理 scene graph 必用的工具之一。而使用 CRN 处理 layout 则是受到同是出自斯坦福实验室的一篇论文的影响。

  2. Specifying Object Attributes and Relations in Interactive Scene Generation
    该论文获得了2019年 iccv 最佳论文的提名,研究内容也是 sg2im。跟上一篇论文不同的是,作者为 scene graph 中的 object 加了额外的 attribute (location, size)。这些 attribute 通过独热编码为 object 和 image 的生成增加了更多的控制性。论文中的一个关键 trick 是在训练的过程中使用了一个 offline cnn encoder 来编码 GT image 中物体的 appearance,训练完毕之后把同类物体的 appearance vectors 通过 k-means 算法聚类,这样在测试阶段就可以直接使用聚类好的 appearance vectors。值得一提的是,在训练的过程中作者还构造了 mismatch 的 layout-appearance pair,以增强网络对 appearance 的敏感度。使用聚类好的 appearance vectors 是本文的一大亮点,因为这可以帮助模型生成非常好的图片,毕竟在测试阶段,都已经告诉模型物体的尺寸,位置,以及外貌,这样模型当然很好生成图片了。但这也是该模型最大的缺陷。给定物体的位置和尺寸我觉得是合理的,但给定物体的外貌让模型失去了创造能力,而且聚类之后每个物体的外貌种类就固定住了,失去了多样性。

  3. Image Generation from Layout
    个人非常喜欢的一篇文章,文章结构严谨,思路清晰,代码也延续了文章的风格,十分干净,对读者很友好。不同于 sg2im,作者选择了从 layout2im,毕竟 sg2im 中间一般都会先生成 layout,这一步十分复杂,而且不容易训练,从 layout2im 相对而言就简单许多。模型的主要过程比较常规,把物体的表示填充到 bbox 区域,然后生成图片。本文的亮点有3:第一,作者并没有预测 mask,而是把物体的表示直接填充到 bbox,这样对数据库提出了较低的要求,毕竟不需要 GT mask,也可以加速训练;第二,作者使用了 object encoder 来编码 object appearance,并使用 VAE 的方法把 object appearance vector 投射到高斯空间,这样在测试阶段就可以从高斯噪声中取分布来当做物体的表示,当然为了使模型适应高斯噪声作为物体的外貌,需要有一个 latent vector regression 的过程,这个过程具体可以看论文;第三,作者并不是简单的把多个填充完物体信息的 bbox 投射到同一个 layout 上,而是把一个个 bbox 输入到 cLSTM 中去 fusion bbox 中的物体信息,以处理 bbox overlap 的区域,值得一提的是为了降低输入到 cLSTM 中 bbox 顺序的影响,作者在处理数据库的时候会对 object 的顺序做一个 shuffle。整篇文章思路新颖,观点独特,为不可多得的佳作。只可惜只能做到 64 的分辨率,这跟 VAE 在高维空间有限的表达能力有关。

  4. Learning Layout and Style Reconfigurable GANs for Controllable Image Synthesis
    2020年 layout2im 的 state of the art。作者创造性的通过 object label 预测出 object mask,然后通过做 normalization 的方式引入 object 的信息。引入的 object 的信息主要分为2个方面,一方面通过 object label 预测 channel 维度的 gamma 和 beta,另一方面之前通过 object label 预测出来的 mask 提供了空间的信息。2个方面的信息结合之后就提供了 C,H,W 维度上的 gamma 和 beta,也就是作者在论文中所说的 ISLA (Instance Sensitive Layout Aware)。值得一提的是,本文的作者其实在2019年的 iccv 上就已经提出了 ISLA,这篇论文同样发表在 iccv 上,作为上一篇论文的改进版,改进之处就是作者在每个阶段使用 mask 的时候同样会兼顾 feature map 的信息。还有一点较为有趣的是,2019年大概同时的一篇论文也提出了类似的方法,名字叫做 SPADE。该篇论文结构新颖,思路也非常大胆,给人带来了很多的启发,生成图片的分辨率甚至能够达到512,值得一读。

  5. StackGAN++: Realistic Image Synthesis with Stacked Generative Adversarial Networks
    其实 StackGAN 和 StackGAN++ 可以放在一起讲。作者首次把从文字到图片的复杂任务分成了好几个阶段,再使用多个鉴别器给出了很高的限制条件,以保证生成图片的质量。StackGAN 的结构对 text2im 造成了深远的影响,以后的比较出名的结构都是用它作为 baseline 的。但因为是第一代结构,所以也具有着很多的缺点,这些缺点在其他论文中也论述了很多了,比如没有用到精细的 word 的信息, naive 地把 image feature 和 global sentence feature 结合起来,生成的图片极度依赖第一阶段生成图片的质量。

  6. AttnGAN: Fine-Grained Text to Image Generation with Attentional Generative Adversarial Networks
    如果说 StackGAN 的基本结构对 text2im 造成了深远的影响,那么 AttnGAN 的提出则是真正地把这种结构推向了顶峰。本文使用了当时如日中天的 Attention mechanism,对中间生成的 feature map 跟 words features 做 spatial attention,把精细的词信息引入到了模型中,对图片的生成实现了精准的控制。不仅如此,文章中提出的 DAMSM 能够提升生成的图片和给定文本的匹配度,也是后来者一直使用的工具。看完 AttnGAN,为这篇文章的工作量和新颖度打 call。

  7. MirrorGAN: Learning Text-to-image Generation by Redescription
    本文选择 AttnGAN 作为 baseline,亮点有2个方面:第一,作者不仅让 feature map 跟 words feature 做 attention ,还加入了 global sentence vector;第二,作者对生成的图片做 image caption,这样就构建了 loss in same domain。

  8. Controllable Text-to-Image Generation
    本文重点不在于提升生成图片的质量,而在于实现生成图片的可控,亮点有2个方面:第一,作者把 spatial attention 和 channel-wise attention 结合起来使用;第二,作者提出的 word-level discriminator 可以提升模型对词的敏感度,从而提高对图片的可控性。不严谨地说,这有点像是对图片做 manipulation。当然,这跟真正的 manipulation 是有质的区别的,毕竟输入只是 text,而不是 text 和 image。

你可能感兴趣的:(论文解析)