《ChromaGAN》论文简读及demo运行(萌新手记)

论文题目:

《ChromaGAN: Adversarial Picture Colorization with Semantic Class Distribution》

《具有语义类别分布的对抗图片着色》

论文地址:https://arxiv.org/pdf/1907.09837.pdf

源码地址:https://github.com/pvitoria/ChromaGAN

声明:仅学习用途。

 

这是WACV 2020收录的一篇关于单张图片上色的论文,出于学习和项目需要,笔者对这篇论文做了初步阅读,和大家作简单的分享,多多包涵。


 

 

一、内容概要

    灰度图像的着色是一个不适定问题,伴随着多种正确的解决方案。(同一种物体的上色方案五花八门,例如苹果可以是绿色、红色,但几乎不可能是蓝色、白色。)在本文中,我们提出了一种结合图片语义信息的对抗学习着色方法。

    我们用一个生成器网络,以语义线索为条件来推断给定灰度图像的色度。该网络以对抗模型为框架,通过结合颜色、类别分布的感知和语义理解来学习着色,且通过完全自我监督的策略来进行训练。实验给出的定性和定量结果显示了我们提出的方法能够实现逼真的图像着色,在该领域达到了最先进的水平。

这项工作的贡献包括:

    • 对抗性学习方法与语义信息相结合,提出了将色彩、感知信息与语义类别分布结合在一起的三项损失   函数。

    • 无监督的语义类别分布学习。

    • 相关研究表明,语义信息与对抗性方法相结合可产生高质量的结果。

 

二、网络结构

《ChromaGAN》论文简读及demo运行(萌新手记)_第1张图片 网络结构示意图

绿色的是鉴别器网络,左边是生成器,分为两部分:

第一部分(黄色,紫色,红色,蓝色),输出图片的色度信息

第二部分(黄色,红色,灰色),输出类别分布向量。

两个子网都通过单步反向传播进行联合训练。

 

三、具体方法

《ChromaGAN》论文简读及demo运行(萌新手记)_第2张图片

1、生成器网络

黄色部分是VGG-16的结构,但相比VGG-16删掉了最后的三个全连接层。

第一个分支的紫色部分通过使用Conv-BatchNorm-ReLu形式的两个模块来处理数据。

第二个分支的红色部分使用了Conv-BatchNorm-ReLu形式的四个模块处理数据,然后接着三个全连接层。

第二个分支的灰色部分输出是类分布矢量,用softmax函数生成m个语义类的概率分布y。

第三阶段是合并输出特征,将两个分支融合,用conv-relu形式的六个模块处理数据,并且中间夹杂了两个上采样层。

 

2、鉴别器网络

该鉴别器是基于Markovian马尔可夫鉴别器架构(这里大家google搜索PatchGAN,我也不会)。

PatchGAN鉴别器跟踪所生成图像的高频结构,从而补偿了L2损失L_{e} (G_{\theta_{1}}^1 ) (找不到特殊的字符,用L和G代替)未能捕获高频结构但能成功捕获低频结构的缺陷。为了对高频信息进行建模&#

你可能感兴趣的:(学习手记,python,机器学习,计算机视觉)