生成对抗网络，从DCGAN到StyleGAN、pixel2pixel，人脸生成和图像翻译。

文章目录

- 一、day1：生成对抗网络介绍
- - 1.1 生成对抗网络概述
  - - 1.1.1 GAN的应用
    - 1.1.2 GAN发展历史
  - 1.2 GAN原理
  - 1.3 生成对抗网络的训练
  - 1.4 DCGAN及代码实现
  - 1.5 PaddleGAN介绍
- 二、day2：GAN的技术演进及人脸生成应用
- - 2.1 GAN技术的演进
  - - 2.1.1 GAN和DCGAN的问题
    - 2.1.2 LSGAN：MSE损失函数代替二分类损失函数
    - 2.1.3 WGAN和WGAN-GP：EM距离代替JS，KL散度
  - 2.2 GAN在人脸生成的改进
  - - 2.2.1 渐近式增长生成对抗网络PGGAN
    - - 2.2.1.1 渐进式增长
      - 2.2.1.2 平滑过度：
      - 2.2.1.3 PPGAN的缺陷：特征纠缠
      - 2.2.1.4 PPGAN的TF实现
    - 2.2.2 StyleGAN：基于样式的生成对抗网络
    - - 2.2.2.1 StyleGAN 总览
      - 2.2.2.2 映射网络：为输入向量的特征解缠提供一条学习的通路
      - 2.2.2.3 Synthesis network样式模块：AdaIN精确控制样式信息，而保留图片的关键信息
      - 2.2.2.4 常数输入(ConstantInput)
      - 2.2.2.5 噪声输入改进
      - 2.2.2.6 混合正则化
    - 2.2.3 StyleGAN 2
    - - 2.2.3.1 消除伪影
      - 2.2.3.2 改进渐进式增长网络结构
      - 2.2.3.3 StyleGAN2的应用体验
  - 2.3 PaddleGAN的使用
- 三、day3：图像翻译及人像卡通化
- - 3.1 背景介绍
  - 3.2 技术原理
  - - 3.2.1 Conditional GAN
    - 3.2.2 pixel2pixel
    - 3.2.3 CycleGAN
    - 3.2.4 U-GAT-IT
    - 3.2.5 Photo2Cartoon
    - - 3.2.5.1 Photo2Cartoon模型结构
      - 3.2.5.2 递进训练
      - 3.2.5.3 效果展示和扩展应用
  - 3.3 卡通化实战
  - - 3.3.1 Pixel2Pixel实现人像卡通化
  - 数据准备：
  - - 3.3.2 Photo2cartoon
    - - 3.3.2.1 测试、推理
      - 3.3.2.2 训练

本文参考：

paddle课程《生成对抗网络七日打卡营》、博客文章《NLP 中的对抗训练（附 PyTorch 实现）》及bilibili视频、天池新闻文本分类——bert模型源码（加入生成对抗网络）

生成式对抗网络系列论文地址在《PaddleGAN预习课程》中有。建议对照打卡营视频讲解观看，更容易理解。

一、day1：生成对抗网络介绍

kaggle在2019年曾经举办一项奖金高达100万美元的比赛《Deepfake Detection Challenge》，主要是识别视频中哪些人脸是真实哪些是AI生成的。

1.1 生成对抗网络概述

1.1.1 GAN的应用

生成式对抗网络，简称GAN，在图像/视频领域、人机交互领域都有应用，比如:

图像视频生成、图像上色、图像修复、超分辨率（视频信息增强、遥感成像）
Text to Image Generation：根据文字描述生成对应图像
Image to Image Translation：图像到图像的转化（比如马转成斑马）
Photo to Cartoon：图像翻译：人物/实景动漫化、风格迁移
Motion Driving：人脸表情动作迁移
Lip Sythesis：唇形动作合成
对抗神经机器翻译

以下这幅图中的人脸就都是神经网络生成的：

根据文字描述生成对应图像、医疗影像由生成对抗网络进行数据增广和生成

1.1.2 GAN发展历史

2014年提出以来，生成对抗网络快速发展

以下红色部分在本次课程中会讲到：

1.2 GAN原理

我们之前学习的图片分类、语义分割、目标检测都是判别模型，根据图片特征训练后得到标签，而GAN是生成模型，根据噪声和标签生成需要的图片。

生成式对抗网络模型由两个基础神经网络组成，即生成器神经网络（Generator Neural Network）和判别器神经网络（Discriminator Neural Network）。其中一个用于生成内容，另一个则用于判别生成的内容。
生成器从给定噪声中（一般是指均匀分布或者正态分布）产生合成数据，判别器分辨生成器的的输出和真实数据。在训练过程中，生成网络G的目标就是尽量生成真实的图片去欺骗判别网络D。而D的目标就是尽量把G生成的图片和真实的图片分别开来。这样，G和D构成了一个动态的“博弈过程”。两个网络在对抗中进步，在进步后继续对抗，由生成式网络得的数据也就越来越完美，逼近真实数据，从而可以生成想要得到的数据（图片、序列、视频等）。

左图表示，均匀分布的噪声Random noise输入生成器得到假的图片Fake Image，Fake Image和Real Image一起输入判别器中，得到判别分数(分数1为真实图片，0为生成图片）。
右图是GAN的数学描述：
- G是一个生成图片的网络，接收随机噪声z，通过这个噪声生成图片记做G(z)，D(G(z))是D网络判断G生成的图片的是否真实的概率；
- D是一个判别网络，输入参数x(表示一张图片)，输出D(x)代表x为真实图片的概率；
- $P_{r}$ → 真实数据的分布，X → $P_{r}$ 的样本（真实图片）
- $P_{z}$ → 生成数据的分布，Z → $P_{z}$ 的样本（噪声）
- G的目的：希望生成的图片“越接近真实越好，D(G(z))变大，V(D, G)会变小。记做 $\underset{G}{min}$ 。
- D的目的：希望判别越来越准，D(x)变大，D(G(x))变小，V(D,G)会变大。记做 $\underset{D}{max}$ 。
- 最后博弈的结果D(G(z)) = 0.5。最理想的状态下，G可以生成足以“以假乱真”的图片G(z)。对于D来说，它难以判定G生成的图片究竟是不是真实的，因此D(G(z)) = 0.5。

最终通过不断的训练，生成的图片会相当真实。

1.3 生成对抗网络的训练

生成器G希望从数据的真实分布中采样到一种分布，加入随机噪声（比如0-1之间的均匀分布的噪声）后映射成接近真实分布的生成器分布。可视化就是：

如上图所示：

初始训练出生成器网络G和判别器网络D；
固定判别器的权重，训练生成器，生成更逼真的图片，所以此时Fake Image标签为1（表示接近真实图片）。以生成器和真实分布的差异作为损失函数训练生成网络。
固定生成器的权重，训练判别器，识别出生成图片，所以此时Fake Image标签为0（表示生成图片）。以真实图片和生成图片的二分类问题训练判别网络。
重复2、3步

1.4 DCGAN及代码实现

参考：论文《UNSUPERVISED REPRESENTATION LEARNING WITH DEEP CONVOLUTIONAL GENERATIVE ADVERSARIAL NETWORKS》、代码链接

由于卷积神经网络(Convolutional neural network, CNN)比MLP有更强的拟合与表达能力，并在判别式模型中取得了很大的成果。因此，Alec等人将CNN引入生成器和判别器，称作深度卷积对抗神经网络（Deep Convolutional GAN, DCGAN），Convolutional表示卷积算子。另外还讨论了 GAN 特征的可视化、潜在空间插值等问题。

GAN最初用在手写数字识别的网络结构入如下：

如上所示，输入图片是尺寸是[B,1,28,28]，转为B×784维向量；随机噪声是100维向量经过全连接层也转为784维向量。最后判别器经过一个[784,1]的全连接层得到判别结果。
一层神经网络太浅，效果不好，所以网络D和G都加到了三层。（G其实主要是训练噪声，然后加上图片向量成为生成图片向量，所以G的初始输入是噪声的维度100，而不是图片的维度784）

DCGAN的改进：

使用更深的网络、添加BatchNorm
判别器使用卷积算子Convolutional，这样相比全连接层，参数量大大减少，而且卷积层更能提取图片信息，更适用于计算机视觉任务。另外激活函数使用LeakyRelu。
生成器需要上采样，所以使用转置卷积，激活函数使用Relu。转置卷积原理可参考我的另一篇笔记：《动手深度学习13：计算机视觉——语义分割、风格迁移》第二章。

代码如下：（来自《DCGAN实践》、）

加载数据集

import os
import random
import paddle 
import paddle.nn as nn
import paddle.optimizer as optim
import paddle.vision.datasets as dset
import paddle.vision.transforms as transforms
import numpy as np
import matplotlib.pyplot as plt
import matplotlib.animation as animation

demo_dataset = paddle.vision.datasets.MNIST(mode='train')
#rezize到32×32，然后归一化到-1和1之间
dataset = paddle.vision.datasets.MNIST(mode='train', transform=transforms.Compose
									  ([transforms.Resize((32,32)),
                                        transforms.Normalize([127.5], [127.5])]))                                    
dataloader = paddle.io.DataLoader(dataset, batch_size=32,shuffle=True, num_workers=4)

Generator网络输入z经过四个转置卷积层之后，形状由[B,100,1,1]变成[B,1,32,32]。

# Generator Code
class Generator(nn.Layer):
    def __init__(self, ):
        super(Generator, self).__init__()
        self.gen = nn.Sequential(
            # input is Z, [B,100,1,1] -> [B,64*4,4,4]
            nn.Conv2DTranspose(100,64*4,4,1,0, bias_attr=False),
            nn.BatchNorm2D(64*4),
            nn.ReLU(True),
            # state size. [B,64*4,4,4] -> [B,64*2,8,8]
            nn.Conv2DTranspose(64*4,64*2,4,2,1, bias_attr=False),
            nn.BatchNorm2D(64*2),
            nn.ReLU(True),
            # state size. [B,64*2,8,8] -> [B,64,16,16]
            nn.Conv2DTranspose(64*2,64,4,2,1, bias_attr=False),
            nn.BatchNorm2D(64),
            nn.ReLU(True),
            # state size. [B,64,16,16] -> [B,1,32,32]
            nn.Conv2DTranspose(64,1,4,2,1, bias_attr=False),
            nn.Tanh()#最后输出值在-1到1之间
        )

    def forward(self, x):
        return self.gen(x)

Discriminator网络输入x经过四个转置卷积层之后，形状由[B,1,32,32]变成[B,1]。

class Discriminator(nn.Layer):
    def __init__(self,):
        super(Discriminator, self).__init__()
        self.dis = nn.Sequential(

            # input [B,1,32,32] -> [B,64,16,16]
            nn.Conv2D(1,64,4,2,1, bias_attr=False),
            nn.LeakyReLU(0.2),

            # state size. [B,64,16,16] -> [B,128,8,8]
            nn.Conv2D(64,64*2,4,2,1, bias_attr=False),
            nn.BatchNorm2D(64*2),
            nn.LeakyReLU(0.2),

            # state size. [B,128,8,8] -> [B,256,4,4]
            nn.Conv2D(64*2,64*4,4,2,1, bias_attr=False),
            nn.BatchNorm2D(64*4),
            nn.LeakyReLU(0.2),

            # state size. [B,256,4,4] -> [B,1,1,1] -> [B,1]
            nn.Conv2D(64*4,1,4,1,0,bias_attr=False),
            nn.Sigmoid()
        )

    def forward(self, x):
        return self.dis(x)

#定义的初始化函数weights_init略去了
netG = Generator()
netG.apply(weights_init)
netD = Discriminator()
netD.apply(weights_init)

loss = nn.BCELoss()#二分类损失函数
# 创建噪声
fixed_noise = paddle.randn([32, 100, 1, 1], dtype='float32')
# 设置真实图片和生成图片的标签
real_label ,fake_label= 1.,0.

# 设置两个优化器，训练一个网络时固定另一个网络的权重
optimizerD = optim.Adam(parameters=netD.parameters(), learning_rate=0.0002, beta1=0.5, beta2=0.999)
optimizerG = optim.Adam(parameters=netG.parameters(), learning_rate=0.0002, beta1=0.5, beta2=0.999)

losses = [[], []]
#plt.ion()
now = 0
for pass_id in range(100):
    for batch_id, (data, target) in enumerate(dataloader):
        """
        (1) Update D network: maximize log(D(x)) + log(1 - D(G(z)))
        """
        optimizerD.clear_grad()#梯度清零
        real_img = data
        bs_size = real_img.shape[0]
        label = paddle.full((bs_size, 1, 1, 1), real_label, dtype='float32')#判别器真实图片标签为1
        real_out = netD(real_img)
        errD_real = loss(real_out, label)
        errD_real.backward()

		"""
		生成器根据噪声生成图片，并且把标签设为0
		"""
        noise = paddle.randn([bs_size, 100, 1, 1], 'float32')
        fake_img = netG(noise)
        label = paddle.full((bs_size, 1, 1, 1), fake_label, dtype='float32')
        fake_out = netD(fake_img.detach())
        errD_fake = loss(fake_out,label)
        errD_fake.backward()
        optimizerD.step()
        optimizerD.clear_grad()

        errD = errD_real + errD_fake
        losses[0].append(errD.numpy()[0])

        """
        (2) Update G network: maximize log(D(G(z)))
        唯一不同是生成器生成的图片标签改为1，因为生成器要生成接近真实的图片
        """
        optimizerG.clear_grad()
        noise = paddle.randn([bs_size, 100, 1, 1],'float32')
        fake = netG(noise)
        label = paddle.full((bs_size, 1, 1, 1), real_label, dtype=np.float32,)
        output = netD(fake)
        errG = loss(output,label)
        errG.backward()
        optimizerG.step()
        optimizerG.clear_grad()

        losses[1].append(errG.numpy()[0])


        """
        每一百步做一次可视化，打印输出
        """
        if batch_id % 100 == 0:
            generated_image = netG(noise).numpy()
            imgs = []
            plt.figure(figsize=(15,15))
            try:
                for i in range(10):
                    image = generated_image[i].transpose()
                    image = np.where(image > 0, image, 0)
                    image = image.transpose((1,0,2))
                    plt.subplot(10, 10, i + 1)
                    
                    plt.imshow(image[...,0], vmin=-1, vmax=1)
                    plt.axis('off')
                    plt.xticks([])
                    plt.yticks([])
                    plt.subplots_adjust(wspace=0.1, hspace=0.1)
                msg = 'Epoch ID={0} Batch ID={1} \n\n D-Loss={2} G-Loss={3}'.format(pass_id, batch_id, errD.numpy()[0], errG.numpy()[0])
                print(msg)
                plt.suptitle(msg,fontsize=20)
                plt.draw()
                plt.savefig('{}/{:04d}_{:04d}.png'.format('work', pass_id, batch_id), bbox_inches='tight')
                plt.pause(0.01)
            except IOError:
                print(IOError)
    paddle.save(netG.state_dict(), "work/generator.params")

训练结果如下：

1.5 PaddleGAN介绍

paddle官网、github地址。官网没啥用，主要看github。

paddle代码仓库结构预览：

二、day2：GAN的技术演进及人脸生成应用

2.1 GAN技术的演进

2.1.1 GAN和DCGAN的问题

GAN和DCGAN存在以下问题：

模式坍塌：生成器生成非常窄的分布，仅覆盖真实数据分布中的单一模式。生成器只能生成非常相似的样本（比如MNIST中的单个数字），多样性不够。
没有指标可以告诉我们收敛情况。生成器和判别器的 loss并没有告诉我们任何收敛相关信息
训练不稳定

模式坍塌的原因一句话概括就是：等价优化的距离衡量（KL散度、JS散度）不合理，生成器随机初始化后的生成分布很难与真实分布有不可忽略的重叠。

GAN网络训练的重点在于均衡生成器与判别器，我们越训练判别器，它就越接近最优。在最优判别器的下，我们可以把原始GAN定义的生成器loss等价变换为最小化真实分布与生成分布之间的JS散度。（推导见下图）
JS散度存在的问题：通过优化JS散度就能将生成分布拉向真实分布，最终以假乱真，前提是两个分布有所重叠。但是如果两个分布完全没有重叠的部分，或者它们重叠的部分可忽略，那它们的JS散度就一直是 log2
生成器随机初始化后的生成分布很难与真实分布有不可忽略的重叠（上升到高维时），所以在判别器太强时，梯度为0，loss没不再下降，生成器学习不到东西，生成图像的质量便不会再有提升。

目标函数推导：

设真实数据分布 $P_{r}(x)=a$ ,生成数据分布为 $P_{G}(x)=b$ ，通过导数求极值，最终可以得到判别器函数的极值点 $D^{*}(x)$ 。
将 $D^{*}(x)$ 代入生成器目标函数中（只有后一项），根据KL散度和JS散度公式，可以得到生成器函数为-2log2+JS散度值。-2log2是因为log式子中分母除以2
所以最终判别器收敛到接近最优点 $D^{*}(x)$ 时，生成器函数是常数加上生成分布和真实分布之间的JS散度

而JS散度的问题是：两个不重合分布的JS散度等于常数log2，梯度为0，网络无法继续优化。

2.1.2 LSGAN：MSE损失函数代替二分类损失函数

论文：Least Squares Generative Adversarial Networks

针对GAN存在的JS散度导致的问题，LSGAN（LeastSquare GAN）提出用MSE损失函数代替二分类损失函数，改善了传统 GAN 生成的图片质量不高，且训练过程十分不稳定的问题。

训练营第二课作业《代码题 DCGAN改写LSGAN》中需要改的代码就两处：

2.1.3 WGAN和WGAN-GP：EM距离代替JS，KL散度

参考：论文Wasserstein GAN、代码链接、论文解读《WGAN(Wasserstein GAN)看这一篇就够啦，WGAN论文解读》

WGAN

WGAN利用EM距离代替JS，KL散度来表示生成与真实分布的距离衡量，从而改进了原始GAN存在的两类问题。（Wasserstein距离优越性在于：即使两个分布没有任何重叠，也可以反应他们之间的距离。）

假设真实分布是 $P_r$ ，生成器分布是 $P_\theta$ ，两种分布就像两堆土，如下图所示：

将右边土堆堆成左边土堆的方式有无数种，其中一种消耗最少的称为推土机距离EM（Earth-Moverdistance）。

推土机距离公式代入GAN网络经过一堆推导得到中间那行式子，其中判别器D要满足 $D\in 1-lipschitz$ 限制。这个限制直观来说会让生成器的标签足够平滑，即输出的变化要小于输入的变化。
输入x是不好限制的，那么可以限制参数w。在神经网络中的实现就是判别器参数截断，即w∈[c,-c]，用clip即可实现。
WGAN与原始GAN第一种形式相比，只改了四点：
- 判别器最后一层去掉sigmoid
- 生成器和判别器的loss不取log
- 每次更新判别器的参数之后把它们的值截断到不超过一个固定常数c
- 不要用基于动量的优化算法（包括momentum和 Adam），推荐RMSProp

WGAN-GP
在神经网络中，w即使很小，累积多层之后输出也可能很大，不能保证输入一定小于输出，由此提出WGAN-GP,其目标函数如下：

如上图所示，目标函数改成第二行的式子。其中：

$\sim P_{penalty}$ 表示 $P_r$ 和 $P_G$ 之间的采样。
$\left \| \bigtriangledown _{x} D(x)\right \|$ 表示判别器输出分数对x的导数的范数。
WGAN-GP目标函数第三项表示希望 $\left \| \bigtriangledown _{x} D(x)\right \|$ 小于1。如果大于1那么max之后得到一个正值，前面乘以-λ作为惩罚。
interpolates就是上图的 $\sim P_{penalty}$ 采样，最终得到的惩罚项gradient_penalty作为损失。
代码最后和式子有点不一样，是作者觉得这样效果更好。

2.2 GAN在人脸生成的改进

从2014年的GAN、2015年DCGAN、2017年PGGAN、到2018年的StyleGAN，GAN生成的图片越来越清晰。DCGAN要生成高分辨率一点的图片，发现会生成一些很奇怪的图片，分辨率继续扩大，问题会越来越明显。
PGGAN损失函数使用了WGAN-GP的损失函数，网络结构如下：（左边是DCGAN生成的奇怪人脸）

2.2.1 渐近式增长生成对抗网络PGGAN

参考：论文PROGRESSIVE GROWING OF GANS FOR IMPROVED QUALITY, STABILITY, AND VARIATION

2.2.1.1 渐进式增长

如果直接生成大分辨率的图片，建立从latent code 到 1024x1024 pixels样本的映射网络G，肯定是很难工作的。因为，在生成的过程中，判别器D很容易就可以识别出G生成的“假图像”，G难以训练。因此，提出PGGAN（progressive gan）来进行逐层训练。
这项技术首先通过学习即使在低分辨率图像中也可以显示的基本特征，来创建图像的基本部分，并且随着分辨率的提高和时间的推移，学习越来越多的细节。由于每次前面的层已经训练好，所以会集中训练后添加的层，所以提高分辨率后，新的训练难度不会提高。低分辨率图像的训练不仅简单、快速，而且有助于更高级别的训练，因此，整体的训练也就更快。
如下图所示，模型先训练一个生成4*4分辨率图片的的生成器和对应的判别器，效果不错之后再添加一层，训练8*8分辨率的生成器和判别器。。。。。。不断逐层添加卷积层和转置卷积层，最终得到分辨率为1024*1024的生成对抗网络。

PGGAN网络结构如下：

2.2.1.2 平滑过度：

Generator 内部的网络只有一个，但是在训练过程中网络的结构是在动态变化的。引入这些层时，不是立即跳到该分辨率，而是通过参数α（介于0-1之间，从0到1线性缩放）平滑的增加高分辨率的新层。
如果从 4×4 的输出直接变为 8×8 的输出的话，网络层数的突变会造成 GANs 原有参数失效，导致急剧不稳定这会影响模型训练的效率（新添加的层，参数一开始是初始化的。如果直接输出，那么之前训练好的结果也被破坏了）。所以PGGAN 提出了平滑过渡技术。

当把生成器和判别器的分辨率加倍时，会平滑地增大新的层。我们以从16 × 16 像素的图片转换到 32 × 32 像素的图片为例。在转换（b）过程中，把在更高分辨率上操作的层视为一个残缺块，权重 α 从 0 到 1 线性增长。当 α 为 0 的时候，相当于图(a),当 α 为 1 的时候，相当于图©。所以，在转换过程中，生成样本的像素，是从 16x16 到 32x32 转换的。同理，对真实样本也做了类似的平滑过渡，也就是，在这个阶段的某个训练 batch，真实样本是:

上图中的 2× 和 0.5× 指利用最近邻卷积和平均池化分别对图片分辨率加倍和折半。
toRGB 表示将一个层中的特征向量投射到 RGB 颜色空间中，
fromRGB 正好是相反的过程；这两个过程都是利用 1 × 1 卷积。

当训练判别器时，插入下采样后的真实图片去匹配网络中的当前分辨率。在分辨率转换过程中，会在两张真实图片的分辨率之间插值，类似于将两个分辨率结合到一起用生成器输出。其它改进还有：

生成器中的像素级特征归一化。动机是训练的稳定性，训练发散的早期迹象之一是特征的爆炸式增长，将图像中的所有点映射到一组向量，然后对其进行归一化。
小批量标准差（仅应用判别器）、均衡学习率：略

2.2.1.3 PPGAN的缺陷：特征纠缠

由于 PPGAN 是逐级直接生成图片，我们没有对其增添控制，我们也就无法获知它在每一级上学到的特征是什么，这就导致了它控制所生成图像的特定特征的能力非常有限，即PPGAN 容易发生特征纠缠。换句话说，这些特性是互相关联的，因此尝试调整一下输入，即使是一点儿，通常也会同时影响多个特性。
如下图，比如我们希望噪声第二个维度可以控制人脸的肤色，理想是第二维向量由0.9改为0.7之后，会生成第二张图片。但是结果可能生成完全不一样的图片，比如第三张图，这就是相互纠缠的一个例子。

我们希望有一种更好的模型，能让我们控制住输出的图片是长什么样的，也就是在生成图片过程中每一级的特征，要能够特定决定生成图片某些方面的表象，并且相互间的影响尽可能小。于是，在 PPGAN 的基础上，StyleGAN 作出了进一步的改进与提升。

2.2.1.4 PPGAN的TF实现

import matplotlib.pyplot as plt
import tensorflow as tf
import tensorflow_hub as hub
 
with tf.Graph().as_default():
    # 提前从TFHub导入PGGAN
    module = hub.Module("progan-128_1")
    #运行时采样的维度
    latent_dim = 512
 
    # 改变种子得到不同的人脸
    latent_vector = tf.random.normal([1, latent_dim], seed=1337)
 
    # 使用该模块从潜在空间生成图像
    interpolated_images = module(latent_vector)
 
    # 运行Tensorflow session 得到（1，128，128，3）的图像
    with tf.compat.v1.Session() as session:
      session.run(tf.compat.v1.global_variables_initializer())
      image_out = session.run(interpolated_images)
 
plt.imshow(image_out.reshape(128,128,3))
plt.show()

2.2.2 StyleGAN：基于样式的生成对抗网络

参考：

论文A Style-Based Generator Architecture for Generative Adversarial Networks

《StyleGAN 架构解读（重读StyleGAN ）精细》

PGGAN的问题：控制生成图像特定特征的能力有限。以下图来说：

图a表示，假设真实数据中有两个人脸特征，x轴越往左表示越man；y轴越往上表示头发越长。一般认为不存在头发长又很man的人，所以左上角区域是不存在的。
b图表示噪声分布，噪声一般是从简单对称分布中取出，所以其区域是一个圆形。为了填补左上角空缺，就会对特征分布做一个扭曲。这样当图片向量仅仅改变一个维度时，输出图片的多个特征都会变化，这就是特征纠缠现象。
c图表示，StyleGAN引入映射网络之后，会拟合真实数据分布的形状，缓解特征纠缠。

2.2.2.1 StyleGAN 总览

StyleGAN 用风格（style）来影响人脸的姿态、身份特征等，用噪声 ( noise ) 来影响头发丝、皱纹、肤色等细节部分。StyleGAN 的网络结构包含两个部分：映射网络Mapping network和Synthesis network。
Mapping network，即下图 (b)中的左部分，由隐藏变量 z 生成中间隐藏变量 w的过程，这个 w 就是用来控制生成图像的style，即风格。
Synthesis network，它的作用是生成图像，创新之处在于给每一层子网络都喂了 A 和 B，A 是由 w 转换得到的仿射变换，用于控制生成图像的风格，B 是转换后的随机噪声，用于丰富生成图像的细节，即每个卷积层都能根据输入的A来调整"style"，通过B来调整细节。
整个网络结构还是保持了 PG-GAN （progressive growing GAN）的结构。最后论文还提供了一个高清人脸数据集FFHQ。

架构解读：
StyleGAN 首先重点关注了 ProGAN 的生成器网络，它发现，渐进层的一个的好处是，如果使用得当，它们能够控制图像的不同视觉特征。层和分辨率越低，它所影响的特征就越粗糙。简要将这些特征分为三种类型：

1、粗糙的——分辨率不超过82，影响姿势、一般发型、面部形状等；
2、中等的——分辨率为162至322，影响更精细的面部特征、发型、眼睛的睁开或是闭合等；
3、高质的——分辨率为642到10242，影响颜色（眼睛、头发和皮肤）和微观特征。

然后，StyleGAN 就在 ProGAN 的生成器的基础上增添了很多附加模块以实现样式上更细微和精确的控制。

2.2.2.2 映射网络：为输入向量的特征解缠提供一条学习的通路

StyleGAN的第一点改进是:Mapping network 对隐藏空间（latent space）进行解耦,缓解特征纠缠。Generator的输入加上了由8个全连接层组成的Mapping Network，并且 Mapping Network 的输出W′与输入层Z（512×1）的形状大小相同。中间向量W′（或者叫潜在因子）后续会传给生成网络得到 18 个控制向量，使得该控制向量的不同元素能够控制不同的视觉特征。
如果不加这个 Mapping Network 的话，后续得到的 18个控制向量之间会存在特征纠缠的现象——比如说我们想调节 8*8 分辨率上的控制向量（假设它能控制人脸生成的角度），但是我们会发现 32*32 分辨率上的控制内容（譬如肤色）也被改变了，这个就叫做特征纠缠。所以 Mapping Network 的作用就是为输入向量的特征解缠提供一条学习的通路。
为何 Mapping Network 能够学习到特征解缠呢？简单来说，如果仅使用输入向量来控制视觉特征，能力是非常有限的，因此它必须遵循训练数据的概率密度。例如，如果黑头发的人的图像在数据集中更常见，那么更多的输入值将会被映射到该特征上。因此，该模型无法将部分输入（向量中的元素）映射到特征上，这就会造成特征纠缠。然而，通过使用另一个神经网络，该模型可以生成一个不必遵循训练数据分布的向量，并且可以减少特征之间的相关性。

2.2.2.3 Synthesis network样式模块：AdaIN精确控制样式信息，而保留图片的关键信息

StyleGAN第二点改进是，将特征解缠后的中间向量W′变换为样式控制向量，从而参与影响生成器的生成过程。AdaIN表示自适应实例归一化。

实例归一化是上图Instance Norm中，对蓝色部分进行归一化。每个batch中只取一个样本，计算其在每个通道上的均值 $\mu (x)$ 和标准差 $\sigma (x)$ ，γ和β表示缩放因子和偏置。自适应归一化AdaIN是其变体。

上图右下是风格迁移任务的网络示意图，我们希望上面实景图有下面那张漫画图的风格。论文实验发现，在实例归一化中，将实景图的γ和β换成漫画图的均值和标准差，最终会取得比较好的风格迁移效果。这就是自适应归一化的过程。StyleGAN就借鉴了这一种思路。

风格迁移任务更多细节，可以参考我另一篇帖子：《动手深度学习13：计算机视觉——语义分割、风格迁移》

AdaIN 的具体实现过程如上右图所示：将潜在因子W′通过一个可学习的仿射变换A（简单理解就是一个全连接层）后输出，输出扩大为原来的两倍（2×n），分别作为缩放因子 $y_{s,i}$ 和偏差因子 $y_{b,i}$ 。输入 $x_i$ 进过标准化（减均值除方差）后，与两个因子进行AdaIN，就完成了一次W′影响原始输出 $x_i$ 的过程。
AdaIN 代码见左下，W′经过FC层之后变成原来两倍，reshape成前后两部分。这两部分分别作为两个因子，最后 $x=y_{s,i}*x+y_{b,i}$ 。（x在AdaIN之前先标准化）

生成器从分辨率4*4，变换到 8*8，并最终到 1024*1024，一共由 9 个生成阶段组成，而每个阶段都会受两个控制向量（A）对其施加影响。其中一个控制向量在 Upsample之后对其影响一次，另外一个控制向量在 Convolution 之后对其影响一次，影响的方式都采用 AdaIN。因此，中间向量W′总共被变换成 18 个控制向量（A）传给生成器。
这种影响方式能够实现样式控制，主要是因为它让变换后的W′影响图片的全局信息（注意标准化抹去了对图片局部信息的可见性），而保留生成人脸的关键信息由上采样层和卷积层来决定，因此W′只能够影响到图片的样式信息。

2.2.2.4 常数输入(ConstantInput)

上图左侧网络表示传统的GAN网络输入是一个随机变量或者隐藏变量 z，右侧表示Synthesis network中最开始的输入变成了常数张量。
既然 StyleGAN 生成图像的特征是由 ′ 和 AdaIN 控制的，那么生成器的初始输入可以被忽略，并用常量值4×4×512输入替代（分辨率，通道数）。这样做的理由是，首先可以降低由于初始输入取值不当而生成出一些不正常的照片的概率（这在 GANs 中非常常见），另一个好处是它有助于减少特征纠缠，对于网络在只使用 ′ 不依赖于纠缠输入向量的情况下更容易学习。
左下代码是将input先定义为[batch_size=1,channel,size,size]，然后获取实际输入的batch_size，再对其进行铺开（tile函数），最终得到[input_batch_size,512,4,4]的输入。

2.2.2.5 噪声输入改进

人脸很多小特征是随机性的，比如头发、皱纹、雀斑；不同时间、角度、地点都可能发生变化。将这些小特征插入 GAN 图像的常用方法是在输入向量中添加随机噪声（即通过在每次卷积后添加噪声）。为了控制噪声仅影响图片样式上细微的变化， StyleGAN 采用类似于 AdaIN 机制的方式添加噪声。
噪声输入是由不相关的高斯噪声组成的单通道数据，它们被馈送到生成网络的每一层。即在 AdaIN 模块之前向每个通道添加一个缩放过的噪声，并稍微改变其操作的分辨率级别特征的视觉表达方式。加入噪声后的生成人脸往往更加逼真与多样。
左下代码中weight表示可学习的缩放因子，初始化shape=1，value=0。noise从高斯分布中取得。
风格影响的是整体（改变姿势、身份等），噪音影响无关紧要的随机变化（头发、胡须等）

2.2.2.6 混合正则化

StyleGAN 生成器在合成网络的每个层级中都使用了潜在因子，这有可能导致网络学习到这些层级是相关的。为了降低关联性，一个简单的想法是使用不同的潜在因子。论文中采用随机选择两个输入向量，映射后生成了两个潜在因子 ′ 。然后在所有网络层级中随机选取一个点，这个点之前的层级使用第一个它用第一个 ′，之后的层级使用第二个 ′。随机的切换确保了网络不会学习并依赖于一个合成网络级别之间的相关性。下图代码中inject_index表示随机选取的点。

混合正则化并不会提高所有数据集上的模型性能，但是它能够以一种连贯的方式来组合多个图像。该模型生成了两个图像 A 和 B（第一行的第一张图片和第二行的第一张图片），然后通过从 A 中提取低级别的特征并从 B 中提取其余特征再组合这两个图像，这样能生成出混合了 A 和 B 的样式特征的新人脸。

Source A:gender,age,hair length,glasses,pose
Source B: everything else

根据交叉点选取位置的不同，style组合的结果也不同。下图中分为三个部分，

第一部分是 Coarse styles from source B，分辨率(4x4 - 8x8)的网络部分使用B的style，其余使用A的style, 可以看到图像的身份特征随souce B，但是肤色等细节随source A；

第二部分是 Middle styles from source B，分辨率(16x16 - 32x32)的网络部分使用B的style，这个时候生成图像不再具有B的身份特性，发型、姿态等都发生改变，但是肤色依然随A；

第三部分 Fine from B，分辨率(64x64 - 1024x1024)的网络部分使用B的style，此时身份特征随A，肤色随B。

由此可以大致推断，低分辨率的style 控制姿态、脸型、配件比如眼镜、发型等style，高分辨率的style控制肤色、头发颜色、背景色等style。

2.2.3 StyleGAN 2

参考：

论文《Analyzing and Improving the Image Quality of StyleGAN》

《StyleGAN2学习笔记》、代码

2.2.3.1 消除伪影

StyleGAN 中，通过AdaIN实现特征解耦和风格控制，但是会带来水印问题，即生成的图片有水滴状伪影，在特征图上很明显。在StyleGAN2中，AdaIN被重构为权重解调(Weight Demodulation)。

下图左侧是StyleGAN 结构，右图是StyleGAN2结构，可以看出：

移除初期常数
normalization中不再需要mean，只计算std即可
将noise模块移除style box中

第二个不同是权重解调。Mod表示可学习的放射变换A，Std表示除以标准差。StyleGAN中把mod std和卷积Conv参数结合在一起，即下图蓝色框的公式。权重解调就是对权重做归一化，即红色框的式子。StyleGAN2认为AdaIN的做法有问题，所以把AdaIN去掉了，而是使用权重归一化。即对i,j,k是三个维度归一化。这样做之后，伪影就都消除了。
尽管这种方式与Instance Norm在数学上并非完全等价，但是weight demodulation同其它normalization 方法一样，使得输出特征图有着standard的unit和deviation。

代码如下：

modelation是可学习的放射变换（FC层），scale是和weight形状有关的一个固定值，style是仿射变换之后的潜在因子。demodulate就是解调部分，rsqrt(x)就是x平方的导数。加一个小的ϵ 是为了避免分母为0，保证数值稳定性

2.2.3.2 改进渐进式增长网络结构

StyleGAN2作者发现，生成图片时，部分细节不随主体变化而变化。例如下图的牙齿，在人脸变化后还是保持不变。作者认为在逐步增长的过程中，每个分辨率都会瞬间用作输出分辨率，迫使其生成最大频率细节，然后导致受过训练的网络在中间层具有过高的频率。神经网络中要产生细节充足和高频率的图片，那么网络的参数频率也要很高，从而损害了位移不变性。
作者根据MSG-GAN设计了b和c两种结构，解决了这个问题。（实验中人脸的眼珠子会转了，牙齿也会变化）

在生成方法的背景下，Skip connections，残差网络和分层方法也被证明是非常成功的。三种生成器（虚线上方）和判别器体系结构如上图。Up和Down分别表示双线性上和下采样。在残差网络中，这些还包括1×1卷积以调整特征图的channel数。tRGB和fRGB在RGB和高维每像素数据之间转换。 Config E和F中使用的体系结构以绿色突出显示。

我们可以看到，从一开始，网络就专注于低分辨率图像，并随着训练的进行逐渐将其注意力转移到较大分辨率上。

在（a）中，生成器基本上输出512x512图像，并对1024x1024进行一些细微锐化。
在（b）中，较大的网络更多地关注高分辨率细节。通过将两个网络的最高分辨率层中的特征图的数量加倍来进行测试，这使行为更加符合预期。图（b）显示了贡献的显著增加。

总结

使用Weight demodulation代替AdaIN
发现PPL与生成图像质量的关系（略）
去除渐进式网络，在生成器和判别其中采用不同的网络结构

2.2.3.3 StyleGAN2的应用体验

应用体验教程参考：StyleGAN V2
使用方法：

用户使用如下命令中进行生成，可通过替换seed的值或去掉seed生成不同的结果：

cd applications/
python -u tools/styleganv2.py \
       --output_path <替换为生成图片存放的文件夹> \
       --weight_path <替换为你的预训练模型路径> \
       --model_type ffhq-config-f \
       --seed 233 \
       --size 1024 \
       --style_dim 512 \
       --n_mlp 8 \
       --channel_multiplier 2 \
       --n_row 3 \
       --n_col 5 \
       --cpu

weight_path可以不设置，会默认下载已经训练好的权重。

训练模型、推理（略）

2.3 PaddleGAN的使用

参考《PaddleGAN》

关于PaddleGAN的代码、各种应用，可以参考github资源上的教程，例如：

或者有时间我会再写个应用的笔记。

三、day3：图像翻译及人像卡通化

3.1 背景介绍

卡通画一直以幽默、风趣的艺术效果和鲜明直接的表达方式为大众所喜爱。近年来，随着多部动漫电影陆续成为现象级爆款，越来越多的人开始在社交网络中使用卡通画作为一种表意的文化载体。人们对于定制卡通画的需求与日俱增，然而高质量的卡通画需要经验丰富的画师精心绘制，从线稿设计到色彩搭配，整个流程耗时费力，对于大众而言购买成本较高。（淘宝上这种服务的店铺众多）
定制卡通画痛点：耗时长、成本高、要求高的话可能需要反复沟通修改、涉及隐私。
计算机生成卡通画任务要点：图像精美好看、男女老少都覆盖且保留其鲜明特点、卡通画和原照片有相同的身份信息(长得像）。

图像翻译：指从一副图像到另一副图像的转换。可以类比机器翻译，一种语言转换为另一种语言。下图就是一些典型的图像翻译任务：比如语义分割图转换为真实街景图，灰色图转换为彩色图，白天转换为黑夜…（Pixel2Pixel的效果图，下面会讲到）：

图像翻译的三个比较经典的模型pix2pix，pix2pixHD, vid2vid。可参考《图像翻译三部曲：pix2pix, pix2pixHD, vid2vid》

本课任务就是将人物画翻译为动漫画。

3.2 技术原理

鉴别器可以当做是一种可自行优化的损失函数，训练完生成器就可以丢掉了。
GAN中的噪声是随机的，无法控制生成器生成哪一种特征的图片。所以提出了Conditional GAN。

3.2.1 Conditional GAN

论文：《Conditional Generative Adversarial Nets》、代码

Conditional GAN希望可以控制GAN 生成的图片，而不是单纯的随机生成图片。具体地，Conditional GAN 在生成器和判别器的输入中增加了额外的条件信息y，生成器生成的图片只有足够真实且与条件y相符，才能够通过判别器。
条件信息y，可以是类别标签或者是其他类型的数据，使得图像生成能够朝规定的方向进行。

网络模型：

在生成器中，作者将输入噪声 z 和 y 连在一起隐含表示，而对抗性训练框架在如何构成这种隐藏表示上具有相当大的灵活性。
损失函数：和GAN区别是，在在生成器和判别器都加入条件信息y。

论文在MNIST数据集上结果：（类别标签的one-hot编码作为条件信息y，控制生成的数字）

Conditional GAN的想法在各方面的细节上，比如条件y的具体内容（类别标签、实际的图片…），生成器、判别器中条件y的表示方式，判别器的打分方式（真实度和条件符合度放在一起打还是分开来打）等，有各种实现形式，因而延伸出了丰富的应用。：text-to-image（文本生成图像）、image-to-image（图像转换）、Speech Enhancement（语音增强）、Video Generation（视频生成）等。
结合人像卡通画任务考虑，如果条件信息是一张卡通画，输入真实照片能不能引导模型输出人像卡通画呢？

3.2.2 pixel2pixel

论文《Image-to-Image Translation with Conditional Adversarial Networks》、代码
更多原理参考《图像翻译三部曲：pix2pix, pix2pixHD, vid2vid》

pix2pix是一个经典的图像翻译模型,使用成对数据进行训练。

模型使用的训练数据是真实人像以及画师画的对应人像卡通画（像素级对应）。真人像要收集不同光照、姿态表情的图像，提高鲁棒性。真人像好收集，数据量较大。
生成器输入是真人照片，输出是卡通画，输入输出图片轮廓位置信息相同，采用的结构是U-Net，适合传递位置信息。
判别器输入类似Conditional GAN，是将真人照和卡通画在通道维度拼接，然后判断卡通画是真实的还是生成的，以及判断真人照和卡通画是否相符（成对）。
判别器采用Patch GAN，输出是一个单通道的特征图，而不是GAN中的一个判断真假的概率值。特征图中每个元素值表示卡通图每个小区域的逼真程度，Pacth就是块的意思。
损失函数采用L1l oss，用真实卡通画约束生成卡通画

pixel2pixel可用于生成街景、建筑物、黑白图→彩色图、线稿→实物等等（见上一节效果图）。
有些任务的成对数据是容易收集的，比如用技术手段将很多彩色图转为少见的黑白图，扩大了黑白图数据的规模，这样黑白-彩色成对数据就容易收集了。但是有些任务的成对数据很难通过简单的技术手段收集。CycleGAN就是一种基于非成对数据的图像翻译方法。

这里解释一下成对数据和非成对数据：
成对数据：两组数据有相似度级别的对应，比如图片的风格和纹理可以不同，但是位置信息要是一致的，比如脸型、五官等空间信息一致。成对数据一般获取难度较大。

3.2.3 CycleGAN

论文：《Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks》、代码

简单来说， CycleGAN功能就是：自动将某一类图片转换成另外一类图片。CycleGAN不需要配对的训练图像。当然了配对图像也完全可以，不过大多时候配对图像比较难获取。所以CycleGAN可以做配对图像转换，也可以做图像从一个模式到另外一个模式的转换，转换的过程中，物体发生了改变，比如从猫到狗，从男人到女人。

CycleGAN结构如下：

CycleGAN其实是由两个判别器(Dx和Dy)以及两个生成器(G和F）组成。

G将X域图像映射到Y域，本任务就是真人照映射到卡通画
F将Y域图像映射到X域，本任务就是卡通画映射到真人照
Dx和Dy分别判断两个域的图像的真假。
b、c是模型的两个部分，都是将输入x转换过去又转换回来，生成新的图像。通过输入输出图像的loss（L1或L2都行）约束生成图像在结构上不发生大的变化。
为什么要连两个生成器和两个判别器呢？论文中说，是为了避免所有的X都被映射到同一个Y，比如所有男人的图像都映射到范冰冰的图像上，这显然不合理，所以为了避免这种情况，论文采用了两个生成器的方式，既能满足X->Y的映射，又能满足Y->X的映射，这一点其实就是变分自编码器VAE的思想，是为了适应不同输入图像产生不同输出图像

CycleGAN虽然可以使用非成对数据训练，但是两个域的目标要规定好，即每个域的图像要具有一定的规则。比如X域图像都是油画，风格越统一越好。
CycleGAN缺陷：缺少有监督信息（pixel2pixel有成对数据，位置信息对应），所以需要的数据量会更多，收敛也更慢。

代码链接《CycleGAN算法原理（附源代码，可直接运行）》

3.2.4 U-GAT-IT

论文《U-GAT-IT: UNSUPERVISED GENERATIVE ATTENTIONAL NETWORKS WITH ADAPTIVE LAYERINSTANCE NORMALIZATION FOR IMAGE-TO-IMAGE TRANSLATION》、代码

U-GAT-IT接近本次人像生成动漫画的任务，结构继承了CycleGAN的设计，也是有两个生成器和判别器，下图简化，只展示一个生成器；而loss有四种。

生成器中，编码器提取输入图像特征，解码器将特征转为动漫图。
GAN loss，是为了消除模糊，使图像更精美，分辨率更高。
Cycle loss：输入转为动漫图再转回来，用L1 loss约束转换前后的图像，使生成的图像结构不发生大的变化。
Identity loss：输入输出都是动漫图，约束输入输出颜色尽量相似
CAM loss：二分类loss。编码器提取特征后有一个网络分支，特征输入全连接层做一个分类任务（真人or动漫）。全连接层权重拿出乘以特征权重，类似attention机制，注意力放在需要重点关注的特征上。

U-GAT-IT论文一大贡献是AdaLIN，自适应实例归一化。输入是解码器各层特征，经过IN和LN之后使用可学习的ρ加权求和，然后使用MLP提取的统计特征γ和β来归一化。作者发现IN更关注内容信息，LN更关注全局信息，ρ可以自动调整二者比重。

以下是U-GAT-IT的一些应用举例，对比CycleGAN有比较明显的提升。

U-GAT-IT的缺点是转换为比较夸张的漫画之后，无法辨认出漫画的真实身份信息。要保留身份信息，实现写实风格的卡通画，有以下难点：
卡通图像往往有清晰的边缘，平滑的色块和经过简化的纹理，与其他艺术风格有很大区别。使用传统图像处理技术生成的卡通图无法自适应地处理复杂的光照和纹理，效果较差；基于风格迁移的方法无法对细节进行准确地勾勒。 (如果使用传统图像处理技术，模型鲁棒性会比较差。因为我们会人为加一些阈值、设定的规则或者自己设计的参数，这样在复杂的光线或背景的场景下容易失控。基于神经网络的风格迁移算法在风景、建筑等宏观场景比较适用。而人像处理的风格化要求比较精细，眼睛多一笔少一笔最终观感影响很大）
数据获取难度大。绘制风格精美且统一的卡通画耗时较多、成本较高，且卡通画和原照片的脸型及五官形状有差异，因此不构成像素级的成对数据，难以采用基于成对数据的图像翻译（Paired Image Translation）方法。
照片卡通化后容易丢失身份信息。基于非成对数据的图像翻译（Unpaired Image Translation）方法中的循环一致性损失（Cycle Loss）无法对输入输出的ID进行有效约束。（CycleGAN只能保证输入输出形状不发生明显变化，但是无法有效约束五官位置形状等）

解决方法：Photo2Cartoon

3.2.5 Photo2Cartoon

3.2.5.1 Photo2Cartoon模型结构

Photo2Cartoon生成器有以下三个部分：

特征提取：提取真人图像不同尺度的特征；
特征融合：不同尺度特征和高层特征融合，反归一化到解码特征中；
特征重建：解码器将融合特征重建为卡通形象。

Photo2Cartoon希望既可以生成精美的卡通画，又可以保留身份信息可以识别，所以做了三个设计：
在输入输出部分都加了两个Hourglass 模块，强化特征提取和重建，用于提取内容不变性的特征；
Face ID Loss：约束卡通画的身份信息。使用预训练的人脸模型，提取输入输出的ID特征，并用余弦距离进行约束。实验中Face ID Loss可以明显提升五官相似性。
Soft-AdaLIN：为了更好的利用不同尺度的编码特征，将不同尺度编码特征和高层CAM特征融合，再应用于解码特征中。底层特征中有丰富的纹理、色彩等信息，这样做可以更好的将照片信息迁移到卡通画上。

3.2.5.2 递进训练

Photo2Cartoon生产落地时，面临多种多样的人脸数据。在绘制训练数据时，需要为不同类型的人群设计不同的风格。比如小朋友可以加红晕，更可爱。女青年睫毛更长，男性有胡须，老年人皱纹更明显。如果这些数据混合训练，会导致最终输出风格不确定。（比如输入短发女生，可能会匹配到男性风格，用户体验差）

如果分开训练，由于数据获取成本高，每个类别数据量更少。所以采用了递进训练，这样即使某一类数据匮乏，也能得到很好的训练效果。训练过程如下：

先所有数据混合训练，得到基础模型
根据年龄将数据分为少年、青年、老年三个部分，基于基础模型分别训练三个模型；
进一步加入性别信息，基础之前的三个模型训练出6个模型。
模型推断时，先收集用户的年龄、性别属性，再使用对应的模型进行输出。

3.2.5.3 效果展示和扩展应用

对比其它模型的结果：（精美程度和ID相似度都更胜一筹）

基于Photo2Cartoon的扩展应用：

3.3 卡通化实战

3.3.1 Pixel2Pixel实现人像卡通化

项目地址《Pixel2Pixel：人像卡通化》

在AI Studio中搜索卡通，有四个数据集,第一个就是人像卡通化数据集。

数据准备：

Pixel2Pixel需要成对数据训练，卡通画没有找画师画，而是photo2cartoon生成的真实照片对应的卡通画。由于是有监督训练，收敛很快。

真人数据来自seeprettyface(AI生成的照片）
数据预处理（详情见photo2cartoon项目）

生成对抗网络，从DCGAN到StyleGAN、pixel2pixel，人脸生成和图像翻译。_第60张图片

使用photo2cartoon项目生成真人数据对应的卡通数据。

数据预处理：

将图像数据转换为标准形式；
检测人脸、关键点。根据关键点对人脸进行旋转校正；
根据人像分割模型，去除背景并填充为白色。

其它代码内容请参考《Pixel2Pixel：人像卡通化》

3.3.2 Photo2cartoon

项目地址：Photo2cartoon

3.3.2.1 测试、推理

安装ppgan、dlib、scikit-image

%cd /home/aistudio/work/
!git clone https://gitee.com/hao-q/PaddleGAN.git
%cd PaddleGAN/
!pip install -v -e .

!pip install dlib -t /home/aistudio/external-libraries
!pip install scikit-image -t /home/aistudio/external-libraries

# 导入依赖库
import sys 
sys.path.append('/home/aistudio/external-libraries')


import os
import cv2
import numpy as np
import matplotlib.pyplot as plt
from ppgan.apps import Photo2CartoonPredictor

# 下载测试图片
!wget https://raw.fastgit.org/minivision-ai/photo2cartoon-paddle/master/images/photo_test.jpg -P /home/aistudio/work/imgs

img_src = plt.imread('../imgs/photo_test.jpg')

plt.imshow(img_src)
plt.show()

# 测试
p2c = Photo2CartoonPredictor()
output = p2c.run('../imgs/photo_test.jpg')#使用Photo2CartoonPredictor的run方法得到卡通化结果
#查看测试效果
plt.figure(figsize=(10, 10))
img_input = plt.imread('./output/p2c_photo.png')
img_output = plt.imread('./output/p2c_cartoon.png')

img_show = np.hstack([img_input, img_output])
plt.imshow(img_show)
plt.show()

3.3.2.2 训练

训练过程如下：

从aistudio数据集中导入人像卡通化数据集。
将数据解压并放置在PaddleGAN/data路径下
设置训练参数configs/ugatit_photo2cartoon.yaml
开始训练

代码如下：

# 解压数据至PaddleGAN/data/
!unzip -q /home/aistudio/data/data68045/photo2cartoon_dataset.zip -d /home/aistudio/work/PaddleGAN/data/

# 训练数据统计
trainA_names = os.listdir('data/photo2cartoon/trainA')
print(f'训练集中真人照数据量: {len(trainA_names)}')

trainB_names = os.listdir('data/photo2cartoon/trainB')
print(f'训练集中卡通画数据量: {len(trainB_names)}')

testA_names = os.listdir('data/photo2cartoon/testA')
print(f'测试集中真人照数据量: {len(testA_names)}')

testB_names = os.listdir('data/photo2cartoon/testB')
print(f'测试集中卡通画数据量: {len(testB_names)}')

# 训练数据可视化
img_A = []
for img_name in np.random.choice(trainA_names, 5, replace=False):
    img_A.append(cv2.resize(cv2.imread('data/photo2cartoon/trainA/'+img_name), (256,256)))

img_B = []
for img_name in np.random.choice(trainB_names, 5, replace=False):
    img_B.append(cv2.resize(cv2.imread('data/photo2cartoon/trainB/'+img_name), (256,256)))

img_show = np.vstack([np.hstack(img_A), np.hstack(img_B)])[:,:,::-1]
plt.figure(figsize=(20, 20))
plt.imshow(img_show)
plt.show()

# 一行代码开始训练
!python -u tools/main.py --config-file configs/ugatit_photo2cartoon.yaml

你可能感兴趣的:(paddle,生成对抗网络,深度学习,机器学习)

【Python】一文详细介绍 py格式文件高斯小哥 Python基础【高质量合集】python 新手入门学习
【Python】一文详细介绍py格式文件个人主页：高斯小哥高质量专栏：Matplotlib之旅：零基础精通数据可视化、Python基础【高质量合集】、PyTorch零基础入门教程希望得到您的订阅和支持~创作高质量博文(平均质量分92+)，分享更多关于深度学习、PyTorch、Python领域的优质内容！（希望得到您的关注~）文章目录一、py格式文件简介二、如何创建和编辑py格式文件三、如何运行py
大创项目推荐深度学习 opencv python 公式识别(图像识别机器视觉) laafeer python
文章目录0前言1课题说明2效果展示3具体实现4关键代码实现5算法综合效果6最后0前言优质竞赛项目系列，今天要分享的是基于深度学习的数学公式识别算法实现该项目较为新颖，适合作为竞赛课题方向，学长非常推荐！学长这里给一个题目综合评分(每项满分5分)难度系数：3分工作量：4分创新点：4分更多资料,项目分享：https://gitee.com/dancheng-senior/postgraduate1课题
ES-LTR粗排模块 poins jenkins 运维
ES-LTR粗排模块官方资源：https://github.com/HeiBoWang/elasticsearch-learning-to-rankElasticsearch学习排名插件使用机器学习提高搜索相关性排名。它为维基媒体基金会和Snagajob等地方的搜索提供了动力！这个插件有什么功能此插件：允许您在Elasticsearch中存储特征（Elasticsearch查询模板）记录特征得分（
python清华大学出版社答案_Python机器学习及实践 weixin_39805119 python清华大学出版社答案
第1章机器学习的基础知识1.1何谓机器学习1.1.1传感器和海量数据1.1.2机器学习的重要性1.1.3机器学习的表现1.1.4机器学习的主要任务1.1.5选择合适的算法1.1.6机器学习程序的步骤1.2综合分类1.3推荐系统和深度学习1.3.1推荐系统1.3.2深度学习1.4何为Python1.4.1使用Python软件的由来1.4.2为什么使用Python1.4.3Python设计定位1.4.
UNDERSTANDING HTML WITH LARGE LANGUAGE MODELS liferecords LLM 语言模型人工智能自然语言处理
UNDERSTANDINGHTMLWITHLARGELANGUAGEMODELS相关链接：arXiv关键字：大型语言模型、HTML理解、Web自动化、自然语言处理、机器学习摘要大型语言模型（LLMs）在各种自然语言任务上表现出色。然而，它们在HTML理解方面的能力——即解析网页的原始HTML，对于自动化基于Web的任务、爬取和浏览器辅助检索等应用——尚未被充分探索。我们为HTML理解模型（经过微调
深度学习项目-基于深度学习的股票价格预测研究雅致教育计算机毕业设计深度学习人工智能
概要随着经济的发展，中国股票市场的规模持续扩大，早已成为金融投资的重要部分，掌握股票市场的变化规律无论是对监管者还是投资者都具有极其重要的意义。正因如此，人们不断探索着股票市场的变化规律，其中使用深度学习预测股价是当前国内国际研究与应用的热点。本文首先从有效市场假说和分形市场假说两个角度讨论了中国股票市场的有效性，说明股票市场具有复杂的非线性特征。其次，结合股票市场特征对比了当前的预测方法
ChatGPT技巧大揭秘：AI写代码新境界 2401_83550420 chatgpt4.0 chatgpt chatgpt 人工智能 AI写作
ChatGPT无限次数:点击直达ChatGPT技巧大揭秘：AI写代码新境界随着人工智能技术的不断进步，开发人员现在有了更多有趣的工具来提高他们的工作效率。其中，ChatGPT作为一种基于深度学习的自然语言处理模型，已经成为许多开发者的新宠。在本文中，我们将揭秘使用ChatGPT来帮助编写代码的技巧，探索AI在编程领域的新境界。ChatGPT简介ChatGPT是一种基于大型神经网络的对话生成模型，它
AI大模型学习：开启智能时代的新篇章游向大厂的咸鱼人工智能学习
随着人工智能技术的不断发展，AI大模型已经成为当今领先的技术之一，引领着智能时代的发展。这些大型神经网络模型，如OpenAI的GPT系列、Google的BERT等，在自然语言处理、图像识别、智能推荐等领域展现出了令人瞩目的能力。然而，这些模型的背后是一系列复杂的学习过程，深度学习技术的不断演进推动了AI大模型学习的发展。首先，AI大模型学习的基础是深度学习技术。深度学习是一种模仿人类大脑结构的机器
【Python】成功解决ModuleNotFoundError: No module named ‘torchinfo‘ 高斯小哥 BUG解决方案合集 python pytorch 新手入门学习 debug
【Python】成功解决ModuleNotFoundError:Nomodulenamed‘torchinfo’个人主页：高斯小哥高质量专栏：Matplotlib之旅：零基础精通数据可视化、Python基础【高质量合集】、PyTorch零基础入门教程希望得到您的订阅和支持~创作高质量博文(平均质量分92+)，分享更多关于深度学习、PyTorch、Python领域的优质内容！（希望得到您的关注~）文
OpenCV（一个C++人工智能领域重要开源基础库）简介愚梦者 OpenCV 人工智能人工智能 opencv c++图像处理计算机视觉开源
返回：OpenCV系列文章目录（持续更新中......）上一篇：OpenCV4.9.0配置选项参考下一篇：OpenCV4.9.0开源计算机视觉库安装概述引言：OpenCV（全称OpenSourceComputerVisionLibrary）是一个基于开放源代码发行的跨平台计算机视觉库，可以用来进行图像处理、计算机视觉和机器学习等领域的开发。该库由英特尔公司于1999年开始开发，最初是为了加速处理器
【循环神经网络rnn】一篇文章讲透 CX330的烟花 rnn 人工智能深度学习算法 python 机器学习数据结构
目录引言二、RNN的基本原理代码事例三、RNN的优化方法1长短期记忆网络（LSTM）2门控循环单元（GRU）四、更多优化方法1选择合适的RNN结构2使用并行化技术3优化超参数4使用梯度裁剪5使用混合精度训练6利用分布式训练7使用预训练模型五、RNN的应用场景1自然语言处理2语音识别3时间序列预测六、RNN的未来发展七、结论引言众所周知，CNN与循环神经网络（RNN）或生成对抗网络（GAN）等算法结
零基础机器学习(5)之线性回归模型的性能评估一只特立独行猪机器学习机器学习线性回归人工智能
文章目录线性回归模型的性能评估1.举例1-单一特征2.举例2-多特征线性回归模型的性能评估评估线性回归模型时，首先要建立评估的测试数据集（测试集不能与训练集相同），然后选择合适的评估方法，实现对线性回归模型的评估。回归任务中最常用的评估方法有均方误差、均方根误差和预测准确率（确定系数）。1.举例1-单一特征分别对两个模型进行评估，输入的测试集如表所示。面积/（m2）售价/（万元）面积/（m2）售价
ChatGPT神技：AI成为你的编程良友 2401_83481083 chatgpt4.0 chatgpt chatgpt 人工智能 AI写作
ChatGPT无限次数:点击直达ChatGPT神技：AI成为你的编程良友近年来，人工智能技术的发展迅猛，ChatGPT作为其中一项创新技术，正逐渐走进我们的生活。在编程领域，AI不仅可以助力我们提高效率，还能成为我们的良友，帮助解决各种编程难题。一、ChatGPT简介ChatGPT是一种基于自然语言处理技术的人工智能模型，它能够生成类人对话。ChatGPT通过深度学习模型，能够理解输入的文本并生成
深度学习如何入门？科学的N次方深度学习
入门深度学习需要系统性的学习和实践经验积累，以下是一份详细的入门指南，包含了关键的学习步骤和资源：预备知识：•编程基础：熟悉Python编程语言，它是深度学习领域最常用的编程语言。确保掌握变量、条件语句、循环、函数等基本概念，并学习如何使用Python处理数据和文件操作。•数学基础：理解线性代数（矩阵运算、向量空间等）、微积分（导数、梯度求解等）、概率论与统计学（期望、方差、概率分布、最大似然估计
深度学习与（复杂系统）事物的属性科学禅道深度学习模型专栏深度学习人工智能
深度学习与复杂系统中事物属性的关系体现在：特征学习与表示:深度学习通过多层神经网络结构，能够自动从原始输入数据中学习和提取出丰富的特征表示。每一层神经网络都可能对应着事物属性的不同抽象层次，底层可能对应简单直观的属性，而随着网络深度的增加，顶层可以学习到更抽象、复杂的属性及其相互关系。非线性关系建模:深度学习特别擅长处理非线性关系，而在复杂系统中，事物属性间的相互作用往往表现为非线性，例如，某些属
智合同如何助力建筑行业合同智能化管理智合同（小智）合同智能应用 AI技术降本增效提质人工智能自然语言处理知识图谱深度学习大数据
#建筑行业#人工智能#AI#合同智能应用#深度学习#自然语言处理技术#知识图谱智合同-采用深度学习、自然语言处理技术、知识图谱等人工智能技术，为企业提供专业的合同相关的智能服务。其主要服务包含：合同智能审查、合同要素智能提取、合同版本对比、合同智能起草、ICR智能识别、合同履约追踪、文本一致性对比、广告审查、合同范本库等服务。智合同在助力建筑行业合同智能化管理方面具有显著的优势。首先，智合同利用A
神经网络（深度学习，计算机视觉，得分函数，损失函数，前向传播，反向传播，激活函数） MarkHD 深度学习神经网络计算机视觉
神经网络，特别是深度学习，在计算机视觉等领域有着广泛的应用。以下是关于你提到的几个关键概念的详细解释：神经网络：神经网络是一种模拟人脑神经元结构的计算模型，用于处理复杂的数据和模式识别任务。它由多个神经元（或称为节点）组成，这些神经元通过权重和偏置进行连接，并可以学习调整这些参数以优化性能。深度学习：深度学习是神经网络的一个子领域，主要关注于构建和训练深度神经网络（即具有多个隐藏层的神经网络）。通
2022-05-14 败者食尘_40a0
本文结构速览：一、SQL题二、机器学习&概率论三、开放性问题01SQL题面试真题：现有一张用户签到表（user_sign_d）,标记用户每日是否签到，表结构如下sign_date:日期user_id:用户IDif_sign:当日是否签到,1表示签到，0表示未签到问题①：请计算截止到当前每个用户已经连续签到的天数（输出表仅包含当天签到的所有用户，计算其连续签到的天数）输出表结构如下：user_id:
Android 实现照片抠出人像。 No Promises﹉ android
谢谢阅览、关注！！一、各平台的实现方式：1.Android实现方式：使用图像处理库（如OpenCV）：集成OpenCV库，利用其图像处理功能进行边缘检测和图像分割；使用机器学习模型（如TensorFlowLite）：集成TensorFlowLite和预训练的人像分割模型；使用第三方API服务：利用如百度AI、腾讯AI等提供的在线API进行图像处理。步骤：集成必要的库或API、加载和处理图像、应用抠
MATLAB 2023a：强化学习算法的实战演练与性能评估 zmjia111 机器学习 matlab matlab 算法开发语言深度学习机器学习 yolo
在深度学习领域，MATLAB2023版深度学习工具箱以其完整的工具链和高效的运行环境，为研究人员和开发者提供了前所未有的便利。这一工具箱不仅集成了建模、训练和部署的全部功能，更以其简洁易用的语法和强大的算法库，为深度学习任务的快速实现铺平了道路。相较于Python等编程语言，MATLAB的语法更为直观，上手更为迅速。无需繁琐的环境配置和库安装，用户只需打开MATLAB界面，即可轻松开始深度学习之旅
Python机器学习笔记：CART算法实战战争热诚
完整代码及其数据，请移步小编的GitHub传送门：请点击我如果点击有误：https://github.com/LeBron-Jian/MachineLearningNote前言在python机器学习笔记：深入学习决策树算法原理一文中我们提到了决策树里的ID3算法，C4.5算法，并且大概的了
动手学习深度学习——2.5 自动微分 X_Imagine 动手学习深度学习深度学习人工智能自动微分
2.5自动微分正如【2.4微积分】所说，微分是深度学习中几乎所有最优化算法的关键步骤。虽然求这些导数的计算过程很简单，只需要一些基本的微积分知识。但对于复杂的模型，手工计算参数的更新可能很痛苦(而且经常容易出错)。深度学习框架通过自动计算导数加快了这一工作，即自动微分（AutomaticDifferentiation）。在实践中，基于我们设计的模型，系统构建了一个计算图，跟踪哪些数据结合哪些操
飞桨科学计算套件PaddleScience skywalk8163 人工智能 paddlepaddle 人工智能飞桨
PaddleScience是一个基于深度学习框架PaddlePaddle开发的科学计算套件，利用深度神经网络的学习能力和PaddlePaddle框架的自动(高阶)微分机制，解决物理、化学、气象等领域的问题。支持物理机理驱动、数据驱动、数理融合三种求解方式，并提供了基础API和详尽文档供用户使用与二次开发。安装当然要先安装好飞桨PaddlePaddle，再安装PaddleSciencepipinst
机器学习是什么三花学编程机器学习
机器学习是什么？机器学习，这一词汇在当今的科技领域中可谓炙手可热，其影响深远，不仅改变了科学研究的方式，也推动了社会的快速发展。那么，机器学习到底是什么呢？机器学习，顾名思义，是机器（通常指计算机）进行学习的过程。这个过程模仿了人类的学习方式，通过经验积累，不断优化自身性能，最终能够在没有人类直接干预的情况下，进行决策或预测。简单来说，机器学习就是让计算机具备从数据中学习并自动改进的能力。机器学习
最新ChatGPT支持下的PyTorch机器学习与深度学习 zkzhzy ChatGPT 机器学习 python 机器学习深度学习 pytorch chatgpt 数据分析人工智能
近年来，随着AlphaGo、无人驾驶汽车、医学影像智慧辅助诊疗、ImageNet竞赛等热点事件的发生，人工智能迎来了新一轮的发展浪潮。尤其是深度学习技术，在许多行业都取得了颠覆性的成果。另外，近年来，Pytorch深度学习框架受到越来越多科研人员的关注和喜爱。郁磊（副教授）主要从事AI人工智能、大语言模型及软件开发、生理系统建模与仿真、生物医学信号处理，具有丰富的科研经验，主编《MATLAB智能算
神经网络量化小厂程序猿人工智能
神经网络量化（NeuralNetworkQuantization）是一种技术，旨在减少神经网络模型的计算和存储资源需求，同时保持其性能。在深度学习中，神经网络模型通常使用高精度的参数（例如32位浮点数）来表示权重和激活值。然而，这种表示方式可能会占用大量的内存和计算资源，特别是在部署到资源受限的设备（如移动设备或嵌入式系统）时会受到限制。神经网络量化通过将模型参数和激活值从高精度表示（例如32位浮
神奇的微积分科学的N次方人工智能人工智能 ai
微积分在人工智能（AI）领域扮演着至关重要的角色，以下是其主要作用：优化算法：•梯度下降法：微积分中的导数被用来计算损失函数相对于模型参数的梯度，这是许多机器学习和深度学习优化算法的核心。梯度指出了函数值增加最快的方向，通过沿着负梯度方向更新权重，可以最小化损失函数并优化模型。•反向传播：在神经网络训练中，微积分的链式法则用于计算整个网络中每个参数对于最终损失函数的影响（偏导数），这一过程就是反向
机器学习简介 Dayueban
@我的博客：有味写在前面在年前将要进行靶向代谢组学测定的样品送去公司，随之想想，还有一个半月的时间数据才会回来，那么这段时间是不是可以先学习下分类数据如何分析呢（PS:因为数据是属于分类性质的），所以不久前买的一本书——《机器学习与R语言》稍微系统学一遍，该书为美国的BrettLantz所著，翻译工作由我国学者李洪成、许金炜、李舰完成。学习本书的主要目的是了解机器学习的思想，以及所应用的领域，当然
regression机器学习回归预测模型参考学习后自我总结饮啦冰美式机器学习回归学习
简单来说，就是将样本的特征矩阵映射到样本标签空间。回归分析帮助我们理解在改变一个或多个自变量时，因变量的数值会如何变化。线性模型线性回归用于建立因变量和一个或多个自变量之间的线性关系模型。在线性回归中，假设因变量（被预测变量）与自变量（预测变量）之间存在着线性关系，也就是说，因变量的数值可以通过自变量的线性组合来预测。普通最小二乘线性回归。通过最小化实际观测值与模型预测值之间的误差平方和，可以找到
线性代数在卷积神经网络（CNN）中的体现科学的N次方人工智能线性代数 cnn 人工智能
案例：深度学习中的卷积神经网络（CNN）在图像识别领域，卷积神经网络（ConvolutionalNeuralNetworks,CNN）是一个广泛应用深度学习模型，它在人脸识别、物体识别、医学图像分析等方面取得了显著成效。CNN中的核心操作——卷积，就是一个直接体现线性代数应用的例子。假设我们正在训练一个用于识别猫和狗的图像分类器，原始输入是一幅RGB彩色图片，可以将其视为一个高度、宽度和通道数（R
辗转相处求最大公约数沐刃青蛟 C++漏洞
无言面对”江东父老“了，接触编程一年了，今天发现还不会辗转相除法求最大公约数。惭愧惭愧！为此，总结一下以方便日后忘了好查找。 1.输入要比较的两个数a,b 忽略：2.比较大小（因为后面要的是大的数对小的数做%操作） 3.辗转相除（用循环不停的取余，如a%b,直至b=0） 4.最后的a为两数的最大公约数 &
F5负载均衡会话保持技术及原理技术白皮书 bijian1013 F5 负载均衡
一.什么是会话保持？在大多数电子商务的应用系统或者需要进行用户身份认证的在线系统中，一个客户与服务器经常经过好几次的交互过程才能完成一笔交易或者是一个请求的完成。由于这几次交互过程是密切相关的，服务器在进行这些交互过程的某一个交互步骤时，往往需要了解上一次交互过程的处理结果，或者上几步的交互过程结果，服务器进行下
Object.equals方法：重载还是覆盖 Cwind java generics override overload
本文译自StackOverflow上对此问题的讨论。原问题链接在阅读Joshua Bloch的《Effective Java（第二版）》第8条“覆盖equals时请遵守通用约定”时对如下论述有疑问： “不要将equals声明中的Object对象替换为其他的类型。程序员编写出下面这样的equals方法并不鲜见，这会使程序员花上数个小时都搞不清它为什么不能正常工作：” pu
初始线程 15700786134
暑假学习的第一课是讲线程，任务是是界面上的一条线运动起来。既然是在界面上，那必定得先有一个界面，所以第一步就是，自己的类继承JAVA中的JFrame，在新建的类中写一个界面，代码如下： public class ShapeFr
Linux的tcpdump 被触发 tcpdump
用简单的话来定义tcpdump，就是：dump the traffic on a network，根据使用者的定义对网络上的数据包进行截获的包分析工具。 tcpdump可以将网络中传送的数据包的“头”完全截获下来提供分析。它支持针对网络层、协议、主机、网络或端口的过滤，并提供and、or、not等逻辑语句来帮助你去掉无用的信息。实用命令实例默认启动 tcpdump 普通情况下，直
安卓程序listview优化后还是卡顿肆无忌惮_ ListView
最近用eclipse开发一个安卓app，listview使用baseadapter，里面有一个ImageView和两个TextView。使用了Holder内部类进行优化了还是很卡顿。后来发现是图片资源的问题。把一张分辨率高的图片放在了drawable-mdpi文件夹下，当我在每个item中显示，他都要进行缩放，导致很卡顿。解决办法是把这个高分辨率图片放到drawable-xxhdpi下。 &nb
扩展easyUI tab控件，添加加载遮罩效果知了ing jquery
(function () { $.extend($.fn.tabs.methods, { //显示遮罩 loading: function (jq, msg) { return jq.each(function () { var panel = $(this).tabs(&
gradle上传jar到nexus 矮蛋蛋 gradle
原文地址： https://docs.gradle.org/current/userguide/maven_plugin.html configurations { deployerJars } dependencies { deployerJars "org.apache.maven.wagon
千万条数据外网导入数据库的解决方案。 alleni123 sql mysql
从某网上爬了数千万的数据，存在文本中。然后要导入mysql数据库。悲剧的是数据库和我存数据的服务器不在一个内网里面。。 ping了一下， 19ms的延迟。于是下面的代码是没用的。 ps = con.prepareStatement(sql); ps.setString(1, info.getYear())............; ps.exec
JAVA IO InputStreamReader和OutputStreamReader 百合不是茶 JAVA.io操作字符流
这是第三篇关于java.io的文章了，从开始对io的不了解-->熟悉--->模糊，是这几天来对文件操作中最大的感受，本来自己认为的熟悉了的，刚刚在回想起前面学的好像又不是很清晰了，模糊对我现在或许是最好的鼓励我会更加的去学加油！： JAVA的API提供了另外一种数据保存途径，使用字符流来保存的，字符流只能保存字符形式的流字节流和字符的难点：a,怎么将读到的数据
MO、MT解读 bijian1013 GSM
MO= Mobile originate，上行，即用户上发给SP的信息。MT= Mobile Terminate，下行，即SP端下发给用户的信息；上行:mo提交短信到短信中心下行:mt短信中心向特定的用户转发短信，你的短信是这样的，你所提交的短信，投递的地址是短信中心。短信中心收到你的短信后，存储转发，转发的时候就会根据你填写的接收方号码寻找路由，下发。在彩信领域是一样的道理。下行业务：由SP
五个JavaScript基础问题 bijian1013 JavaScript call apply this Hoisting
下面是五个关于前端相关的基础问题，但却很能体现JavaScript的基本功底。问题1：Scope作用范围考虑下面的代码： (function() { var a = b = 5; })(); console.log(b); 什么会被打印在控制台上？回答：上面的代码会打印 5。 &nbs
【Thrift二】Thrift Hello World bit1129 Hello world
本篇，不考虑细节问题和为什么，先照葫芦画瓢写一个Thrift版本的Hello World，了解Thrift RPC服务开发的基本流程 1. 在Intellij中创建一个Maven模块，加入对Thrift的依赖，同时还要加上slf4j依赖，如果不加slf4j依赖，在后面启动Thrift Server时会报错 <dependency>
【Avro一】Avro入门 bit1129 入门
本文的目的主要是总结下基于Avro Schema代码生成，然后进行序列化和反序列化开发的基本流程。需要指出的是，Avro并不要求一定得根据Schema文件生成代码，这对于动态类型语言很有用。 1. 添加Maven依赖 <?xml version="1.0" encoding="UTF-8"?> <proj
安装nginx+ngx_lua支持WAF防护功能 ronin47
需要的软件:LuaJIT-2.0.0.tar.gz nginx-1.4.4.tar.gz &nb
java-5.查找最小的K个元素-使用最大堆 bylijinnan java
import java.util.Arrays; import java.util.Random; public class MinKElement { /** * 5.最小的K个元素 * I would like to use MaxHeap. * using QuickSort is also OK */ public static void
TCP的TIME-WAIT bylijinnan socket
原文连接： http://vincent.bernat.im/en/blog/2014-tcp-time-wait-state-linux.html 以下为对原文的阅读笔记说明：主动关闭的一方称为local end，被动关闭的一方称为remote end 本地IP、本地端口、远端IP、远端端口这一“四元组”称为quadruplet，也称为socket 1、TIME_WA
jquery ajax 序列化表单 coder_xpf Jquery ajax 序列化
checkbox 如果不设定值，默认选中值为on；设定值之后，选中则为设定的值 <input type="checkbox" name="favor" id="favor" checked="checked"/> $("#favor&quo
Apache集群乱码和最高并发控制 cuisuqiang apache tomcat 并发集群乱码
都知道如果使用Http访问，那么在Connector中增加URIEncoding即可，其实使用AJP时也一样，增加useBodyEncodingForURI和URIEncoding即可。最大连接数也是一样的，增加maxThreads属性即可，如下，配置如下： <Connector maxThreads="300" port="8019" prot
websocket dalan_123 websocket
一、低延迟的客户端-服务器和服务器-客户端的连接很多时候所谓的http的请求、响应的模式，都是客户端加载一个网页，直到用户在进行下一次点击的时候，什么都不会发生。并且所有的http的通信都是客户端控制的，这时候就需要用户的互动或定期轮训的，以便从服务器端加载新的数据。通常采用的技术比如推送和comet（使用http长连接、无需安装浏览器安装插件的两种方式：基于ajax的长
菜鸟分析网络执法官 dcj3sjt126com 网络
最近在论坛上看到很多贴子在讨论网络执法官的问题。菜鸟我正好知道这回事情.人道"人之患好为人师" 手里忍不住,就写点东西吧. 我也很忙.又没有MM,又没有MONEY....晕倒有点跑题. OK,闲话少说,切如正题. 要了解网络执法官的原理. 就要先了解局域网的通信的原理. 前面我们看到了.在以太网上传输的都是具有以太网头的数据包.
Android相对布局属性全集 dcj3sjt126com android
RelativeLayout布局android:layout_marginTop="25dip" //顶部距离android:gravity="left" //空间布局位置android:layout_marginLeft="15dip //距离左边距 // 相对于给定ID控件android:layout_above 将该控件的底部置于给定ID的
Tomcat内存设置详解 eksliang jvm tomcat tomcat内存设置
Java内存溢出详解一、常见的Java内存溢出有以下三种： 1. java.lang.OutOfMemoryError: Java heap space ----JVM Heap（堆）溢出JVM在启动的时候会自动设置JVM Heap的值，其初始空间(即-Xms)是物理内存的1/64，最大空间(-Xmx)不可超过物理内存。可以利用JVM提
Java6 JVM参数选项 greatwqs java HotSpot jvm jvm参数 JVM Options
Java 6 JVM参数选项大全（中文版）作者：Ken Wu Email: [email protected] 转载本文档请注明原文链接 http://kenwublog.com/docs/java6-jvm-options-chinese-edition.htm！本文是基于最新的SUN官方文档Java SE 6 Hotspot VM Opt
weblogic创建JMC i5land weblogic jms
进入 weblogic控制太 1.创建持久化存储 --Services--Persistant Stores--new--Create FileStores--name随便起--target默认--Directory写入在本机建立的文件夹的路径--ok 2.创建JMS服务器 --Services--Messaging--JMS Servers--new--name随便起--Pers
基于 DHT 网络的磁力链接和BT种子的搜索引擎架构 justjavac DHT
上周开发了一个磁力链接和 BT 种子的搜索引擎 {Magnet & Torrent}，本文简单介绍一下主要的系统功能和用到的技术。系统包括几个独立的部分：使用 Python 的 Scrapy 框架开发的网络爬虫，用来爬取磁力链接和种子；使用 PHP CI 框架开发的简易网站；搜索引擎目前直接使用的 MySQL，将来可以考虑使
sql添加、删除表中的列 macroli sql
添加没有默认值：alter table Test add BazaarType char(1) 有默认值的添加列：alter table Test add BazaarType char(1) default(0) 删除没有默认值的列：alter table Test drop COLUMN BazaarType 删除有默认值的列：先删除约束（默认值）alter table Test DRO
PHP中二维数组的排序方法 abc123456789cba 排序二维数组 PHP
<?php/*** @package BugFree* @version $Id: FunctionsMain.inc.php,v 1.32 2005/09/24 11:38:37 wwccss Exp $*** Sort an two-dimension array by some level
hive优化之------控制hive任务中的map数和reduce数 superlxw1234 hive hive优化
一、控制hive任务中的map数: 1. 通常情况下，作业会通过input的目录产生一个或者多个map任务。主要的决定因素有： input的文件总个数，input的文件大小，集群设置的文件块大小(目前为128M, 可在hive中通过set dfs.block.size;命令查看到，该参数不能自定义修改)；2.
Spring Boot 1.2.4 发布 wiselyman spring boot
Spring Boot 1.2.4已于6.4日发布，repo.spring.io and Maven Central可以下载(推荐使用maven或者gradle构建下载)。这是一个维护版本，包含了一些修复small number of fixes,建议所有的用户升级。 Spring Boot 1.3的第一个里程碑版本将在几天后发布，包含许多