像素空间文生图之Imagen原理详解

  • 论文:Photorealistic Text-to-Image Diffusion Models with Deep Language Understanding
  • 项目地址:https://imagen.research.google/
  • 代码(非官方):https://github.com/deep-floyd/IF
  • 模型权重:https://huggingface.co/DeepFloyd/IF-I-XL-v1.0
  • 关注公众号 funNLPer 白嫖有用的知识

文章目录

  • 1. Imagen 模型结构
    • 1.1 Pretrain Text Encoder
    • 1.2 基础扩散模型
      • 1.2.1 classifier-free guidance
      • 1.2.2 Large guidance weight samplers(Static thresholding&Dynamic thresholding)
    • 1.3 超分辨扩散模型
      • 1.3.1 噪声增强
      • 1.3.2 Efficent Unet
  • 2. 模型效果
    • 2.1 DrawBench
    • 2.2 训练细节及指标效果
    • 2.3 定性结果
  • 3. 参考

介绍Imagen主要出于以下两点:

  • 之前一直以为输入prompt的编码器用CLIP的text encoder会更好,毕竟图文语义已经对齐,后来发现imagen并没有使用CLIP的text encoder,而是直接使用了NLP中的大语言模型T5。仔细想了下无论是CLIP中的text encoer还是T5在训练阶段都是冻结的,是Unet来适配他们&#x

你可能感兴趣的:(AI算法,Imagen,stable,diffusion,AIGC)