像素空间文生图之Imagen原理详解
- 论文:Photorealistic Text-to-Image Diffusion Models with Deep Language Understanding
- 项目地址:https://imagen.research.google/
- 代码(非官方):https://github.com/deep-floyd/IF
- 模型权重:https://huggingface.co/DeepFloyd/IF-I-XL-v1.0
- 关注公众号 funNLPer 白嫖有用的知识
文章目录
- 1. Imagen 模型结构
-
- 1.1 Pretrain Text Encoder
- 1.2 基础扩散模型
-
- 1.2.1 classifier-free guidance
- 1.2.2 Large guidance weight samplers(Static thresholding&Dynamic thresholding)
- 1.3 超分辨扩散模型
-
- 1.3.1 噪声增强
- 1.3.2 Efficent Unet
- 2. 模型效果
-
- 2.1 DrawBench
- 2.2 训练细节及指标效果
- 2.3 定性结果
- 3. 参考
介绍Imagen主要出于以下两点:
- 之前一直以为输入prompt的编码器用CLIP的text encoder会更好,毕竟图文语义已经对齐,后来发现imagen并没有使用CLIP的text encoder,而是直接使用了NLP中的大语言模型T5。仔细想了下无论是CLIP中的text encoer还是T5在训练阶段都是冻结的,是Unet来适配他们