ViT论文解读

ViT论文解读

本文主要记录Yi Zhu大佬对于ICLR 2021的一篇论文精读

AN IMAGE IS WORTH 16x16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE

论文地址:https://arxiv.org/pdf/2010.11929.pdf
源码地址:https://github.com/google-research/vision_transformer

标题部分

AN IMAGE IS WORTH 16x16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE
一张图片等价于很多16X16大小的单词

这里的等价指的是把图片看作是很多的patch,每个patch的大小是16x16,那么这张图片就是很多16x16patch组成的。
ViT论文解读_第1张图片

摘要

作者阐述了Transformer在NLP领域已经大放异彩了,但是在CV视觉

你可能感兴趣的:(文献阅读,深度学习,计算机视觉,transformer)