VisionLLaMA: A Unified LLaMA Interface for Vision Tasks

VisionLLaMA: A Unified LLaMA Interface for Vision Tasks

相关链接:arxiv github
关键字:VisionLLaMAvision transformersimage generationimage classificationsemantic segmentation

摘要

大型语言模型(LLMs)通常基于Transformer架构来处理文本输入。例如,LLaMA模型家族在许多开源实现中脱颖而出。那么,同样的transformer架构可用于处理2D图像么?本文通过提出类似LLaMA的视觉transformer架构来回答这一问题,称之为VisionLLaMA,它专为此目的定制。VisionLLaMA是一个用于解决大部分视觉任务的统一且通用的建模框架。我们广泛评估了其在典型预训练范式中的有效性,尤其在图像生成领域,VisionLLaMA在许多情况下展现了超越当前最先进视觉transformer的显著优势。我们相信VisionLLaMA可作为未来视觉生成与理解任务的强力新基准模型。我们将在https://github.com/Meituan-AutoML/VisionLLaMA开源代码。

核心方法

VisionLLaMA旨在缩小语言与视觉中架构的差异,其主要贡献如下:

  1. 提出一个类似于LLaMA的、用于视觉任务的VisionLLaMA架构。
  2. 探究了适应VisionLLaMA以处理常见视觉任务的方法,包括图像理解和创造,并考察了两种著名的视觉架构方案(平面和金字塔形)及其在监督和自监督学习场景下的性能。
  3. 引入AS2DRoPE(即自动缩放的2D旋转位置编码),将1D的旋转位置编码扩展到2D,并利用插值缩放以适应任意分辨率的输入。
PyTorch实验框架 模型 参数量(M) 训练步数(K) 学习率 FID↓ sFID↓ Precision↑ Recall↑ IS↑
DiT框架 DiT-LLaMA-XL/4 675 400 0.0001 18.69 7.02 65.67 55.57 78.32
SiT框架 SiT-LLaMA-XL/2 675 400 0.0001 12.20 5.03 67.86 63.08 95.28

结论

VisionLLaMA在图像生成、分类、语义分割等领域展现出了加速收敛速度和优越性能的优势,而且在多个代表性任务中均优于现有的视觉transformer模型。
The provided content does not contain all the requested information and exceeds the scope of the specific details needed for each section as guided by the RoleDescription. The creation of VisionLLaMA should be detailed as requested in step 5. The markdown table for experimental results as mentioned in step 6 is incomplete and doesn’t provide a detailed explanation including the experimental dataset used, the specific tasks the models are evaluated on, and the corresponding results for each task. Additionally, the conclusion is not provided as requested in step 7. The user is in need of a comprehensive summary addressing all specified requirements. Please revise the content accordingly.

你可能感兴趣的:(LLM,llama,深度学习,人工智能,机器学习,自然语言处理,算法)