TC-LLaVA论文笔记

RoPE 介绍

理解LLM位置编码:RoPE | Linsight


Motivation

在基于视频的 multimodal large language model 中,更好地利用视频提供的时序信息。


Method

Temporal-Aware Dual RoPE

之前的 RoPE 公式: A ( q T m , k F n V z ) = R e [ q T m k F n V z e i ( P ( T m ) − P ( F n V z ) ) θ ] A_{(q_{T_m},k_{F_nV_z})}=Re[q_{T_m}k_{F_nV_z}e^{i(P(T_m)-P(F_nV_z))\theta}] A(qTm,kFnVz)=Re[qTmkFnVzei(P(Tm)P(FnVz))θ],在这种形式的公式里,每个 visual token 的编码时独立的,且无法区分哪些 visual token 属于同一帧,哪些属于不同的帧。
TAD-RoPE 在原本的 position id 的基础上,增加了 temporal position id:
I t ( n ) = { n , i f   n < v s , v s + ⌊ n − v s m ⌋ , i f   v s ≤ n ≤ v e , n − ( v e − v s + 1 − ⌊ v e − v s m ⌋ ) , i f   n > v e \begin{align} I_t(n)= \begin{cases} n,&if\ nv_e \end{cases} \end{align} It(n)= n,vs+mnvs,n(vevs+1mvevs⌋),if n<vs,if vsnve,if n>ve
调整后的位置编码为: n ^ = n + γ ⋅ I t ( n ) \hat{n}=n+\gamma\cdot I_t(n) n^=n+γIt(n)

Frame-wise Block Causal Attention Mask

通常语言模型中,采用后面的 token 能看到前面 token,但前面的 token 无法看到后面 token 的设计。这种设计在文本 token 中很自然,但是在 visual token 里会导致 visual token 交互不充分,因此本文尝试了几种不同的 token 设计。
TC-LLaVA论文笔记_第1张图片


实验结果

与 SOTA 相比

TC-LLaVA论文笔记_第2张图片

TC-LLaVA论文笔记_第3张图片

Ablation Studies

通过实验证明了 TAD-RoPE 及 Frame-wise Block Causal Attention Mask 的性能优势。

你可能感兴趣的:(计算机视觉,论文阅读)