【论文阅读】VideoChat-R1: Enhancing Spatio-Temporal Perception via Reinforcement Fine-Tuning

VideoChat-R1: Enhancing Spatio-Temporal Perception via Reinforcement Fine-Tuning

  • 原文摘要

    • 研究现状:强化学习有关方法在视频理解任务中的应用仍未被充分探索。

    • 研究目标

      • 方法:采用强化微调(RFT)结合GRPO,专门针对视频MLLMs进行优化。

      • 目标

        • 增强模型对视频时空感知的能力。
        • 保持模型的通用能力
    • 实验与发现

      • RFT在小样本数据下即可显著提升任务性能

      • 模型优势

        • 在时空任务中达到SOTA性能
        • 未牺牲对话能力,并展现出新兴的时空推理能力

1. Introduction

  • 强化学习在LLMs中的发展

    • OpenAI-O1:通过测试时扩展策略显著提升了LLMs的复杂推理能力。

    • DeepSeek-R1-Zero:证明即使无需大量监督微调,仅通过基于规则的奖励系统进行强化学习,也能激发语言模型的高级推理与认知能力

  • MLLM的迁移尝试

    • Virgo:尝试通过知识蒸馏(从多个开源推理模型)赋予MLLMs视觉推理能力。

    • 主流研究方向:直接采用DeepSeek-R1的GRPO算法规则奖励系统,提升MLLMs在视觉输入的数理推理空间定位任务中的表现。

    • 局限:现有研究集中于静态图像的多模态任务,对视频理解的探索不足。

  • 视频推理研究的挑战与现状

    • 数据瓶颈:视频领域缺乏像文本和图像那样成熟的训练与评估数据集

    • 近期工作:验证了GRPO在时序定位视频问答等任务中优于监督微调,但存在两大空白:

      1. 系统性评估:算法在多样化视频推理场景中的泛化能力。
      2. 机制分析:规则奖励系统与多模态时序依赖的交互关系。
  • 研究目标与方法

    • 核心目标:增强视频MLLMs的时空感知能力,系统研究 RFT 对各类视频任务的影响。

    • 方法:通过多任务联合RFT,构建VideoChat-R1模型,兼顾时空感知与对话能力。

  • 主要发现

    1. 数据效率:RFT仅需少量数据即可显著提升时空感知能力,且不损害模型原有能力

    2. 多任务训练效应

      • 性能提升

        • 时空任务:时序定位(+31.8)、目标跟踪(+31.2)。
        • 通用任务:VideoMME(+0.9)、MVBench(+1.0)、Perception Test(+0.9)。
      • 时空感知训练略微增强了模型的时空推理能力

2. Related Work

  • Reinforcement Learning Enhancement for MLLMs

    • LLMs领域
      • OpenAI-O1DeepSeek-R1通过RL显著提升LLMs的复杂推理能力。
  • MLLMs领域

    • 多数研究采用可验证的奖励机制增强视觉推理性能,但视频领域探索较少。
    • 初步尝试
      • TimeZero:GRPO在时序定位(temporal grounding)中的应用。
      • R1-Omini:GRPO在情感分析中的潜力。
      • Video-R1:扩展GRPO至隐式时序推理,提升视频空间推理能力。
  • 视频MLLMs的时空感知能力

    • 现状: 现有视频MLLMs在视频问答描述生成等通用任务中进步显著,但性能仍远逊于人类

    • 现有方法局限

      • MerlinTimeSuite:通过时空数据增强提升时序能力,但牺牲通用性能
      • VideoChat-TPO:引入任务特定头(task-specific heads)增强细粒度时空感知,但训练成本高昂

3. Methodology

【论文阅读】VideoChat-R1: Enhancing Spatio-Temporal Perception via Reinforcement Fine-Tuning_第1张图片

3.1 Preliminary of GRPO

  • 具体不赘述了,见Deepseek-R1论文笔记

3.2 Spatio-Temporal Rewards of Video MLLM in GRPO

3.2.1 格式奖励 Format Reward
  • 目标:强制模型输出符合预设结构化格式。

  • 设计

    • 使用正则表达式匹配输出格式,例如要求答案包含 ......

    • 奖励函数:
      R format = { 1 , 输出匹配格式 0 , 输出不匹配格式 R_{\text{format}} = \begin{cases} 1, & \text{输出匹配格式} \\ 0, & \text{输出不匹配格式} \end{cases} Rformat={1,0,输出匹配格式输出不匹配格式

    • 作用:确保模型输出可被后续任务(如IoU计算)直接解析,避免无效响应。

3.2.2 时空感知任务:IoU奖励
  • 适用任务:时序定位(Temporal Grounding)、目标跟踪(Object Tracking)。

  • 核心指标:预测与真实时空区域的交并比(IoU)

    • 时序定位:计算预测时间区间 I pred I_{\text{pred}} Ipred 与真实区间 I gt I_{\text{gt}} Igt 的重叠度。
    • 目标跟踪:计算预测检测框与真实框的重叠度。
  • 奖励函数
    R IoU = ∣ I pred ∩ I gt ∣ ∣ I pred ∪ I gt ∣ R_{\text{IoU}} = \frac{|I_{\text{pred}} \cap I_{\text{gt}}|}{|I_{\text{pred}} \cup I_{\text{gt}}|} RIoU=IpredIgtIpredIgt

    • 直接量化模型对时空边界的预测精度。
3.2.3 分类任务:准确率奖励
  • 适用任务:视频多选题(Multiple-Choice QA)、分类任务。

  • 设计:二元奖励,仅当预测答案 A pred A_{\text{pred}} Apred 与真实答案 A gt A_{\text{gt}} Agt 完全一致时给予奖励:
    R accuracy = { 1 , A pred = A gt 0 , A pred ≠ A gt R_{\text{accuracy}} = \begin{cases} 1, & A_{\text{pred}} = A_{\text{gt}} \\ 0, & A_{\text{pred}} \neq A_{\text{gt}} \end{cases} Raccuracy={1,0,Apred=AgtApred=Agt

    • 局限性:对部分正确答案(如多选题漏选)无法给出细粒度评分。
3.2.4 开放式生成任务:召回奖励
  • 问题背景

    • 任务 :Video Captioning

    • 任务评估

      • 用LLM做为评判器,评判caption效果
      • 偏差:若直接要求LLM对生成描述打分,易受评判标准不统一的影响。
  • 召回奖励核心思想

    • 将描述文本拆解为原子事件单元
    • 通过计算模型生成描述对真实事件的覆盖比例(Recall)作为奖励,减少评估主观性。
  • 召回奖励具体步骤

    1. 事件分解(Event Decomposition):

      • 使用LLM(文章中为Qwen2.5-72B)将真实描述 C gt C_{\text{gt}} Cgt 和预测描述 C pred C_{\text{pred}} Cpred 分别解析为事件列表
    2. 事件蕴含判断(Event Entailment):

      • C gt C_{\text{gt}} Cgt 中的每个事件,要求 LLM 判断是否被 C pred C_{\text{pred}} Cpred 语义涵盖
    3. 召回率计算(Event Recall Score):

      • 统计被涵盖的真实事件数占总真实事件数的比例: ratio = Number of entailed events in  C gt Total events in  C gt {\text{ratio}} = \frac{\text{Number of entailed events in } C_{\text{gt}}}{\text{Total events in } C_{\text{gt}}} ratio=Total events in CgtNumber of entailed events in Cgt
      • 再根据召回率设计对应的reward

3.3 Enhance Spatio-Temporal Perception of Video MLLM through GRPO

3.3.1 Reward Function
任务类型 奖励函数组合
时序定位 & 目标跟踪 R st = R format + R IoU R_{\text{st}} = R_{\text{format}} + R_{\text{IoU}} Rst=Rformat+RIoU
多选题QA & 视频质量评估 R qa = R format + R accuracy R_{\text{qa}} = R_{\text{format}} + R_{\text{accuracy}} Rqa=Rformat+Raccuracy
带定位的QA R gqa = R format + R IoU + R accuracy R_{\text{gqa}} = R_{\text{format}} + R_{\text{IoU}} + R_{\text{accuracy}} Rgqa=Rformat+RIoU+Raccuracy
视频描述生成 R cap = R format + R recall R_{\text{cap}} = R_{\text{format}} + R_{\text{recall}} Rcap=Rformat+Rrecall
3.3.2 Training Data
任务类型 数据集 样本量
时序定位 Charades-STA 5,338
目标跟踪 GoT-10k 9,335
QA与定位QA NExT-QA (验证集) 3,358
视频描述生成 FIBER-1k 1,000
视频质量评估 VidTAB (100-shot) 200
  • 联合训练策略
    • 聚焦时空感知相关的3类任务——时序定位目标跟踪带定位的QA

4. Experiments

  • Base Model

    • 主要实验:Qwen2.5-VL-7B
    • Video Captioning:Qwen2-VL-7B
  • Benchmarks

    • 通用视频理解能力评估

      • MVBench

      • Perception Test

      • VideoMME

    • 时空感知任务专项评估

      • 时序定位

        • 域内测试:Charades-STA
          • 域内测试(In-domain Testing):使用与训练集同分布的数据验证模型性能。
        • 域外测试:ActivityNet-Grounding
          • 域外测试(Out-domain Testing):通过分布外数据检验模型泛化性。
      • 目标跟踪:GoT-10k

      • 问答任务:NExT-QA

      • 视频描述生成:Dream-1k

      • 视频质量评估:VidTAB-QA

4.1 Evaluation of VideoChat-R1

【论文阅读】VideoChat-R1: Enhancing Spatio-Temporal Perception via Reinforcement Fine-Tuning_第2张图片

你可能感兴趣的:(强化学习,AIGC,计算机视觉,论文阅读,多模态大模型,强化学习)