多模态大语言模型arxiv论文略读(144)

LARP: Tokenizing Videos with a Learned Autoregressive Generative Prior

➡️ 论文标题:LARP: Tokenizing Videos with a Learned Autoregressive Generative Prior
➡️ 论文作者:Hanyu Wang, Saksham Suri, Yixuan Ren, Hao Chen, Abhinav Shrivastava
➡️ 研究机构: University of Maryland, College Park
➡️ 问题背景:当前的视频生成模型在生成高分辨率视觉内容方面取得了显著进展,但现有的视频分词方法在处理自回归(AR)生成模型时存在局限性。传统的分词方法通常直接将局部视觉块编码为离散分词,这限制了分词器捕捉全局和语义表示的能力。此外,这些方法在将分词转换为线性1D序列时缺乏有效的策略,导致生成质量受到影响。
➡️ 研究动机:为了克服现有视频分词方法的局限性,研究团队提出了LARP(Learned AutoRegressive Prior),这是一种新的视频分词器,旨在通过引入全局分词方案和学习的AR生成先验模型,提高视频生成的质量和效率。LARP通过学习全局查询来捕捉视频的全局信息,并通过与AR先验模型的联合训练,优化分词器的潜在空间,使其更适合AR生成任务。
➡️ 方法简介:LARP采用ViT风格的空间-时间分块器和Transformer编码器架构,将视频分块并编码为连续的Transformer分块嵌入。与传统的分词方法不同,LARP引入了一组学习的查询嵌入,这些查询嵌入与分块嵌入连接后,通过编码器和量化器生成全局离散分词。此外,LARP集成了一个轻量级的AR Transformer作为先验模型,该模型在训练过程中对LARP的潜在空间进行自回归建模,提供信号以优化潜在空间,使其更适合AR生成任务。
➡️ 实验设计:研究团队在UCF-101类条件视频生成和Kinetics-600帧预测两个基准数据集上进行了实验。实验评估了LARP在不同分词数量配置下的生成质量,并与现有的视频生成模型进行了比较。实验结果表明,LARP在UCF-101数据集上取得了57的FVD(Frechét Video Distance)分数,达到了新的最先进水平。此外,LARP在Kinetics-600帧预测任务上也表现出色,超过了所有现有的AR方法。

PIP-MM: Pre-Integrating Prompt Information into Visual Encoding via Existing MLLM Structures

➡️ 论文标题:PIP-MM: Pre-Integrating Prompt Information into Visual Encoding via Existing MLLM Structures
➡️ 论文作者:Tianxiang Wu, Minxin Nie, Ziqiang Cao
➡️ 研究机构: 苏州大学计算机科学与技术学院
➡️ 问题背景:多模态大语言模型(MLLMs)通过整合视觉信息,激活了大语言模型(LLMs)在解决视觉-语言任务中的能力。然而,现有的MLLMs在图像编码过程中忽略了文本提示的要求,导致提取的视觉特征可能遗漏提示中指定的信息,同时包含大量与提示无关的噪声,影响了文本生成的质量和计算开销。
➡️ 研究动机:为了解决上述问题,研究团队提出了一种新的框架PIP-MM,该框架通过预整合文本提示信息到图像编码过程中,利用现有的MLLM模块,实现文本和图像的早期融合,从而提高模型的性能。
➡️ 方法简介:PIP-MM框架利用冻结的LLM将输入提示向量化,然后通过训练的多层感知机(MLP)将提示向量与视觉输入标准对齐。该提示向量替代了ViT中的CLS标记,实现了文本和图像的早期融合。最后,提示感知的视觉特征被输入到MLLM的原始模块中生成响应。
➡️ 实验设计:研究团队在七个基准数据集上进行了实验,使用了两种不同的基础MLLM模型。实验结果表明,PIP-MM在多个基准测试中平均性能提高了2.7%,在高难度测试集上的胜率提高了10%。此外,即使在减少一半视觉输入的情况下,PIP-MM仍能保持良好的生成能力。

Parameter-Efficient Fine-Tuning Medical Multimodal Large Language Models for Medical Visual Grounding

➡️ 论文标题:Parameter-Efficient Fine-Tuning Medical Multimodal Large Language Models for Medical Visual Grounding
➡️ 论文作者:Jinlong He, Pengfei Li, Gang Liu, Shenjun Zhong
➡️ 研究机构: Harbin Engineering University, Monash University
➡️ 问题背景:多模态大语言模型(MLLMs)在一般领域的多模态任务中表现出色,但在医疗领域,由于高昂的训练成本和对大量医疗数据的需求,医疗MLLMs的发展面临挑战。此外,医疗视觉定位任务(Medical Visual Grounding)需要模型能够根据文本描述精确定位医疗图像中的区域,这对MLLMs提出了更高的要求。
➡️ 研究动机:现有的医疗视觉定位方法主要依赖于视觉-语言预训练(VLP)模型,这些模型在全局对齐图像和文本特征方面表现良好,但在语义粒度和局部图像特征的捕捉上存在不足。为了克服这些限制,研究团队提出了一种参数高效的微调方法(Parameter-Efficient Fine-tuning, PFMVG),旨在提高医疗MLLMs在视觉定位任务中的性能。
➡️ 方法简介:PFMVG框架利用预训练的多模态大语言模型(如MiniGPT-v2),通过参数高效的微调技术(如LoRA)来适应医疗领域的特定内容。该方法包括两个阶段的微调:第一阶段专注于图像描述,以增强模型的多模态医疗知识;第二阶段则专注于医疗视觉定位任务,通过特定的指令模板和多模态数据集进行训练。
➡️ 实验设计:研究团队在MS-CXR数据集上进行了实验,该数据集包含1,153个样本,覆盖了八种疾病类别。实验评估了模型在不同疾病类别上的性能,包括IoU和Dice分数。实验结果表明,PFMVG在多个疾病类别上显著优于现有的基准模型,特别是在Pneumothorax类别中,IoU和Dice分数分别提高了0.166和0.213。此外,消融研究进一步验证了两阶段微调策略的有效性。

Leveraging LLMs for MT in Crisis Scenarios: a blueprint for low-resource languages

➡️ 论文标题:Leveraging LLMs for MT in Crisis Scenarios: a blueprint for low-resource languages
➡️ 论文作者:Séamus Lankford, Andy Way
➡️ 研究机构: ADAPT Centre, Department of Computer Science, Munster Technological University, Cork, Ireland; ADAPT Centre, School of Computing, Dublin City University, Dublin, Ireland
➡️ 问题背景:在危机通信的不断演变中,对稳健且适应性强的机器翻译(MT)系统的需求比以往任何时候都更加迫切,特别是在低资源语言中。本研究探讨了利用大型语言模型(LLMs)和多语言大型语言模型(MLLMs)增强MT能力的方法,特别是在危机情况下,速度、准确性和处理多种语言的能力至关重要。
➡️ 研究动机:现有的机器翻译能力在每次范式转变时都被过度炒作,但LLMs因其“理解”语言和生成复杂响应的能力,确实有可能以前所未有的方式增强人类的沟通和生产力。本研究旨在探讨是否可以使用如adaptMLLM等工具快速构建高质量的MLLM基础MT系统,以应对危机情况,同时不牺牲质量。
➡️ 方法简介:研究团队提出了一种结合前沿LLM能力和微调技术的方法,以及社区驱动的语料库开发策略,以增强MT能力。研究重点是为两个低资源语言对开发和实证评估MT系统,从初始模型选择和微调到部署的整个过程。研究还比较了定制GPT与NLLB适应的MLLM模型,发现微调的MLLM模型比LLM模型表现更优。
➡️ 实验设计:实验在两个低资源语言对(英语-爱尔兰语和英语-马拉地语)上进行,包括四个语言方向。实验设计了一个管道,用于快速生成高质量翻译,以应对危机情况,改善多语言沟通。实验结果表明,通过微调NLLB MLLM,翻译性能有了显著提高,特别是在BLEU、TER和ChrF等关键翻译指标上。

Unified Generative and Discriminative Training for Multi-modal Large Language Models

➡️ 论文标题:Unified Generative and Discriminative Training for Multi-modal Large Language Models
➡️ 论文作者:Wei Chow, Juncheng Li, Qifan Yu, Kaihang Pan, Hao Fei, Zhiqi Ge, Shuai Yang, Siliang Tang, Hanwang Zhang, Qianru Sun
➡️ 研究机构: 浙江大学、新加坡国立大学、南洋理工大学、新加坡管理大学
➡️ 问题背景:当前的视觉-语言模型(VLMs)主要在两种训练范式下进行训练:生成式训练和判别式训练。生成式训练使多模态大语言模型(MLLMs)能够处理各种复杂任务,但存在幻觉和弱对象区分能力的问题。判别式训练在零样本图像-文本分类和检索中表现出色,但在需要细粒度语义区分的复杂场景中表现不佳。
➡️ 研究动机:现有的研究试图将判别能力引入生成式预训练的MLLMs中,但性能方面仍存在局限性。本文旨在通过提出一种统一的生成式和判别式训练方法,结合两种范式的优点,以解决上述问题。
➡️ 方法简介:研究团队提出了Sugar方法,通过结构诱导的训练策略,将输入样本之间的语义关系作为隐藏状态的结构约束,增强MLLMs捕捉全局语义和区分细粒度语义的能力。具体而言,通过动态序列对齐(Dynamic Sequence Alignment, DSA)框架和引入新的核函数,该方法能够平衡生成式和判别式任务,实现协同增益。
➡️ 实验设计:实验在多个公开数据集上进行,包括生成任务和判别任务。生成任务包括复杂的多模态理解任务、细粒度语义区分任务和对象幻觉检测任务。判别任务包括图像-文本检索、交错检索和细粒度检索。实验结果表明,Sugar在生成任务和判别任务中均取得了显著的性能提升,特别是在需要认知和区分能力的任务中表现尤为突出。此外,通过引入检索增强生成(RAG)策略,进一步提升了生成任务的性能。

你可能感兴趣的:(#,mllm_arxiv,语言模型,人工智能,自然语言处理,论文笔记,论文阅读)