➡️ 论文标题:Understanding the Role of LLMs in Multimodal Evaluation Benchmarks
➡️ 论文作者:Botian Jiang, Lei Li, Xiaonan Li, Zhaowei Li, Xiachong Feng, Lingpeng Kong, Qi Liu, Xipeng Qiu
➡️ 研究机构: Fudan University、The University of Hong Kong
➡️ 问题背景:多模态大型语言模型(MLLMs)的快速发展伴随着各种评估基准的出现,旨在评估这些模型的能力。然而,这些评估基准在多大程度上真正评估了多模态推理能力,以及在多大程度上依赖于底层大型语言模型(LLMs)的能力,仍不清楚。研究发现,某些基准测试即使没有视觉输入,MLLMs也能获得高分,这引发了对这些模型多模态推理能力真实性的质疑。
➡️ 研究动机:为了更深入地理解LLMs在MLLMs评估中的作用,研究团队重点探讨了两个关键方面:当前基准测试在多大程度上真正评估了多模态推理能力,以及LLMs的先验知识对最终性能的影响。研究旨在通过改进的评估协议和自动知识识别技术,揭示LLMs在多模态任务中的作用,并提出知识增强方法以提高模型性能。
➡️ 方法简介:研究团队提出了一种系统的方法,通过修改评估协议来分离LLM骨干与多模态整合的贡献,并开发了一种自动知识识别技术,以诊断LLMs是否具备回答多模态问题所需的知识。此外,研究团队还设计了一个知识增强框架,通过检索补充背景知识来帮助MLLMs回答复杂的VQA问题。
➡️ 实验设计:研究在四个不同的MLLM基准测试上进行了实验,包括MMMU、ScienceQA、Viquae和InfoSeek。实验设计了不同的任务格式(如多项选择和开放式问题),以及不同的模型规模(从42亿到760亿参数),以全面评估模型在不同条件下的表现。实验结果揭示了LLMs在多模态任务中的作用,包括对视觉信息的依赖程度和知识不足对性能的影响。研究还提出了一种知识增强方法,通过检索相关知识段落来提高模型的性能,结果表明该方法在某些数据集上显著提高了模型的准确率。
➡️ 论文标题:MC-Bench: A Benchmark for Multi-Context Visual Grounding in the Era of MLLMs
➡️ 论文作者:Yunqiu Xu, Linchao Zhu, Yi Yang
➡️ 研究机构: 浙江大学 (Zhejiang University)
➡️ 问题背景:多模态大语言模型(MLLMs)在视觉-语言理解任务中展现了卓越的能力,但其在多图像实例级任务中的表现尚未得到充分探索。现有的视觉定位任务通常集中在单图像输入上,忽略了跨图像的上下文信息。
➡️ 研究动机:为了评估MLLMs在多图像实例级任务中的能力,研究团队提出了一种新的视觉定位任务——多上下文视觉定位(Multi-Context Visual Grounding),并构建了一个新的基准数据集MC-Bench,以评估MLLMs在多图像场景中的视觉定位能力。
➡️ 方法简介:研究团队构建了MC-Bench数据集,包含2,000个高质量的手动标注样本,每个样本包含图像对、实例级标注和相应的文本提示。文本提示分为三种风格:指代、比较和推理,涵盖了20种实际技能。数据集中的图像来自多个数据源,包括自然图像、图表、文档照片、艺术品和科学图表等。
➡️ 实验设计:研究团队在MC-Bench上评估了20多个基线模型,包括先进的MLLMs和一些相关的基础模型。实验设计了多种评估指标,包括图像级准确率(Accuracy)和实例级平均精度(AP50),以全面评估模型在多图像场景中的表现。实验结果揭示了现有MLLMs与人类之间的显著性能差距,并提供了改进MLLMs的见解。
➡️ 论文标题:RAP: Retrieval-Augmented Personalization for Multimodal Large Language Models
➡️ 论文作者:Haoran Hao, Jiaming Han, Changsheng Li, Yu-Feng Li, Xiangyu Yue
➡️ 研究机构: MMLab, The Chinese University of Hong Kong、National Key Laboratory for Novel Software Technology, Nanjing University、Beijing Institute of Technology、SHIAE, CUHK
➡️ 问题背景:尽管大型语言模型(LLMs)的发展显著增强了多模态LLMs(MLLMs)的能力,但缺乏用户特定的知识限制了它们在日常生活中的应用。当前的MLLMs虽然在大规模数据集上训练,具备强大的识别和分类能力,但直接将这些知识应用于用户的个人概念仍然具有挑战性。例如,现有的MLLMs无法记住用户的宠物名字,也无法识别用户的身份和偏好。
➡️ 研究动机:为了克服这一限制,研究团队提出了检索增强个性化(Retrieval-Augmented Personalization, RAP)框架,旨在使MLLMs能够记住和理解用户特定的概念,并生成个性化的语言输出。通过构建一个外部数据库来存储用户相关信息,并在用户发起对话时检索这些信息,RAP框架能够在不进行额外训练的情况下,使预训练的MLLMs适应不同的用户和无限的新概念。
➡️ 方法简介:RAP框架包括三个关键步骤:记住(Remember)、检索(Retrieve)和生成(Generate)。首先,构建一个数据库来存储用户的个人概念及其相关信息,如名称、头像和其他属性。当用户发起对话时,使用多模态检索器从数据库中检索相关信息。最后,将检索到的概念信息与用户输入一起输入MLLMs,生成个性化的、知识增强的响应。此外,研究团队设计了一个数据收集管道,创建了一个专门用于个性化训练MLLMs的数据集。
➡️ 实验设计:研究团队在两个预训练的MLLMs(LLaVA和Phi3-V)上进行了实验,评估了它们在个性化图像描述、问答和视觉识别等任务上的性能。实验结果表明,RAP-MLLMs在各种个性化多模态生成任务中表现出色,展示了优秀的生成质量和灵活性。此外,模型还表现出强大的能力,能够在图像中识别个人概念。
➡️ 论文标题:Exploring the Design Space of Visual Context Representation in Video MLLMs
➡️ 论文作者:Yifan Du, Yuqi Huo, Kun Zhou, Zijia Zhao, Haoyu Lu, Han Huang, Wayne Xin Zhao, Bingning Wang, Weipeng Chen, Ji-Rong Wen
➡️ 研究机构: 中国人民大学高瓴人工智能学院、百川科技、中国人民大学信息学院、中国科学院自动化研究所
➡️ 问题背景:视频多模态大语言模型(Video MLLMs)在理解视频语义方面展现了显著的能力,但在处理复杂或长视频时仍面临挑战。视觉上下文表示(Visual Context Representation)是视频MLLMs中的一个关键问题,它涉及从视频中选择帧以及从每帧中选择嵌入(embeddings)的方法。然而,目前对于视觉上下文表示的研究尚不系统,缺乏对不同表示方案效果的深入分析。
➡️ 研究动机:为了提高视频MLLMs的性能,研究团队系统地探索了视觉上下文表示的设计空间,旨在通过找到更有效的表示方案来优化模型性能。研究特别关注了帧选择和嵌入选择的规模效应及其联合效应,以确定在有限的上下文长度内如何最优地分配帧数和嵌入数。
➡️ 方法简介:研究团队首先将视觉上下文表示任务建模为一个约束优化问题,将语言建模损失作为帧数和每帧嵌入数的函数。通过广泛的实证实验,研究团队探索了帧选择和嵌入选择的规模效应,并拟合了相应的函数曲线。此外,研究还探讨了帧选择和嵌入选择的联合效应,提出了确定最优分配的公式。
➡️ 实验设计:研究在多个公开数据集上进行了实验,包括视频语言理解(Video Question Answering, Video Captioning)和视频多模态理解(VideoMME, MLVU, NBench, Event-Bench)等任务。实验设计了不同因素(如帧数、嵌入数、采样方法和压缩方法)的变化,以全面评估模型在不同条件下的表现。研究发现,增加视觉嵌入数和帧数可以显著提高模型性能,而压缩方法在减少嵌入数的同时能有效保留更多语义信息。
➡️ 论文标题:Harnessing Webpage UIs for Text-Rich Visual Understanding
➡️ 论文作者:Junpeng Liu, Tianyue Ou, Yifan Song, Yuxiao Qu, Wai Lam, Chenyan Xiong, Wenhu Chen, Graham Neubig, Xiang Yue
➡️ 研究机构: Carnegie Mellon University、The Chinese University of Hong Kong、Peking University、University of Waterloo
➡️ 问题背景:文本丰富的视觉理解能力对于多模态大型语言模型(MLLMs)在处理复杂文本-视觉交互任务中至关重要,如文档处理、网页导航、图表解释和文本丰富的视觉推理。然而,现有的方法在利用网页内容进行多模态模型训练时存在局限性,如基于规则的图像和周围文本提取方法引入噪声且缺乏上下文深度,将截图转换为简化HTML结构的方法限制了跨领域的泛化能力,以及使用GPT-4生成网页图像标题的方法经常忽略文本与视觉之间的丰富互动。
➡️ 研究动机:为了克服这些局限性,研究团队提出了一种新的方法,即利用文本基础的大型语言模型(LLMs)从网页用户界面(UIs)中合成通用的多模态指令。尽管文本基础的LLMs缺乏直接的视觉输入,但它们能够有效地处理网页的文本表示,通过读取清理后的可访问性树(一种结构化和精炼的网页HTML和元数据表示),生成有意义的指令,这些指令能够捕捉页面上的内容和交互。这些生成的指令随后与UI截图配对,用于训练多模态模型,使模型能够从文本和视觉表示中学习。
➡️ 方法简介:研究团队构建了一个名为MultiUI的开源数据集,包含730万个样本,覆盖100万个网站和多种视觉理解任务。数据集的构建过程包括四个主要阶段:(1)原始网站数据抓取;(2)网站内容筛选;(3)从抓取的网站中提取任务;(4)构建指令。通过这些阶段,研究团队确保了数据集的多样性和模型的泛化能力。
➡️ 实验设计:研究团队在多个基准数据集上进行了实验,包括GUI相关任务、OCR相关任务、一般多模态任务和代理任务。实验结果表明,使用MultiUI训练的模型在GUI相关任务上表现显著提升,例如在VisualWebBench上提高了48%,在Mind2Web上的元素准确性提高了19.1%。更令人惊讶的是,这种训练还使模型在非UI领域,如文档理解、OCR和图表解释任务上表现出色,甚至超过了专门针对这些领域训练的模型。这些结果强调了网页UI数据作为提高文本丰富视觉理解能力的强大资源的广泛适用性。