多模态大语言模型arxiv论文略读(145)

Reasoning Limitations of Multimodal Large Language Models. A case study of Bongard Problems

➡️ 论文标题:Reasoning Limitations of Multimodal Large Language Models. A case study of Bongard Problems
➡️ 论文作者:Mikołaj Małkiński, Szymon Pawlonka, Jacek Mańdziuk
➡️ 研究机构: Warsaw University of Technology, AGH University of Krakow
➡️ 问题背景:Bongard Problems (BPs) 是一种需要结合视觉推理和语言描述的任务,最初由 Bongard 在 1968 年提出。这些任务要求识别一组图片中的共同概念,并用自然语言描述这些概念。BPs 通常包含两个部分,每部分有六个图像,这些图像共同展示了一个概念,而另一部分则不展示该概念。近年来,BPs 的范围已经扩展到包括现实世界的图像,这增加了任务的多样性和复杂性。
➡️ 研究动机:尽管多模态大语言模型(MLLMs)在结合视觉和语言方面表现出色,但它们在解决 BPs 时的能力仍然有限。研究团队旨在评估 MLLMs 在解决 BPs 时的表现,特别是它们在处理合成图像和现实世界图像时的差异,以揭示这些模型在抽象推理方面的局限性。
➡️ 方法简介:研究团队提出了多种策略来使用 MLLMs 解决 BPs,包括直接生成自然语言答案、描述性策略、对比性策略及其迭代变体。这些策略在不同的设置下进行了测试,包括自然语言生成和二分类任务。此外,研究团队还引入了一个新的数据集 Bongard-RWR,该数据集将合成 BPs 的概念用现实世界的图像表示,以便更直接地比较 MLLMs 在不同领域的表现。
➡️ 实验设计:研究团队在三个 BPs 数据集上进行了实验,包括原始的合成图像数据集、Bongard-HOI 和 Bongard-OpenWorld。实验设计了多种评估设置,包括自然语言生成的正确性评估、基于二分类的正确性评估以及图像分类任务。通过这些实验,研究团队全面评估了 MLLMs 在解决 BPs 时的性能,特别是它们在处理合成图像和现实世界图像时的差异。

Can Multimodal Large Language Model Think Analogically?

➡️ 论文标题:Can Multimodal Large Language Model Think Analogically?
➡️ 论文作者:Diandian Guo, Cong Cao, Fangfang Yuan, Dakui Wang, Wei Ma, Yanbing Liu, Jianhui Fu
➡️ 研究机构: 中国科学院信息工程研究所、中国科学院大学网络空间安全学院、山东工业技术研究院
➡️ 问题背景:类比推理是人类认知和创造力的基础,特别是在多模态环境中。多模态大语言模型(MLLM)因其新兴能力而受到广泛关注。本文探讨了MLLM在多模态类比推理任务中的应用,具体分为MLLM作为解释器和MLLM作为预测器两个方面。
➡️ 研究动机:现有的研究主要集中在单模态类比推理上,对多模态类比推理的关注较少。本文旨在探索MLLM是否具备多模态类比推理能力,为评估MLLM提供新的视角。
➡️ 方法简介:研究团队提出了两种框架:MLLM作为解释器和MLLM作为预测器。在MLLM作为解释器的框架中,通过统一的提示模板和MLLM生成的解释来增强现有模型的性能。在MLLM作为预测器的框架中,设计了一个两步微调框架,使MLLM能够学习背景知识图谱中的三元组信息,并解决多模态类比推理问题。
➡️ 实验设计:实验在MARS和MBARD两个数据集上进行。MARS数据集包含10,685个训练问题、1,228个验证问题和1,415个测试问题,用于评估多模态类比推理任务。MBARD数据集则用于评估MLLM在零样本场景中的多模态类比推理能力。实验结果表明,MLLM在多模态类比推理任务中表现出色,特别是在零样本场景中。

ChatTracker: Enhancing Visual Tracking Performance via Chatting with Multimodal Large Language Model

➡️ 论文标题:ChatTracker: Enhancing Visual Tracking Performance via Chatting with Multimodal Large Language Model
➡️ 论文作者:Yiming Sun, Fan Yu, Shaoxiang Chen, Yu Zhang, Junwei Huang, Chenhui Li, Yang Li, Changbo Wang
➡️ 研究机构: 东华大学计算机科学与技术学院、复旦大学计算机科学学院、美团公司、上海分子智能合成前沿科学中心
➡️ 问题背景:视觉目标跟踪旨在基于初始边界框在视频序列中定位目标对象。近年来,视觉-语言(VL)跟踪器利用额外的自然语言描述来增强在各种应用中的通用性。然而,VL跟踪器在跟踪性能上仍不如最先进的视觉跟踪器,主要原因是其对人工文本注释的严重依赖,这些注释往往包含模糊的语言描述。
➡️ 研究动机:现有的VL跟踪器在主流基准测试中表现不佳,主要因为它们依赖于人工注释的文本,这些文本通常包含模糊的语言描述,并且忽视了文本中嵌入的语义信息。研究团队提出了一种新的框架ChatTracker,利用多模态大语言模型(MLLM)生成高质量的语言描述,以增强跟踪性能。
➡️ 方法简介:研究团队提出了一种基于反思的提示优化(RPO)模块,通过跟踪反馈迭代地优化MLLM生成的描述,使其更加准确和相关。此外,还设计了一个语义跟踪模块,有效利用MLLM提供的语义信息,生成最终的跟踪结果。
➡️ 实验设计:在多个广泛认可的公开数据集上进行了实验,包括LaSOT、TrackingNet、TNL2K和OTB,以验证所提出方法的有效性和效率。实验结果表明,ChatTracker在多个数据集上达到了最先进的性能,并通过消融研究进一步验证了各个模块的有效性。

KptLLM: Unveiling the Power of Large Language Model for Keypoint Comprehension

➡️ 论文标题:KptLLM: Unveiling the Power of Large Language Model for Keypoint Comprehension
➡️ 论文作者:Jie Yang, Wang Zeng, Sheng Jin, Lumin Xu, Wentao Liu, Chen Qian, Ruimao Zhang
➡️ 研究机构: Sun Yat-sen University、The Chinese University of Hong Kong, Shenzhen、The University of Hong Kong、The Chinese University of Hong Kong、SenseTime Research and Tetras.AI
➡️ 问题背景:多模态大语言模型(MLLMs)在图像理解方面取得了显著进展,但这些模型在捕捉像素级语义细节(如关键点)方面仍存在困难。关键点检测是计算机视觉中的一个基本问题,支持多种应用,如可控图像/视频生成、以人为中心的感知和AR/VR系统。然而,现有的模型在关键点的语义理解方面仍显不足,主要依赖于视觉模式的直接学习,而忽视了关键点的语义理解,导致提示的误读和预测的不准确。
➡️ 研究动机:为了克服现有模型在关键点语义理解上的不足,研究团队提出了一个全新的问题——语义关键点理解(Semantic Keypoint Comprehension),旨在通过视觉和语义两个维度全面理解关键点。研究团队设计了KptLLM,一个统一的多模态模型,采用“识别-检测”策略,有效解决了语义关键点理解的三个任务:关键点语义理解、基于视觉提示的关键点检测和基于文本提示的关键点检测。
➡️ 方法简介:KptLLM框架包含四个关键组件:视觉编码器、提示编码器、提示特征提取器和预训练的大语言模型(LLM)。视觉编码器从查询图像和支持图像中提取特征;提示编码器将关键点提示编码为提示嵌入;提示特征提取器从图像特征中提取提示特定的特征;预训练的LLM处理多模态令牌,生成关键点的语义描述和位置。KptLLM通过链式思维过程,首先识别关键点的语义,然后精确检测其位置,从而提高了模型的泛化能力和关键点理解的准确性。
➡️ 实验设计:研究团队在两个数据集上进行了实验,包括MP-100和AP-10K。实验设计了不同的任务场景,如关键点语义理解、基于视觉提示的关键点检测和基于文本提示的关键点检测。实验结果表明,KptLLM在各种关键点检测基准上表现出色,特别是在语义关键点理解方面具有独特的优势。

DeeR-VLA: Dynamic Inference of Multimodal Large Language Models for Efficient Robot Execution

➡️ 论文标题:DeeR-VLA: Dynamic Inference of Multimodal Large Language Models for Efficient Robot Execution
➡️ 论文作者:Yang Yue, Yulin Wang, Bingyi Kang, Yizeng Han, Shenzhi Wang, Shiji Song, Jiashi Feng, Gao Huang
➡️ 研究机构: Tsinghua University、ByteDance
➡️ 问题背景:多模态大语言模型(Multimodal Large Language Models, MLLMs)在处理复杂语言和视觉数据方面展现了卓越的能力,为实现通用机器人(能够理解复杂的人类指令并完成多种任务)提供了可能。然而,MLLMs在实际机器人应用中面临计算和内存资源有限的挑战,因为每次激活MLLM以获取机器人动作时,需要处理数十亿参数,导致巨大的计算成本和内存使用。
➡️ 研究动机:研究团队观察到,在控制机器人完成任务的过程中,相对“简单”的情况占大多数,这些情况通常只需要较小的模型即可获得正确的机器人动作。基于这一观察,研究团队提出了动态早期退出框架(DeeR-VLA),旨在根据每种情况自动调整MLLM的大小,从而提高计算效率,减少资源消耗。
➡️ 方法简介:研究团队设计了一种多出口架构的MLLM,该架构允许在激活适当大小的模型后立即获得正确的机器人动作,避免了进一步的冗余计算。此外,研究团队开发了新的算法,用于根据预定义的需求(如平均计算成本、峰值计算成本和GPU内存使用)建立早期终止标准。这些算法确保DeeR在不同资源约束下高效运行,同时保持竞争力。
➡️ 实验设计:研究团队在CALVIN机器人操作基准上进行了实验,评估了DeeR在不同任务中的性能。实验设计了不同的任务复杂度和资源限制条件,以全面评估DeeR的计算效率和性能。实验结果表明,DeeR在不牺牲性能的情况下,显著降低了计算成本和GPU内存使用。

你可能感兴趣的:(#,mllm_arxiv,语言模型,人工智能,自然语言处理,论文笔记,论文阅读)