VQA

AAAI—24—Main—paper（关于Multi—Modal的全部文章摘要）

下游任务（1）视觉问答1.视觉问答(visualquestionanswering,VQA).给予视觉输入(图像或视频),VQA代表了正确提供一个问题

·2025-07-10 14:11

VLA模型

以下是VLA模型发展的时间线：早期阶段：计算机视觉和自然语言处理的集成大约在2015年开始，随着视觉问答(VQA)系统的出现。这些系

·2025-07-05 00:48

专注于医疗领域的多模态开源大型语言模型：Lingshu-32B

Lingshu：medicaldomainmultimodallargelanguagemodels一、研究背景与概述Lingshu是一款专注于医疗领域的多模态大型语言模型，它在医学视觉问答（VQA）任务和报告生成方面达到了前所未有的性能高度

Open-source-AI·2025-06-15 23:55

CVPR 2025 | 火山引擎获得NTIRE 视频质量评价挑战赛全球第一

CVPR2025NTIRE」中，火山引擎多媒体实验室团队同学组成“SharpMind”小组，在NTIRE2025Short-formUGCVideoQualityAssessmentChallenge-Track1-VQA

·2025-04-14 20:45

大模型日报｜9 篇必读的大模型论文

他们的CubifyAnythingVQA（CA-VQA）数据涵盖多种空间任务，包括空间关系预测、度量尺寸

AI大模型头条·2025-04-02 13:14

Qwen2.5-Omni 多模态旗舰模型深度解析：性能、部署与个人玩家上手指南

目录1.Qwen2.5-Omni核心技术创新（1）统一的多模态架构（2）超长上下文支持（1MTokens）（3）高效推理优化2.与主流竞品全方位对比性能Benchmark对比（MMLU、VQA等任务）3

张3蜂·2025-03-30 23:54

Dyn-VQA：含1452动态问题的视觉问答数据集，需灵活提供知识检索方案，查询、工具与检索时间皆可变。

2024-11-05，由阿里巴巴集团创建Dyn-VQA数据集，它包含三种类型的“动态”问题，需要复杂的知识检索策略，这些问题的查询、工具和时间都是可变的。

·2025-03-19 11:09

视频编辑质量评价的开源项目 VE-Bench 介绍

传统的视频质量评估(VQA)方法(Wu等人，2023a,2022;Kou等人，2

码流怪侠·2025-02-08 01:25

Qwen 模型自动构建知识图谱，生成病例 + 评价指标优化策略

关于数据库和检索方式的选择AIMedicalConsultantforVisualQuestionAnswering(VQA)系统：更适合在前端使用向量数据库（如FAISS）结合关系型数据库来实现图像和文本的检索与存储

2301_79306982·2025-02-02 13:11

【VQA】VQA数据集和判别标准

一、VQA常用的数据集：1.COCO-QACOCO-QA数据集中的图像来自于MS-COCO数据集，主要包括123287张图像，其中72738张用于训练，38948用于测试，并且每张图像都有一个question

阮恒·2024-02-10 18:26

MUTAN readme文件（翻译）

\VQA的新版本PyTorch代码现已提供，链接在这里:代码链接这个仓库是由RemiCadene（LIP6）和HediBen-Younes（LIP6-Heuritech）创建的，他们是在UPMC-LIP6

hongyuyahei·2024-02-07 04:30

论文阅读：Learning to Compose Dynamic Tree Structure for Visual Context(CVPR2019)

因为我的方向是场景图，所以仅介绍这篇论文中有关场景图的内容，不涉及VQA。

糖豆豆今天也要努力鸭·2024-02-03 09:18

Eyes Wide Shut? Exploring the Visual Shortcomings of Multimodal LLMs

论文中指出，上面这些VQA问题，人类可以瞬间给出正确的答案，但是多模态给出的结果却是错误的。是哪个环节出了问题呢？视觉编码器的问题？大语言模型出现了幻觉？还是视觉特征与语言模型间的特征没有对齐？

huahuahuahhhh·2024-01-21 21:02

2024年1月17日Arxiv热门NLP大模型论文：Generative Multi-Modal Knowledge Retrieval with Large Language Models

例如，在视觉问答（VQA）、多模态实体链接和多模态对话等应用中，多模态上下文内的信息可能不足以满足需求，因此需要获取外部知识。

夕小瑶·2024-01-18 12:43

《Improved Fusion of Visual and Language Representations by Dense Symmetric Co-Attention for VQA》读后感想

跟随attetion工作阅读该文摘要该文给我带来的思考首先于注意力的使用，它采用的co-attention结构，注意力函数类似于attentionisallyouneed类似采用多层尺度乘法注意，第二它对齐图像和问句特征采用多层的co-attention网络，通过拉伸的特征矩阵表示句子或图像。模型结构如图所示，Q和V分别是图像和问句的特征表示，大小为d×T，d×N，T为特征图展平后长度，N为句子长

hema12138·2024-01-15 10:08

多模态统计图表综述：图表分类，图表理解，图表生成，图表大一统模型

Overview多模态统计图表综述一、图表分类1.1Survey1.2常见分类数据集：1.3常见图表类型二、图表理解2.1VQA2..1.1DVQACVPR20182.1.2PlotQA20192.1.3ChartQA20222.2Summary2.2.1Chart-to-textACL2022

猴猴猪猪·2023-12-25 05:13

bottom-up-attention-vqa-master 成功复现！！！

代码地址1、create_dictionary.py建立词典和使用预训练的glove向量（1）create_dictionary()遍历每个question文件取出所关注的question部分，qs遍历qs，对每个问题的文本内容进行分词，并将分词结果添加到字典中，True表示添加新词而非索引#创建词典#词典用于将文本数据中的单词映射到唯一的整数标识符defcreate_dictionary(dat

hongyuyahei·2023-12-18 17:58

【论文解读】NuScenes-QA：自动驾驶场景的多模态视觉问答基准

arxiv.org/pdf/2305.14836.pdf开源代码：https://github.com/qiantianwen/NuScenes-QA摘要：我们在自动驾驶背景下引入了一种新颖的视觉问答（VQA

深度之眼·2023-12-03 06:16

论文阅读——Img2LLM（cvpr2023）

2212.10846]FromImagestoTextualPrompts:Zero-shotVQAwithFrozenLargeLanguageModels(arxiv.org)一、介绍使用大语言模解决VQA

じんじん·2023-12-02 07:11

【数据处理】pth文件读取

文件中1.1json文件数据预处理----trainset.pth文件self.path_trainset=osp.join(self.subdir_processed,'trainset.pth')#将vqa2.0json

snow5618·2023-12-01 13:58

论文笔记：Bottom-Up and Top-Down Attention for Image Captioningand Visual Question Answering

主要学习该方法在VQA中的用法。摘要自顶向下和自底向上结合的注意力机制，使注意力能够在物体和其他显著图像区域的水平上进行计算。

hongyuyahei·2023-12-01 12:09

LOIS: Looking Out of Instance Semanticsfor Visual Question Answering

一、论文速读论文arxiv链接1.1摘要视觉问答（VQA）作为一种需要在视觉和语言之间架起桥梁以正确推断答案的多模态任务，已被密集研究。最近的尝试开发了各种

hanranV·2023-11-29 17:32

Fully Authentic Visual Question Answering Dataset from Online Communities

一、论文速读arxiv：https://arxiv.org/pdf/2311.15562.pdf1.1摘要视觉问答（VQA）是指关于图像的问题的回答。

hanranV·2023-11-29 17:31

mcan-vqa代码

总代码readme.md先决条件软硬件要求您可能需要一台至少配备1个GPU(>=8GB)、20GB内存和50GB可用磁盘空间的机器。我们强烈建议使用SSD驱动器来保证高速I/O。您应该首先安装一些必要的软件包：安装Python>=3.5安装Cuda>=9.0和cuDNN使用CUDA安装PyTorch>=0.4.1（也支持PyTorch1.x）安装SpaCy并初始化GloVe如下：$pipinsta

浪里摸鱼·2023-11-26 14:53

论文阅读——Prophet（cvpr2023）

一、Framework这个模型分为两阶段：一是答案启发生成阶段（answerheuristicsgenerationstage），即在一个基于知识的VQA数据集上训练一个普通的VQA模型，产生两种类型的答案启发

じんじん·2023-11-26 14:53

MCAN：Deep Modular Co-Attention Networks for Visual Question Answering——2019 CVPR 论文笔记

作者认为VQA任务需要对图像中的视觉内容和问题中的文本内容进行细粒度和同步的理解。因此，设计一个有效的“共同注意”模型将问题中的关键词与图像中的关键对象相关联是VQA性能提升的核心。

BXDBB·2023-11-26 14:52

SwapMix: Diagnosing and Regularizing the Over-Reliance on Visual Context in ... ——2022 CVPR 论文笔记

这是今年4月份读的一篇论文了，个人认为这篇文章idea非常有趣，可解释性较强，符合VQA方向的发展趋势。

BXDBB·2023-11-26 14:52

论文阅读——MCAN（cvpr2019）

补充一下MCAN-VQA：对图片的处理：首先输入图片到FasterR-CNN，会先设定一个判断是否检测到物体的阈值，这样动态的生成m∈[10,100]个目标，然后从检测到的对应的区域通过平均池化提取特征

じんじん·2023-11-26 14:20

NLP实践——VQA/Caption生成模型BLIP-2的应用介绍

NLP实践——VQA/Caption生成模型BLIP-2的应用介绍1.简介2.模型下载3.运行环境4.模型应用1.简介今天介绍一个跨模态模型，也是最近比较火的一个工作，叫做BLIP-2。

常鸿宇·2023-11-25 06:01

新王加冕，GPT-4V 屠榜视觉问答

当前，多模态大型模型（Multi-modalLargeLanguageModel,MLLM）在视觉问答（VQA）领域展现了卓越的能力。

夕小瑶·2023-11-25 01:02

多模态常见任务介绍

视觉问答（VQA，VisualQuestionAnswer）目标：给定一个图片以及问题，需要理解图片的内容并基于此用自然语言回答问题。

佛系调参·2023-11-24 14:22

YOLO改进系列之注意力机制（CoTAttention模型介绍）

简介CoTAttention网络是一种用于多模态场景下的视觉问答（VisualQuestionAnswering，VQA）任务的神经网络模型。

BestSongC·2023-11-22 03:35

Yolov8改进CoTAttention注意力机制，效果秒杀CBAM、SE

1.CoTAttention论文地址：2107.12292.pdf(arxiv.org)CoTAttention网络是一种用于多模态场景下的视觉问答（VisualQuestionAnswering，VQA

code2035·2023-11-04 14:31

视觉问答（VQA）12篇顶会精选论文合集，附常用数据集下载

今天来聊聊计算机视觉和自然语言处理交叉的一个热门研究方向：视觉问答（VQA）。视觉问答的任务是：给出一张图片和一个关于这张图片的自然语言问题，计算机需要根据图片的内容自动回答这个问题。

深度之眼·2023-11-03 19:17

通俗讲解看图说话（Image Captioning）和视觉问答（VQA）任务

“看图说话”之ImageCaptioning问题介绍ImageCaptioning任务的定义是对一幅图片生成相对于图片内容的文本描述。一个AI系统不仅需要对图片进行识别，也需要理解和解释看到的图片内容，并且能够像人一样描述出图片中的对象之间的关系。-输入：一张图片-输出：一句文本描述最早的imagecaptioning系统是2014年Circa提出的，该系统使用多层感知系统（multi-layer

top_小酱油·2023-10-30 15:25

minigpt-v2:large language model as a unified interface for vision-lanuage multi-task learning

1.introduction不同任务下的回答不同，提出一种以任务为导向的指导训练方法，为每个人物提供一个独特的任务标识符token，为训练视觉问答任务的所有数据样本提供一个[vqa]标识符token，总共提供

Kun Li·2023-10-28 09:01

多模态论文串讲

除了传统的VQA、图文检索、图像描述等，还有受启发于CLIP的新任务LanguageGuidedDetection/Segmentation、文本图像生成、文本视频生成等。

白蜡虫可·2023-10-20 01:04

Causal Attention论文详解

1.背景介绍CausalAttention论文是一篇因果推断(causalinference)和注意力(attention)结合的一篇文章，主要用在视觉和文本结合的领域，如VQA(VisualQuestionAnswering

MLTalks·2023-10-18 02:52

VLP、多模态图文任务（4）

图文检索、视觉问答（VQA）和图像描述和可以说是文献中最广泛研究的三个图文任务。它们要求AI系统理解输入图像和文本内容。

x_cube·2023-10-16 07:47

目前计算机视觉的现状和趋势，你怎么看？

重磅干货，第一时间送达链接：https://www.zhihu.com/question/361846939编辑：深度学习与计算机视觉目前计算机视觉领域相对于目前硬件和技术水平来说目标检测，追踪，分割，VQA

小白学视觉·2023-10-10 22:52

1个模型横扫40+个SOTA！22位华人共同打造佛罗伦萨模型，一统图像视频文本，含9亿图像-文本对...

Florence可以轻松适用于各种计算机视觉任务，如分类、目标检测、VQA、看图说话、视频检索和动作识别，并在超过40个基准中刷新了SOTA。

我爱计算机视觉·2023-10-03 07:00

【BLIP/BLIP2/InstructBLIP】一篇文章快速了解BLIP系列（附代码讲解说明）

1.4.2方法2.BLIP22.1Q-Former的设计2.2实现功能2.2.1图像文本检索(Image-TextRetrieval)2.2.2图像字幕(ImageCaptioning)2.2.3视觉问答(VQA

莫余·2023-10-02 08:42

面向任务、多用户、VQA：Task-Oriented Multi-User Semantic Communications for VQA

目录论文简介动机：为什么作者想要解决这个问题？贡献：作者在这篇论文中完成了什么工作(创新点)？规划：他们如何完成工作？理由：通过什么实验验证它们的工作结果自己的看法论文简介作者HuiqiangXieZhijinQinGeoffreyYeLi发表期刊or会议《IEEEWIRELESSCOMMUNICATIONSLETTERS》发表时间2022.3动机：为什么作者想要解决这个问题？现存的工作主要关

一去不复返的通信er·2023-09-17 20:06

An Empirical Study of GPT-3 for Few-Shot Knowledge-Based VQA

GPT-3对基于小样本知识的VQA的实证研究摘要引言相关工作方法OK-VQA上的实验VQAv2上的实验结论摘要基于知识的视觉问答（VQA）涉及回答需要图像中不存在的外部知识的问题。

UnknownBody·2023-09-05 12:27

谷歌发布全新搜索系统AVIS！让视觉大模型指导搜索，集成三类工具

在大型语言模型（LLM）的加持下，与视觉结合的多模态任务，如图像描述、视觉问答（VQA）和开放词汇目标识别（open-vocabularyobjectdetection）等都取得了重大进展。

夕小瑶·2023-08-30 01:14

使用大型语言模型进行自主视觉信息搜索

图像取自OK-VQA数据集。在”AVIS：使用大型语言模型的自主视觉信息搜索“，我们介绍了一种新颖的方法，该方法可以在视觉信息搜索任务上实现最先进的结果。

ygtu2018·2023-08-24 05:31

【多模态】26、视觉-文本多模态任务超详细介绍「CLIP/LSeg/ViLD/GLIP/ALBEF/BLIP/CoCa/BEIT」

1.1CLIP在分割上的改进工作1.1.1LSeg1.1.2GroupViT1.2CLIP在目标检测上的改进工作1.2.1ViLD1.2.2GLIPv11.2.3GLIPv2二、ViLT/ALBEF：多模态融合在VQA

呆呆的猫·2023-08-21 20:09

【NLP】1、BERT | 双向 transformer 预训练语言模型

Google一、背景在BERT之前的语言模型如GPT都是单向的模型，但BERT认为虽然单向（从左到右预测）预测任务符合语言模型的建模过程，但对一些语言理解任务不太友好，因为要理解一句话说的是什么意思的话（如VQA