E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
VQA
AAAI—24—Main—paper(关于Multi—Modal的全部文章摘要)
下游任务(1)视觉问答1.视觉问答(visualquestionanswering,
VQA
).给予视觉输入(图像或视频),
VQA
代表了正确提供一个问题
·
2025-07-10 14:11
VLA模型
以下是VLA模型发展的时间线:早期阶段:计算机视觉和自然语言处理的集成大约在2015年开始,随着视觉问答(
VQA
)系统的出现。这些系
·
2025-07-05 00:48
专注于医疗领域的多模态开源大型语言模型:Lingshu-32B
Lingshu:medicaldomainmultimodallargelanguagemodels一、研究背景与概述Lingshu是一款专注于医疗领域的多模态大型语言模型,它在医学视觉问答(
VQA
)任务和报告生成方面达到了前所未有的性能高度
Open-source-AI
·
2025-06-15 23:55
前沿
语言模型
人工智能
自然语言处理
算法
开源
CVPR 2025 | 火山引擎获得NTIRE 视频质量评价挑战赛全球第一
CVPR2025NTIRE」中,火山引擎多媒体实验室团队同学组成“SharpMind”小组,在NTIRE2025Short-formUGCVideoQualityAssessmentChallenge-Track1-
VQA
·
2025-04-14 20:45
音视频大模型llm
大模型日报|9 篇必读的大模型论文
他们的CubifyAnythingVQA(CA-
VQA
)数据涵盖多种空间任务,包括空间关系预测、度量尺寸
AI大模型头条
·
2025-04-02 13:14
每日大模型论文
人工智能
语言模型
gpt
机器学习
ai
Qwen2.5-Omni 多模态旗舰模型深度解析:性能、部署与个人玩家上手指南
目录1.Qwen2.5-Omni核心技术创新(1)统一的多模态架构(2)超长上下文支持(1MTokens)(3)高效推理优化2.与主流竞品全方位对比性能Benchmark对比(MMLU、
VQA
等任务)3
张3蜂
·
2025-03-30 23:54
#
神经网络
开源
#
设计模式
人工智能
语言模型
开源协议
Dyn-
VQA
:含1452动态问题的视觉问答数据集,需灵活提供知识检索方案,查询、工具与检索时间皆可变。
2024-11-05,由阿里巴巴集团创建Dyn-
VQA
数据集,它包含三种类型的“动态”问题,需要复杂的知识检索策略,这些问题的查询、工具和时间都是可变的。
·
2025-03-19 11:09
数据集
视频编辑质量评价的开源项目 VE-Bench 介绍
传统的视频质量评估(
VQA
)方法(Wu等人,2023a,2022;Kou等人,2
码流怪侠
·
2025-02-08 01:25
视频质量评价-视频前处理
深度学习-PyTorch
视频质量评价
AIGC
人工智能
VE-Bench
VQA
大模型
Qwen 模型自动构建知识图谱,生成病例 + 评价指标优化策略
关于数据库和检索方式的选择AIMedicalConsultantforVisualQuestionAnswering(
VQA
)系统:更适合在前端使用向量数据库(如FAISS)结合关系型数据库来实现图像和文本的检索与存储
2301_79306982
·
2025-02-02 13:11
ai
千问
语言模型
人工智能
【
VQA
】
VQA
数据集和判别标准
一、
VQA
常用的数据集:1.COCO-QACOCO-QA数据集中的图像来自于MS-COCO数据集,主要包括123287张图像,其中72738张用于训练,38948用于测试,并且每张图像都有一个question
阮恒
·
2024-02-10 18:26
MUTAN readme文件(翻译)
\
VQA
的新版本PyTorch代码现已提供,链接在这里:代码链接这个仓库是由RemiCadene(LIP6)和HediBen-Younes(LIP6-Heuritech)创建的,他们是在UPMC-LIP6
hongyuyahei
·
2024-02-07 04:30
学习
笔记
论文阅读:Learning to Compose Dynamic Tree Structure for Visual Context(CVPR2019)
因为我的方向是场景图,所以仅介绍这篇论文中有关场景图的内容,不涉及
VQA
。
糖豆豆今天也要努力鸭
·
2024-02-03 09:18
机器学习
场景图
scene
graph
场景理解
计算机视觉
cv
Eyes Wide Shut? Exploring the Visual Shortcomings of Multimodal LLMs
论文中指出,上面这些
VQA
问题,人类可以瞬间给出正确的答案,但是多模态给出的结果却是错误的。是哪个环节出了问题呢?视觉编码器的问题?大语言模型出现了幻觉?还是视觉特征与语言模型间的特征没有对齐?
huahuahuahhhh
·
2024-01-21 21:02
多模态
2024年1月17日Arxiv热门NLP大模型论文:Generative Multi-Modal Knowledge Retrieval with Large Language Models
例如,在视觉问答(
VQA
)、多模态实体链接和多模态对话等应用中,多模态上下文内的信息可能不足以满足需求,因此需要获取外部知识。
夕小瑶
·
2024-01-18 12:43
人工智能
深度学习
机器学习
《Improved Fusion of Visual and Language Representations by Dense Symmetric Co-Attention for
VQA
》读后感想
跟随attetion工作阅读该文摘要该文给我带来的思考首先于注意力的使用,它采用的co-attention结构,注意力函数类似于attentionisallyouneed类似采用多层尺度乘法注意,第二它对齐图像和问句特征采用多层的co-attention网络,通过拉伸的特征矩阵表示句子或图像。模型结构如图所示,Q和V分别是图像和问句的特征表示,大小为d×T,d×N,T为特征图展平后长度,N为句子长
hema12138
·
2024-01-15 10:08
多模态统计图表综述:图表分类,图表理解,图表生成,图表大一统模型
Overview多模态统计图表综述一、图表分类1.1Survey1.2常见分类数据集:1.3常见图表类型二、图表理解2.1
VQA
2..1.1DVQACVPR20182.1.2PlotQA20192.1.3ChartQA20222.2Summary2.2.1Chart-to-textACL2022
猴猴猪猪
·
2023-12-25 05:13
多模态大模型
人工智能
深度学习
论文阅读
bottom-up-attention-
vqa
-master 成功复现!!!
代码地址1、create_dictionary.py建立词典和使用预训练的glove向量(1)create_dictionary()遍历每个question文件取出所关注的question部分,qs遍历qs,对每个问题的文本内容进行分词,并将分词结果添加到字典中,True表示添加新词而非索引#创建词典#词典用于将文本数据中的单词映射到唯一的整数标识符defcreate_dictionary(dat
hongyuyahei
·
2023-12-18 17:58
vqa
python
【论文解读】NuScenes-QA:自动驾驶场景的多模态视觉问答基准
arxiv.org/pdf/2305.14836.pdf开源代码:https://github.com/qiantianwen/NuScenes-QA摘要:我们在自动驾驶背景下引入了一种新颖的视觉问答(
VQA
深度之眼
·
2023-12-03 06:16
人工智能干货
粉丝的投稿
深度学习干货
自动驾驶
人工智能
机器学习
视觉问答
论文阅读——Img2LLM(cvpr2023)
2212.10846]FromImagestoTextualPrompts:Zero-shotVQAwithFrozenLargeLanguageModels(arxiv.org)一、介绍使用大语言模解决
VQA
じんじん
·
2023-12-02 07:11
论文
深度学习
人工智能
【数据处理】pth文件读取
文件中1.1json文件数据预处理----trainset.pth文件self.path_trainset=osp.join(self.subdir_processed,'trainset.pth')#将
vqa
2.0json
snow5618
·
2023-12-01 13:58
视觉问答
pytorch
python
论文笔记:Bottom-Up and Top-Down Attention for Image Captioningand Visual Question Answering
主要学习该方法在
VQA
中的用法。摘要自顶向下和自底向上结合的注意力机制,使注意力能够在物体和其他显著图像区域的水平上进行计算。
hongyuyahei
·
2023-12-01 12:09
vqa
论文阅读
LOIS: Looking Out of Instance Semanticsfor Visual Question Answering
一、论文速读论文arxiv链接1.1摘要视觉问答(
VQA
)作为一种需要在视觉和语言之间架起桥梁以正确推断答案的多模态任务,已被密集研究。最近的尝试开发了各种
hanranV
·
2023-11-29 17:32
论文阅读
人工智能
计算机视觉
深度学习
Fully Authentic Visual Question Answering Dataset from Online Communities
一、论文速读arxiv:https://arxiv.org/pdf/2311.15562.pdf1.1摘要视觉问答(
VQA
)是指关于图像的问题的回答。
hanranV
·
2023-11-29 17:31
论文阅读
人工智能
mcan-
vqa
代码
总代码readme.md先决条件软硬件要求您可能需要一台至少配备1个GPU(>=8GB)、20GB内存和50GB可用磁盘空间的机器。我们强烈建议使用SSD驱动器来保证高速I/O。您应该首先安装一些必要的软件包:安装Python>=3.5安装Cuda>=9.0和cuDNN使用CUDA安装PyTorch>=0.4.1(也支持PyTorch1.x)安装SpaCy并初始化GloVe如下:$pipinsta
浪里摸鱼
·
2023-11-26 14:53
pytorch
python
深度学习
论文阅读——Prophet(cvpr2023)
一、Framework这个模型分为两阶段:一是答案启发生成阶段(answerheuristicsgenerationstage),即在一个基于知识的
VQA
数据集上训练一个普通的
VQA
模型,产生两种类型的答案启发
じんじん
·
2023-11-26 14:53
论文
人工智能
MCAN:Deep Modular Co-Attention Networks for Visual Question Answering——2019 CVPR 论文笔记
作者认为
VQA
任务需要对图像中的视觉内容和问题中的文本内容进行细粒度和同步的理解。因此,设计一个有效的“共同注意”模型将问题中的关键词与图像中的关键对象相关联是
VQA
性能提升的核心。
BXDBB
·
2023-11-26 14:52
VQA
论文阅读
人工智能
深度学习
自然语言处理
SwapMix: Diagnosing and Regularizing the Over-Reliance on Visual Context in ... ——2022 CVPR 论文笔记
这是今年4月份读的一篇论文了,个人认为这篇文章idea非常有趣,可解释性较强,符合
VQA
方向的发展趋势。
BXDBB
·
2023-11-26 14:52
VQA
论文阅读
人工智能
深度学习
论文阅读——MCAN(cvpr2019)
补充一下MCAN-
VQA
:对图片的处理:首先输入图片到FasterR-CNN,会先设定一个判断是否检测到物体的阈值,这样动态的生成m∈[10,100]个目标,然后从检测到的对应的区域通过平均池化提取特征
じんじん
·
2023-11-26 14:20
论文
人工智能
NLP实践——
VQA
/Caption生成模型BLIP-2的应用介绍
NLP实践——
VQA
/Caption生成模型BLIP-2的应用介绍1.简介2.模型下载3.运行环境4.模型应用1.简介今天介绍一个跨模态模型,也是最近比较火的一个工作,叫做BLIP-2。
常鸿宇
·
2023-11-25 06:01
生成模型
自然语言处理
计算机视觉
自然语言处理
BLIP
多模态
新王加冕,GPT-4V 屠榜视觉问答
当前,多模态大型模型(Multi-modalLargeLanguageModel,MLLM)在视觉问答(
VQA
)领域展现了卓越的能力。
夕小瑶
·
2023-11-25 01:02
人工智能
多模态常见任务介绍
视觉问答(
VQA
,VisualQuestionAnswer)目标:给定一个图片以及问题,需要理解图片的内容并基于此用自然语言回答问题。
佛系调参
·
2023-11-24 14:22
多模态
大模型
人工智能
深度学习
语言模型
YOLO改进系列之注意力机制(CoTAttention模型介绍)
简介CoTAttention网络是一种用于多模态场景下的视觉问答(VisualQuestionAnswering,
VQA
)任务的神经网络模型。
BestSongC
·
2023-11-22 03:35
YOLO
目标检测
pytorch
人工智能
深度学习
Yolov8改进CoTAttention注意力机制,效果秒杀CBAM、SE
1.CoTAttention论文地址:2107.12292.pdf(arxiv.org)CoTAttention网络是一种用于多模态场景下的视觉问答(VisualQuestionAnswering,
VQA
code2035
·
2023-11-04 14:31
yolo从入门到精通
YOLO
人工智能
深度学习
目标检测
视觉问答(
VQA
)12篇顶会精选论文合集,附常用数据集下载
今天来聊聊计算机视觉和自然语言处理交叉的一个热门研究方向:视觉问答(
VQA
)。视觉问答的任务是:给出一张图片和一个关于这张图片的自然语言问题,计算机需要根据图片的内容自动回答这个问题。
深度之眼
·
2023-11-03 19:17
深度学习干货
人工智能干货
人工智能
计算机视觉
NLP
通俗讲解看图说话(Image Captioning)和视觉问答(
VQA
)任务
“看图说话”之ImageCaptioning问题介绍ImageCaptioning任务的定义是对一幅图片生成相对于图片内容的文本描述。一个AI系统不仅需要对图片进行识别,也需要理解和解释看到的图片内容,并且能够像人一样描述出图片中的对象之间的关系。-输入:一张图片-输出:一句文本描述最早的imagecaptioning系统是2014年Circa提出的,该系统使用多层感知系统(multi-layer
top_小酱油
·
2023-10-30 15:25
minigpt-v2:large language model as a unified interface for vision-lanuage multi-task learning
1.introduction不同任务下的回答不同,提出一种以任务为导向的指导训练方法,为每个人物提供一个独特的任务标识符token,为训练视觉问答任务的所有数据样本提供一个[
vqa
]标识符token,总共提供
Kun Li
·
2023-10-28 09:01
大模型
多模态和生成
语言模型
人工智能
自然语言处理
minigpt
多模态论文串讲
除了传统的
VQA
、图文检索、图像描述等,还有受启发于CLIP的新任务LanguageGuidedDetection/Segmentation、文本图像生成、文本视频生成等。
白蜡虫可
·
2023-10-20 01:04
论文笔记
深度学习
计算机视觉
Causal Attention论文详解
1.背景介绍CausalAttention论文是一篇因果推断(causalinference)和注意力(attention)结合的一篇文章,主要用在视觉和文本结合的领域,如
VQA
(VisualQuestionAnswering
MLTalks
·
2023-10-18 02:52
大模型
深度学习
人工智能
机器学习
pytorch
python
transformer
VLP、多模态图文任务(4)
图文检索、视觉问答(
VQA
)和图像描述和可以说是文献中最广泛研究的三个图文任务。它们要求AI系统理解输入图像和文本内容。
x_cube
·
2023-10-16 07:47
VLP
计算机视觉
人工智能
自然语言处理
语言模型
目前计算机视觉的现状和趋势,你怎么看?
重磅干货,第一时间送达链接:https://www.zhihu.com/question/361846939编辑:深度学习与计算机视觉目前计算机视觉领域相对于目前硬件和技术水平来说目标检测,追踪,分割,
VQA
小白学视觉
·
2023-10-10 22:52
计算机视觉
人工智能
机器学习
深度学习
1个模型横扫40+个SOTA!22位华人共同打造佛罗伦萨模型,一统图像视频文本,含9亿图像-文本对...
Florence可以轻松适用于各种计算机视觉任务,如分类、目标检测、
VQA
、看图说话、视频检索和动作识别,并在超过40个基准中刷新了SOTA。
我爱计算机视觉
·
2023-10-03 07:00
大数据
计算机视觉
机器学习
人工智能
深度学习
【BLIP/BLIP2/InstructBLIP】一篇文章快速了解BLIP系列(附代码讲解说明)
1.4.2方法2.BLIP22.1Q-Former的设计2.2实现功能2.2.1图像文本检索(Image-TextRetrieval)2.2.2图像字幕(ImageCaptioning)2.2.3视觉问答(
VQA
莫余
·
2023-10-02 08:42
多模态
AIGC
人工智能
python
多模态
面向任务、多用户、
VQA
:Task-Oriented Multi-User Semantic Communications for
VQA
目录论文简介动机:为什么作者想要解决这个问题?贡献:作者在这篇论文中完成了什么工作(创新点)?规划:他们如何完成工作?理由:通过什么实验验证它们的工作结果自己的看法论文简介作者HuiqiangXieZhijinQinGeoffreyYeLi发表期刊or会议《IEEEWIRELESSCOMMUNICATIONSLETTERS》发表时间2022.3动机:为什么作者想要解决这个问题? 现存的工作主要关
一去不复返的通信er
·
2023-09-17 20:06
智简网络&语义通信
文献阅读
6G
人工智能
语义通信
智简网络
无线通信
An Empirical Study of GPT-3 for Few-Shot Knowledge-Based
VQA
GPT-3对基于小样本知识的
VQA
的实证研究摘要引言相关工作方法OK-
VQA
上的实验VQAv2上的实验结论摘要基于知识的视觉问答(
VQA
)涉及回答需要图像中不存在的外部知识的问题。
UnknownBody
·
2023-09-05 12:27
LLM
gpt-3
人工智能
谷歌发布全新搜索系统AVIS!让视觉大模型指导搜索,集成三类工具
在大型语言模型(LLM)的加持下,与视觉结合的多模态任务,如图像描述、视觉问答(
VQA
)和开放词汇目标识别(open-vocabularyobjectdetection)等都取得了重大进展。
夕小瑶
·
2023-08-30 01:14
人工智能
使用大型语言模型进行自主视觉信息搜索
图像取自OK-
VQA
数据集。在”AVIS:使用大型语言模型的自主视觉信息搜索“,我们介绍了一种新颖的方法,该方法可以在视觉信息搜索任务上实现最先进的结果。
ygtu2018
·
2023-08-24 05:31
语言模型
人工智能
自然语言处理
【多模态】26、视觉-文本多模态任务超详细介绍 「CLIP/LSeg/ViLD/GLIP/ALBEF/BLIP/CoCa/BEIT」
1.1CLIP在分割上的改进工作1.1.1LSeg1.1.2GroupViT1.2CLIP在目标检测上的改进工作1.2.1ViLD1.2.2GLIPv11.2.3GLIPv2二、ViLT/ALBEF:多模态融合在
VQA
呆呆的猫
·
2023-08-21 20:09
多模态
多模态
VLP
CLIP
BLIP
BEIT
【NLP】1、BERT | 双向 transformer 预训练语言模型
Google一、背景在BERT之前的语言模型如GPT都是单向的模型,但BERT认为虽然单向(从左到右预测)预测任务符合语言模型的建模过程,但对一些语言理解任务不太友好,因为要理解一句话说的是什么意思的话(如
VQA
呆呆的猫
·
2023-08-21 20:09
NLP
自然语言处理
bert
transformer
【多模态】25、ViLT | 轻量级多模态预训练模型(ICML2021)
文章目录一、背景二、ViLT方法三、效果3.1数据集3.2分类任务
VQA
和NLVR23.3ImageRetrieval论文:ViLT:Vision-and-LanguageTransformerWithoutConvolutionorRegionSupervision
呆呆的猫
·
2023-08-15 09:55
多模态
多模态
VQA
评测evaluation代码:gqa / aokvqa / vqav2 / scienceQA
VQA
评测分多种,这里提几种,代码参考来自lavis和mmpretrain。
joyce_peng
·
2023-08-12 15:23
python
深度学习
上一页
1
2
3
4
5
6
7
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他