E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
MLLMs
推测性解码:加速多模态大型语言模型的推理
本文深入探讨了SPD在多模态大型语言模型(
MLLMs
)中的应用,尤其是针对LLaVA7B模型的优化。
MLLMs
通过融合视觉和文本数据,极大地丰富了模型与用户的互动,但同时也面临着自回归生成和内存带
人工智能培训咨询叶梓
·
2025-07-09 21:25
人工智能前沿
语言模型
人工智能
自然语言处理
计算机视觉
推理
多模态
算法
Are Multimodal Large Language Models Pragmatically Competent Listeners in Simple Reference
论文主要内容总结本文聚焦于多模态大语言模型(
MLLMs
)在指称消解任务中的语用能力研究,通过简单但抽象的视觉刺激(如颜色块和颜色网格)开展实验。
UnknownBody
·
2025-06-26 13:46
LLM
Daily
Multimodal
语言模型
人工智能
自然语言处理
[2025CVPR]Multi-Layer Visual Feature Fusion in Multimodal LLMs 多模态大语言模型中的多层视觉特征融合
当前多模态大语言模型(
MLLMs
)存在两大核心痛点:视觉层选择随意性:现有方法(如MiniCPM、LLaVA)常仅用最后一层特
清风AI
·
2025-06-09 00:34
计算机视觉算法
深度学习算法详解及代码复现
语言模型
人工智能
自然语言处理
【论文阅读】VideoChat-R1: Enhancing Spatio-Temporal Perception via Reinforcement Fine-Tuning
研究目标:方法:采用强化微调(RFT)结合GRPO,专门针对视频
MLLMs
进行优化。目标:增强模型对视频时空感知的能力。保持模型的通用能力。实验与发现RFT在小样本数据下即可显著提
s1ckrain
·
2025-06-04 17:41
强化学习
AIGC
计算机视觉
论文阅读
多模态大模型
强化学习
PEACE 首个评估
MLLMs
对地质图理解的基准集,专为地质图理解设计的
PEACE首个评估
MLLMs
对地质图理解的基准集,专为地质图理解设计的AgentPEACE:EmpoweringGeologicMapHolisticUnderstandingwithMLLMsPEACE
玩^耍^玩
·
2025-05-30 18:50
人工智能
语言模型
视觉检测
幻觉的迷宫:DeCo算法与大型语言模型的真相之旅
无论是多模态大型语言模型(
MLLMs
),还是单模态的LLMs,这一问题都如影随形。尤其在医疗、法律等高风险领域,幻觉不仅仅是“说错话”那么简单,甚至可能引发灾难性的后果。
步子哥
·
2025-05-21 15:45
智能涌现
AGI通用人工智能
算法
语言模型
人工智能
SOTA多模态大模型!13个开源模型汇总,附论文和代码_开源多模态大模型
近年来,多模态大模型(MultimodalLargeLanguageModels,
MLLMs
)在人工智能领域取得了显著的进展,特别是在自然语言处理、计算机视觉和多模态理解方面。
喝不喝奶茶丫
·
2025-04-20 20:32
人工智能
AI
AI大模型
大模型微调
SOTA
多模态大模型
开源模型
EgoPlan-Bench2: 包含1321个高质量的多选题问答对,覆盖工作、日常生活、爱好和娱乐四大领域,共24个详细场景
2024-12-06,由香港大学与腾讯PCG的ARC实验室联合创建了EgoPlan-Bench2数据集,这个数据集通过模拟人类日常生活中的复杂任务,为多模态大型语言模型(
MLLMs
)的规划能力提供了一个严格和全面的评估平台
·
2025-04-17 16:57
数据集
多模态大模型:技术原理与实战 多模态大模型对比
多模态融合、Transformer、BERT、GPT、DALL-E、CLIP1.背景介绍近年来,人工智能领域取得了令人瞩目的进展,其中多模态大模型(MultimodalLargeLanguageModels,
MLLMs
AGI大模型与大数据研究院
·
2025-04-15 15:54
DeepSeek
R1
&
大数据AI人工智能
java
python
javascript
kotlin
golang
架构
人工智能
Video-R1: Reinforcing Video Reasoning in
MLLMs
文章主要内容总结研究背景与目标本文针对多模态大语言模型(
MLLMs
)在视频推理任务中的不足,提出了Video-R1模型,旨在通过强化学习(RL)范式系统性提升模型的视频推理能力。
UnknownBody
·
2025-04-13 10:10
LLM
Daily
Multimodal
Causal
and
Reasoning
人工智能
视觉模型
多模态大模型:技术原理与实战 微调实战
音频处理、Transformer、BERT、GPT、CLIP、DALL-E1.背景介绍近年来,人工智能领域取得了令人瞩目的进展,其中多模态大模型(MultimodalLargeLanguageModels,
MLLMs
AGI大模型与大数据研究院
·
2025-04-13 00:02
DeepSeek
R1
&
大数据AI人工智能
java
python
javascript
kotlin
golang
架构
人工智能
《多模态大语言模型视觉提示》综述
多模态大语言模型(
MLLMs
)为预训练的大语言模型(LLMs)赋予了视觉能力。尽管LLMs中的文本提示已被广泛研究,视觉提示则为更细粒度和自由形式的视觉指令开辟了新天地。
大语言模型
·
2025-04-12 21:47
人工智能
自然语言处理
LLM
大模型
transformer
langchain
多模态大模型
GPT-4.5创造力比GPT-4o弱!浙大上海AI Lab发布新基准,寻找多模态创造力天花板
当GPT-4.5在创意写作、教育咨询、设计提案等任务中展现出惊人的连贯性与创造力时,一个关键问题浮出水面:多模态大模型(
MLLMs
)的“创造力天花板”究竟在哪里?
·
2025-04-04 22:38
量子位
Dyn-VQA:含1452动态问题的视觉问答数据集,需灵活提供知识检索方案,查询、工具与检索时间皆可变。
数据集地址:Dyn-VQA|多模态检索数据集|自然语言处理数据集一、研究背景:在多模态大型语言模型(
MLLMs
)中,解
·
2025-03-19 11:09
数据集
ST-Align:一个包含430万训练样本,涵盖了15种细粒度多模态数据集
一、研究背景近年来,多模态大型语言模型(
MLLMs
)在多模态理解方面取得了显著进展,能够基于图像或视频生成对话或描述。然而,对于需要基于语言输入处理视觉坐标的细粒度多模态理解任务,现有
·
2025-03-17 15:12
数据集
Towards Multimodal Large-Language Models for Parent-Child Interaction: A Focus on Joint Attention
然而,目前对共同注意的检测和分析研究仍然有限,尤其是在多模态大语言模型(
MLLMs
)方面。本研究通过分析由两位语言病理学家标注的26段亲子互动视频,评估了多模态大语言模型理解共同注意的能力。
UnknownBody
·
2025-03-11 14:41
LLM
Daily
Multimodal
语言模型
人工智能
大数据
多模态大语言模型(
MLLMs
)-一般架构(非常详细)零基础入门到精通,收藏这一篇就够了
多模态大语言模型(MultimodalLargeLanguageModel,MLLM),在LLM原有的强大泛化和推理能力基础上,进一步引入了多模态信息处理能力。相比于以往的多模态方法,例如以CLIP为代表的判别式,或以OFA为代表的生成式,新兴的MLLM展现出一些典型的特质,在下面这两种特质的加持下,MLLM涌现出一些以往多模态模型所不具备的能力!模型大。MLLM通常具有数十亿的参数量,更多的参数
程序员_大白
·
2024-09-14 11:40
语言模型
人工智能
自然语言处理
多模态大模型论文总结
MM1:Methods,Analysis&InsightsfromMultimodalLLMPre-training在这项工作中,我们讨论了建立高性能的多模态大型语言模型(
MLLMs
)。
sudun_03
·
2024-09-10 13:45
语言模型
算法
人工智能
AI多模态实战教程:面壁智能MiniCPM-V多模态大模型问答交互、llama.cpp模型量化和推理
一、项目简介MiniCPM-V系列是专为视觉-语⾔理解设计的多模态⼤型语⾔模型(
MLLMs
),提供⾼质量的⽂本输出,已发布4个版本。
AIGCmagic社区
·
2024-09-05 21:23
AI多模态
人工智能
交互
llama
MGIE官网体验入口 苹果多模态大语言模型AI图像编辑工具在线使用地址
MGIE是一项由苹果开源的技术,利用多模态大型语言模型(
MLLMs
)生成图像编辑指令,通过端到端训练,捕捉视觉想象力并执行图像处理操作,使图像编辑更加智能、直观。
Kavaj
·
2024-02-07 21:02
AI
人工智能
【多模态
MLLMs
+图像编辑】MGIE:苹果开源基于指令和大语言模型的图片编辑神器(24.02.03开源)
项目主页:https://mllm-ie.github.io/论文:基于指令和多模态大语言模型图片编辑2309.GuidingInstruction-basedImageEditingviaMultimodalLargeLanguageModels(加州大学圣巴拉分校+苹果)代码:https://github.com/apple/ml-mgie|gradio_UI媒体:机器之心的解析https:/
曾小蛙
·
2024-02-06 20:52
AIGC
生成式人工智能
多模态MLLM
语言模型
人工智能
MGIE
LLaVA
How to Bridge the Gap between Modalities: A Comprehensive Survey on Multi-modal Large Language Model
如何弥合模态之间的差距——多模态大语言模型综述摘要1引言2概述3多模态转换器4多模态感知器5工具辅助6数据驱动
MLLMs
7未来方向和挑战8结论摘要本文探讨了多模态大型语言模型(
MLLMs
),
UnknownBody
·
2024-01-05 13:04
LLM
综述文章
语言模型
人工智能
自然语言处理
上一页
1
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他