MLLMs

推测性解码：加速多模态大型语言模型的推理

本文深入探讨了SPD在多模态大型语言模型（MLLMs）中的应用，尤其是针对LLaVA7B模型的优化。MLLMs通过融合视觉和文本数据，极大地丰富了模型与用户的互动，但同时也面临着自回归生成和内存带

人工智能培训咨询叶梓·2025-07-09 21:25

Are Multimodal Large Language Models Pragmatically Competent Listeners in Simple Reference

论文主要内容总结本文聚焦于多模态大语言模型（MLLMs）在指称消解任务中的语用能力研究，通过简单但抽象的视觉刺激（如颜色块和颜色网格）开展实验。

UnknownBody·2025-06-26 13:46

[2025CVPR]Multi-Layer Visual Feature Fusion in Multimodal LLMs 多模态大语言模型中的多层视觉特征融合

当前多模态大语言模型（MLLMs）存在两大核心痛点：视觉层选择随意性：现有方法（如MiniCPM、LLaVA）常仅用最后一层特

清风AI·2025-06-09 00:34

【论文阅读】VideoChat-R1: Enhancing Spatio-Temporal Perception via Reinforcement Fine-Tuning

研究目标：方法：采用强化微调（RFT）结合GRPO，专门针对视频MLLMs进行优化。目标：增强模型对视频时空感知的能力。保持模型的通用能力。实验与发现RFT在小样本数据下即可显著提

s1ckrain·2025-06-04 17:41

PEACE 首个评估MLLMs对地质图理解的基准集，专为地质图理解设计的

PEACE首个评估MLLMs对地质图理解的基准集，专为地质图理解设计的AgentPEACE：EmpoweringGeologicMapHolisticUnderstandingwithMLLMsPEACE

玩^耍^玩·2025-05-30 18:50

幻觉的迷宫：DeCo算法与大型语言模型的真相之旅

无论是多模态大型语言模型（MLLMs），还是单模态的LLMs，这一问题都如影随形。尤其在医疗、法律等高风险领域，幻觉不仅仅是“说错话”那么简单，甚至可能引发灾难性的后果。

步子哥·2025-05-21 15:45

SOTA多模态大模型！13个开源模型汇总，附论文和代码_开源多模态大模型

近年来，多模态大模型（MultimodalLargeLanguageModels,MLLMs）在人工智能领域取得了显著的进展，特别是在自然语言处理、计算机视觉和多模态理解方面。

喝不喝奶茶丫·2025-04-20 20:32

EgoPlan-Bench2: 包含1321个高质量的多选题问答对，覆盖工作、日常生活、爱好和娱乐四大领域，共24个详细场景

2024-12-06，由香港大学与腾讯PCG的ARC实验室联合创建了EgoPlan-Bench2数据集，这个数据集通过模拟人类日常生活中的复杂任务，为多模态大型语言模型（MLLMs）的规划能力提供了一个严格和全面的评估平台

·2025-04-17 16:57

多模态大模型：技术原理与实战多模态大模型对比

多模态融合、Transformer、BERT、GPT、DALL-E、CLIP1.背景介绍近年来，人工智能领域取得了令人瞩目的进展，其中多模态大模型(MultimodalLargeLanguageModels,MLLMs

AGI大模型与大数据研究院·2025-04-15 15:54

Video-R1: Reinforcing Video Reasoning in MLLMs

文章主要内容总结研究背景与目标本文针对多模态大语言模型（MLLMs）在视频推理任务中的不足，提出了Video-R1模型，旨在通过强化学习（RL）范式系统性提升模型的视频推理能力。

UnknownBody·2025-04-13 10:10

多模态大模型：技术原理与实战微调实战

音频处理、Transformer、BERT、GPT、CLIP、DALL-E1.背景介绍近年来，人工智能领域取得了令人瞩目的进展，其中多模态大模型(MultimodalLargeLanguageModels,MLLMs

AGI大模型与大数据研究院·2025-04-13 00:02

《多模态大语言模型视觉提示》综述

多模态大语言模型（MLLMs）为预训练的大语言模型（LLMs）赋予了视觉能力。尽管LLMs中的文本提示已被广泛研究，视觉提示则为更细粒度和自由形式的视觉指令开辟了新天地。

大语言模型·2025-04-12 21:47

GPT-4.5创造力比GPT-4o弱！浙大上海AI Lab发布新基准，寻找多模态创造力天花板

当GPT-4.5在创意写作、教育咨询、设计提案等任务中展现出惊人的连贯性与创造力时，一个关键问题浮出水面：多模态大模型（MLLMs）的“创造力天花板”究竟在哪里？

·2025-04-04 22:38

Dyn-VQA：含1452动态问题的视觉问答数据集，需灵活提供知识检索方案，查询、工具与检索时间皆可变。

数据集地址：Dyn-VQA|多模态检索数据集|自然语言处理数据集一、研究背景：在多模态大型语言模型（MLLMs）中，解

·2025-03-19 11:09

ST-Align：一个包含430万训练样本，涵盖了15种细粒度多模态数据集

一、研究背景近年来，多模态大型语言模型（MLLMs）在多模态理解方面取得了显著进展，能够基于图像或视频生成对话或描述。然而，对于需要基于语言输入处理视觉坐标的细粒度多模态理解任务，现有

·2025-03-17 15:12

Towards Multimodal Large-Language Models for Parent-Child Interaction: A Focus on Joint Attention

然而，目前对共同注意的检测和分析研究仍然有限，尤其是在多模态大语言模型（MLLMs）方面。本研究通过分析由两位语言病理学家标注的26段亲子互动视频，评估了多模态大语言模型理解共同注意的能力。

UnknownBody·2025-03-11 14:41

多模态大语言模型(MLLMs)-一般架构（非常详细）零基础入门到精通，收藏这一篇就够了

多模态大语言模型(MultimodalLargeLanguageModel,MLLM），在LLM原有的强大泛化和推理能力基础上，进一步引入了多模态信息处理能力。相比于以往的多模态方法，例如以CLIP为代表的判别式，或以OFA为代表的生成式，新兴的MLLM展现出一些典型的特质，在下面这两种特质的加持下，MLLM涌现出一些以往多模态模型所不具备的能力！模型大。MLLM通常具有数十亿的参数量，更多的参数

程序员_大白·2024-09-14 11:40

多模态大模型论文总结

MM1:Methods,Analysis&InsightsfromMultimodalLLMPre-training在这项工作中，我们讨论了建立高性能的多模态大型语言模型（MLLMs）。

sudun_03·2024-09-10 13:45

AI多模态实战教程：面壁智能MiniCPM-V多模态大模型问答交互、llama.cpp模型量化和推理

一、项目简介MiniCPM-V系列是专为视觉-语⾔理解设计的多模态⼤型语⾔模型（MLLMs），提供⾼质量的⽂本输出，已发布4个版本。

AIGCmagic社区·2024-09-05 21:23

MGIE官网体验入口苹果多模态大语言模型AI图像编辑工具在线使用地址

MGIE是一项由苹果开源的技术，利用多模态大型语言模型（MLLMs）生成图像编辑指令，通过端到端训练，捕捉视觉想象力并执行图像处理操作，使图像编辑更加智能、直观。

Kavaj·2024-02-07 21:02

【多模态MLLMs+图像编辑】MGIE：苹果开源基于指令和大语言模型的图片编辑神器（24.02.03开源）

项目主页：https://mllm-ie.github.io/论文:基于指令和多模态大语言模型图片编辑2309.GuidingInstruction-basedImageEditingviaMultimodalLargeLanguageModels（加州大学圣巴拉分校+苹果）代码：https://github.com/apple/ml-mgie|gradio_UI媒体：机器之心的解析https:/

曾小蛙·2024-02-06 20:52

How to Bridge the Gap between Modalities: A Comprehensive Survey on Multi-modal Large Language Model

如何弥合模态之间的差距——多模态大语言模型综述摘要1引言2概述3多模态转换器4多模态感知器5工具辅助6数据驱动MLLMs7未来方向和挑战8结论摘要本文探讨了多模态大型语言模型（MLLMs），

UnknownBody·2024-01-05 13:04

推荐频道