标题:DanmakuTPPBench: A Multi-modal Benchmark for Temporal Point Process Modeling and Understanding
来源:arXiv, 2505.18411
我们介绍了DanmakuTPPBench,这是一个全面的基准,旨在推进大型语言模型(LLM)时代的多模态时间点过程(TPP)建模。虽然TPP已被广泛研究用于建模时间事件序列,但现有的数据集主要是单峰的,阻碍了需要对时间、文本和视觉信息进行联合推理的模型的进展。为了弥补这一差距,DanmakuTPPBench包括两个互补的组成部分:(1)DanmakuTPP Events,这是一个从Bilibili视频平台衍生出来的新数据集,用户生成的项目注释(Danmaku)自然形成多模式事件,并附有精确的时间戳、丰富的文本内容和相应的视频帧;(2)DanmakuTPP QA,一个具有挑战性的问答数据集,通过一种新型的多代理管道构建,该管道由最先进的LLM和多模态LLM(MLLM)提供支持,针对复杂的时间文本视觉推理。我们使用经典的TPP模型和最近的MLLM进行了广泛的评估,揭示了当前方法在建模多模态事件动力学方面的显著性能差距和局限性。我们的基准建立了强有力的基线,并呼吁将TPP建模进一步整合到多模态语言建模领域。代码和数据集已发布在https://github.com/FRENKIE-CHIANG/DanmakuTPPBench
研究问题:如何构建一个有效的多模态基准,以促进时序点过程(TPP)建模及理解,特别是如何整合文本、视觉及时间信号的丰富上下文信息?
主要贡献:论文提出DanmakuTPPBench,这是第一个针对多模态TPP建模与理解的综合性基准,包含DanmakuTPP-Events和DanmakuTPP-QA两个数据集。
构建DanmakuTPP-Events数据集,该数据集整合了来自Bilibili平台的用户实时弹幕(Danmaku)评论、视频内容及其时间戳信息,首次实现时序、文本和视觉信息的联合捕捉。
利用多代理协作框架,设计任务生成、注释质量控制和问题回答模块,以创建DanmakuTPP-QA数据集,评估模型的多模态推理能力。
进行系统的基准评估,以识别现有模型的局限性并确定未来多模态TPP建模的研究方向。
实验结果表明,现有大型语言模型(LLM)和多模态大型语言模型(MLLM)在TPP理解方面仍面临显著挑战,尤其是在复杂的时间预测与多模态推理任务上。
特定任务的微调显著提升了模型在情感动态分析和因果归因分析等开放式任务上的性能,强调了任务特定适应的重要性。
虽然一些模型在定量结果上表现优异,但普遍存在对多模态信息的整合能力不足,表明未来在TPP和多模态推理结合的研究上有很大的改进空间。
论文的创新点在于首次将TPP建模与多模态上下文信号有效结合,提出的基准和框架,推动了在社交媒体环境下对动态交互及用户行为模式的理解与建模。