南洋理工、新国立新作 MEMO:基于记忆引导的高保真数字人生成扩散模型

视频扩散模型的最新进展为现实音频驱动的视频生成开辟了新的潜力。然而,在生成的视频中实现无缝音频与唇部同步化、保持长期身份一致性以及产生自然、与音频对齐的表情仍然是一个重大的挑战。为了解决这些挑战,南洋理工、新加坡国立大学联合提出了 MEMO: Memory-Guided Diffusion for Expressive Talking Video Generation,这是一种端到端的音频驱动特性动画方法,用于生成身份一致且表达力强的视频。整个人框架法围绕两个关键模块构建:(1) 一个记忆引导的时间模块,通过开发记忆状态来存储来自更长时间背景的信息,通过线性注意力指导时间建模;以及 (2) 一个情感感知的音频模块,用多模态注意力替换传统的交叉注意力,以增强音频-视频互动,并从音频中检测情感,通过情绪自适应层范数精细化面部表情。

论文名称:MEMO: Memory-Guided Diffusion for Expressive Talking Video Generation
论文链接:https://arxiv.org/abs/2412.04448
项目主页:https://memoavatar.github.io/

研究方法

这篇论文提出了Memory-guided EMOtion-aware diffusion (MEMO),用于解决音频驱动的说唱视频生成问题。具体来说,MEMO包含两个关键模块:记忆引导的时间模

你可能感兴趣的:(计算机视觉,数字人,科研,MEMO,AIGC,talking,head,talking,face)