SayAnything:利用条件视频扩散实现音频驱动的口型同步

论文题目:SayAnything: Audio-Driven Lip Synchronization with Conditional Video Diffusion
论文链接:https://arxiv.org/abs/2502.11515
发表于:arXiv 2025

研究背景

  1. 研究问题:这篇文章要解决的问题是音频驱动的唇形同步,即根据输入的音频生成同步的唇部运动视频,同时保持说话人的身份和外观。
  2. 研究难点:该问题的研究难点包括:现有方法通常依赖于受限的音视频对齐先验或多阶段学习中间表示来强制唇部运动合成,导致复杂的训练管道和有限的运动自然性;此外,现有的基于GAN的方法在运动生成稳定性和多样性方面存在不足,且训练不稳定和模式崩溃问题使其难以扩展到多样化的数据集。
  3. 相关工作:该问题的研究相关工作有:基于GAN的方法(如Guan et al., 2023; Su et al., 2024)在音视频对齐方面存在局限性;扩散模型(如Ho et al., 2020; Song et

你可能感兴趣的:(计算机视觉,数字人,神经网络,人工智能,生成对抗网络,扩散模型,diffusion,model)