EMO2: 情感表达驱动的语音控制头像视频生成

本文提出了一种新颖的语音驱动说话头像方法,能够同时生成高度表现力的面部表情和手势。与现有专注于生成全身或半身姿态的方法不同,我们研究了语音手势生成的挑战,并识别出音频特征与全身手势之间较弱的对应关系作为关键限制。为解决这一问题,我们将任务重新定义为两阶段过程。在第一阶段,我们直接从音频输入生成手部姿势,利用音频信号与手部动作之间的强相关性。在第二阶段,我们采用扩散模型合成视频帧,结合第一阶段生成的手部姿势来产生逼真的面部表情和身体动作。实验结果表明,所提出的方法在视觉质量和同步精度方面优于最先进的现有方法,如CyberHost(林等人,2024年)和Vlogger(科罗纳等人,2024年)。本研究为语音驱动手势生成提供了新的视角,并为创建富有表现力和自然的说话头像动画提供了强大的框架。
EMO2: 情感表达驱动的语音控制头像视频生成_第1张图片

论文题目:EMO2: End-Effector Guided Audio-Driven Avatar Video Generation
论文链接:https://arxiv.org/pdf/2501.10687
项目链接:https://humanaigc.github.io/emote-portrait-alive-2/

你可能感兴趣的:(计算机视觉,数字人,talking,head,talking,face,AIGC)