GaussianSpeech:音频驱动3DGS Avatar

本文介绍了GaussianSpeech,这是一种从语音合成高保真度的个性化三维人类头部虚拟形象动画序列的新方法。为了捕捉人类头部的表达性和细节特征,包括皮肤皱褶和更细致的面部动作,文章提出将语音信号与三维高斯散射相结合,以创建逼真且时间上连贯的运动序列。作者提出了一种基于3DGS的紧凑高效的虚拟形象表示方法,该方法根据表情生成依赖颜色,并利用皱纹和基于感知的损失来合成面部细节,包括不同表情下出现的皱纹。为了实现对带音频的三维高斯散射序列的建模,文章设计了一个条件音频的变压器模型,能够直接从音频输入中提取嘴唇和表情特征。由于缺乏与音频相对应的高质量说话人数据集,本文捕获了一个新的大规模多视角数据集,包含带有自然英语口音和多样面部几何形态的说话人的音视频序列。高斯语音始终如一地实现最先进的品质,具有视觉上自然的动作,同时涵盖多样的面部表情和风格。
GaussianSpeech:音频驱动3DGS Avatar_第1张图片

论文题目:GaussianSpeech: Audio-Driven Gaussian Avatars
论文链接:https://arxiv.org/abs/2411.18675
项目主页:https://shivangi-aneja.github.io/projects/gaussianspeech/

整体框架

你可能感兴趣的:(音视频,3d,科研,计算机视觉,数字人,3D视觉,talking,head)