论文阅读HARIVO: Harnessing Text-to-Image Models for Video Generation
h-space对比损失(DC)的设计细节目标:确保视频的所有帧在语义上保持一致(例如,同一视频中的不同帧应描述相同的主体和场景,避免物体突变或语义漂移)。1.h-space的定义h-space是U-Net最深层的特征空间(bottleneckfeature),已有研究表明它包含高层语义信息(如物体类别、场景结构),且对噪声步长(timestep)不敏感。论文假设:同一视频的所有帧在h-space中