v_JULY_v

文生视频的发展史及其原理解析：从Gen2、Emu Video到PixelDance、SVD、Pika 1.0

前言

考虑到文生视频开始爆发，比如11月份就是文生视频最火爆的一个月

11月3日，Runway的Gen-2发布里程碑式更新，支持4K超逼真的清晰度作品(runway是Stable Diffusion最早版本的开发商，Stability AI则开发的SD后续版本)
11月16日，Meta发布文生视频模型Emu Video
11月18日，字节跳动半路杀出发布PixelDance
11月21日，开发并维护Stable Diffusion后续版本的Stability AI终于发布了他们自家的生成式视频模型Stable Video Diffusion(SVD)

加之不止一个B端客户找到七月，希望帮其做文生视频的应用，故我司第一项目组准备在AIGC模特之后，做文生视频项目，最终把文生3D、文生数字人都串起来

当然，我司还是三大项目组

除了已经对外发布的AIGC模特生成系统外，文生图视频 3D 数字人，都在第一项目组
论文审稿GPT(目前正在迭代第二版)，包括后续的AI agent商用项目，在第二项目组
企业多文档的知识库问答(目前正在解决各种已知问题中)，则在第三项目组

第一部分文生视频的iPhone时刻：Runway先后发布Gen-1、Gen-2

1.1 Gen-1：对现有的3D动画和手机视频进行AI编辑

今2023年2月，之前开发stable diffusion最初版本的Runway提出了首个AI编辑模型Gen-1，Gen-1可以在原视频的基础上，编辑出咱们想要的视频。无论是粗糙的3D动画，还是用手机拍出来的摇摇晃晃的视频，Gen-1都可以升级出一个不可思议的效果(当然，其背后原因是Gen1 trained jointly on images and videos)

比如用几个包装盒，Gen-1就可以生成一个工厂的视频，化腐朽为神奇，就是这么简单

1.1.1 Gen-1何以做到：给图像模型增加时间线，且对图像和视频做联合训练

Gen-1对应的论文为：Structure and Content-Guided Video Synthesis with Diffusion Models，顺带说一嘴，有的文章会把这篇论文混淆成Gen2的论文，但实际上，runway只对外发布了Gen-1的论文，2的论文还没对外发，大家注意

如下图所示，我们可以基于潜在视频扩散模型(latent video diffusion models)，通过给定下图中间部分的原始输入图像，然后既可以通过如下图上面部分的文字引导生成视频，也可以通过如下图下面部分的图像引导生成视频

怎么做到的呢？

首先，视频之所以可以通过文字引导生成，离不开文字引导图像生成的那一系列前置工作(Text-conditioned models, such as DALL-E2 and Stable Diffusion，enable novice users to generate detailed imagery given only a text prompt as input)。毕竟潜在扩散模型提供了在感知压缩空间高校合成图像的方法
其次，通过引入带有时间线的预训练图像模型(temporal layers into a pre-trained image model)，且在图像和视频上做联合训练「即在一个大规模的无字幕视频，和配对的文本图像的数据集上进行训练( trained on a large-scale dataset of uncaptioned videos and paired text-image data)」，从而将潜在扩散模型扩展到视频生成
且Gen1提出了一个可控的结构和内容感知的视频扩散模型(We propose a controllable structure and content-aware video diffusion model)，且在推理阶段可以修改由示例图像或文本引导的视频(Editing is performed entirely at inference time without
additional per-video training or pre-processing)

且选择用单眼深度估计的技术来表示结构(单眼深度估计是一种计算机视觉技术，它旨在从仅使用单个摄像机拍摄的二维图像中推断出场景的三维深度信息)，且由预先训练的神经网络预测嵌入表示内容(We opt to represent structure with monocular depth estimates and content with embeddings predicted by a pre-trained neural network)
然后在视频生成的过程中提供了几种控制模式
首先，类似于image synthesis models，训练我们的模型，使得其可以推断视频的内容，例如他们的外观或风格，及匹配用户提供的图像或文本提示
第二，受到扩散过程的启发，我们将information obscuring process应用到structure representation，以选择模型对给定结构的坚持程度(we apply an information obscuring process to the structure representation to enable selecting of how strongly the model adheres to the given structure)
最后，我们还对推理过程进行了调整，通过自定义指导方法，以及受classifier-free guidance的启发，以控制生成的剪辑的时间一致性(to enable control over temporal consistency in generated clips)，相当于做到了时间、内容、结构三者在一致上的统一对齐

1.1.2 Gen1的训练过程、推理过程的详解

咱们模型的目标是保留视频结构的同时(结构一般指视频的几何、动力学的特征，比如对象的形状、位置以及他们的时间变化)，编辑视频的内容(内容一般指的是视频外观及其语义的特征，比如对象的颜色、样式以及场景的光亮度)

为了实现这一目标，我们需要学习视频的生成模型 $p(x \mid s, c)$ ，基于结构表示、内容表示，从而通过输入的视频推断出其结构表示，然后根据编辑视频的描述文本进行修改(modify it based on a text prompt c describing the edit)，如下图所示

在上图左侧的训练过程中，输入的视频x用一个固定的编码器E编码到，并扩散到
另一边，通过对“使用MiDaS获得的depth maps”进行编码，来提取一个结构表示，并通过使用CLIP对其中一个帧进行编码，来提取内容表示 (We extract a structure representation s by encoding depth maps obtained with MiDaS, and a content representation c by encoding one of the frames with CLIP. )
然后，在、、以及通过交叉注意块提供的的帮助下，模型学习在潜在空间中逆转扩散过程
在上图右侧的推理过程中，输入视频的结构以同样的方式提供。为了通过文本指定内容，我们将CLIP文本嵌入转换为图像嵌入

1.1.2.1 对潜在扩散模型的回顾

扩散模型的正向扩散过程被定义为

$q\left(x_{t} \mid x_{t-1}\right):=\mathcal{N}\left(x_{t}, \sqrt{1-\beta_{t}} x_{t-1}, \beta_{t} \mathcal{I}\right)$

将符合正太分布的噪声缓慢添加到每个样本 $x_{t-1}$ ，得到，该正向扩散过程模拟一个马尔科夫链，噪声的方差为 $\beta _{t}$ ，而 $t \in\{1, \ldots, T\}$

至于逆向过程则根据以下公式定义

$\begin{array}{c} p_{\theta}\left(x_{0}\right):=\int p_{\theta}\left(x_{0: T}\right) d x_{1: T} \\ p_{\theta}\left(x_{0: T}\right)=p\left(x_{T}\right) \prod_{t=1}^{T} p_{\theta}\left(x_{t-1} \mid x_{t}\right) \\ p_{\theta}\left(x_{t-1} \mid x_{t}\right):=\mathcal{N}\left(x_{t-1}, \mu_{\theta}\left(x_{t}, t\right), \Sigma_{\theta}\left(x_{t}, t\right)\right) \end{array}$

其中，方差是固定的 $\Sigma_{\theta}\left(x_{t}, t\right)$ ，只需学习其中的均值 $\mu_{\theta}\left(x_{t}, t\right)$ 即可，我们需要优化目标的损失函数即为

$L:=\mathbb{E}_{t, q} \lambda_{t}\left\|\mu_{t}\left(x_{t}, x_{0}\right)-\mu_{\theta}\left(x_{t}, t\right)\right\|^{2}$

最终转化为

友情提醒，如果你对上述扩散模型DDPM的推导有任何疑问，可参见此文的第二部分《AI绘画能力的起源：从VAE、扩散模型DDPM、DETR到ViT/Swin transformer》，对关于DDPM的每一步骤的推导都非常详尽

1.1.2.2 时空潜在扩散(Spatio-temporal Latent Diffusion)

为了可以正确的对视频帧的分布进行建模，我们需要做一下工作

引入时间层来扩展图像架构，且这些时间层仅对视频输入有效，另自动编码器保持固定并独立处理视频中的每一帧
we extend an image architecture by introducing temporal layers, which are only active for video inputs. All other layers are shared between the image and video model. The autoencoder remains fixed and processes each frame in a video independently.
UNet主要由两个模块组成：残差块和transformer块，通过添加跨时间的一维卷积和跨时间的一维自注意力将它们扩展到视频(we extend them to videos by adding both 1D convolutions across time and 1D self-attentions across time)
在每个残差块中，如上图左侧所示，在每个2D卷积之后引入一个时间卷积(In each residual block, we introduce one temporal convolution after each 2D convolution)
同样的，如上图右侧所示，在每个2D transformer块后，我们都包含一个temporal 1D transformer block, which mimics its spatial counterpart along the time axis，且将learnable positional encodings of the frame index输入到temporal transformer blocks中
最终实现时，将图像视为只有单帧的视频，以统一处理这两种情况
批量大小为b、帧数为n、通道数为c、空间分辨率为w ✖️ h，即形状为b × n × c × h × w的分批张量，被重新排列为w × h (i.e. shape b × n × c × h × w) is rearranged to (b · n) × c × h × w for spatial layers, to (b · h · w) × c × n for temporal convolutions, and to (b · h · w) × n × c for temporal self-attention

//待更

1.1.2.3 结构与内容的表示(Representing Content and Structure)

扩散模型非常适合对 $p(x \mid s, c)$ 等条件分布进行建模，由于大规模配对的视频-文本数据集比较缺乏，所以只能限制在无字幕的视频数据上进行训练

总之，我们的目标是根据用户提供的编辑视频的文本提示来编辑视频，但还是面临一个问题：即我们没有视频三元组的训练数据、编辑prompt、和生成的输出，也没有成对的视频和文本字幕(Thus, while our goal is to edit an input video based on a text prompt describing the desired edited video, we have neither training data of triplets with a video, its edit prompt and the resulting output, nor even pairs of videos and text captions)
因此，我们必须从训练视频本身导出结构和内容的表示，即、，从而损失函数为 $\lambda_{t}\left\|\mu_{t}\left(\mathcal{E}(x)_{t}, \mathcal{E}(x)_{0}\right)-\mu_{\theta}\left(\mathcal{E}(x)_{t}, t, s(x), c(x)\right)\right\|^{2}$
相反，在推理过程中，结构和内容分别来自输入视频和文本提示， edited version x of y通过对以、为条件的生成模型进行采样获得的
$z \sim p_{\theta}(z \mid s(y), c(t)), \quad x=\mathcal{D}(z)$

内容表示层面上

为了从文本输入x和视频输入x都可以推断出内容表示(content representation)，我们利用CLIP的image embeddings来表示 represent content.
对于视频输入，我们在训练期间随机选择一个输入帧，类似于可以训练一个先验模型，该模型允许从text embeddings中采样image embeddings，这种方法可以通过图像输入而非文本来指定编辑This approach enables
待更..

// 待更

1.2 Gen-2获得了史诗级的升级——可以从头开始生成视频

很多同学还没来得及体验Gen-1，没想到在2023年3月份，runway很快又推出了Gen-2的内测版本，并于6月份正式对外发布(这是runway对Gen-2介绍的页面：https://research.runwayml.com/gen2)，相比Gen-1，Gen-2获得了史诗级的升级——可以从头开始生成视频。如果说去年发布的stable diffusion/midjourney是文生图的代表，那Gen2便是文生视频的第一个代表

Gen-2刚开始发布时还只能生成4秒钟的视频，每个用户的免费试用额度为105秒，即可以生成约26个Gen2视频
到了8月份，生成视频的最大长度便从4s提升到了18s
9月，新增导演模式，可以控制镜头的位置和移动速度

1.2.1 基于Gen-2生成视频的8种模式

Text to Video
Text + Image to Video
Image to Video
Stylization
Storyboard
Mask
Render
Customization

1.2.2 Gen-2在23年11月的更新：生成视频4K超高清且涂哪动哪

23年11月3日，Runway的Gen-2发布里程碑式更新，支持4K超逼真的清晰度作品

且11月21日，上线“涂哪动哪”的运动笔刷新功能，直接标志出生成模型可控性上的一个重要里程碑

// 待更

第二部分 Meta发布生成式视频模型：Emu Video

11月16日，Meta发布文生视频模型Emu Video，该模型既支持灵活的图像编辑（例如把「兔子」变成「吹小号的兔子」，再变成「吹彩虹色小号的兔子」），也支持根据文本和图像生成高分辨率视频（例如让「吹小号的兔子」欢快地跳舞）

那其背后的原理是怎样的呢？事实上，这其中涉及两项工作

灵活的图像编辑由一个叫「Emu Edit」的模型来完成。它支持通过文字对图像进行自由编辑，包括本地和全局编辑、删除和添加背景、颜色和几何转换、检测和分割等等。此外，它还能精确遵循指令，确保输入图像中与指令无关的像素保持不变
比如给鸵鸟穿裙子
高分辨率的视频则由一个名叫「Emu Video」的模型来生成。Emu Video 是一个基于扩散模型的文生视频模型，能够基于文本生成 512x512 的 4 秒高分辨率视频。且有人工评估表明，与 Runway 的 Gen-2 以及 Pika Labs 的生成效果相比，Emu Video 在生成质量和文本忠实度方面的得分可能更高。以下是它的生成效果：

如机器之心所述，在官方博客中，Meta 展望了这两项技术的应用前景，包括让社交媒体用户自己生成动图、表情包，按照自己的意愿编辑照片和图像等等。关于这点，Meta 在之前的 Meta Connect 大会上发布 Emu 模型时也提到过(参见：Meta 版 ChatGPT 来了：Llama 2 加持，接入必应搜索，小扎现场演示)

接下来，我们分别介绍下这两个新模型

2.1 Emu Edit ：精确的图像编辑

2.1.1 相比InstructPix2Pix的优势：更准确的执行指令

Emu Edit对应的论文为《Emu Edit: Precise Image Editing via Recognition and Generation Tasks》，其项目地址则为：https://emu-edit.metademolab.com/

如该论文中所说，如今每天都有数百万人使用图像编辑。然而，流行的图像编辑工具要么需要相当多的专业知识，使用起来很耗时，要么非常有限，仅提供一组预定义的编辑操作，如特定的过滤器。好在如今基于指令的图像编辑(Instruction-based image editing)试图让用户使用自然语言指令来解决这些限制。例如，用户可以向模型提供图像并指示其「给鸸鹋穿上消防员服装」这样的指令

然而，虽然像 InstructPix2Pix 这类基于指令的图像编辑模型可以用来处理各种给定的指令，但它们通常很难准确地解释和执行指令

instructable - pix2pix引入了一个可指导的图像编辑模型，他们通过同时利用GPT-3和Prompt-to-Prompt来开发这个模型，以生成一个用于基于指令的图像编辑的大型合成数据集，并利用该数据集来训练一个可指令的图像编辑模型

与使用合成数据集的InstructPix2Pix不同，Mag-icBrush通过要求人类使用在线图像编辑工具，开发了一个人工标注的指令引导的图像编辑数据集。然后在此数据集上微调instructable - pix2pix可以提高图像编辑能力

此外，这些模型的泛化能力有限，通常无法完成与训练时略有不同的任务，例如下图，当让小兔子吹彩虹色的小号，其他模型要么把兔子染成彩虹色，要么是直接生成彩虹色的小号

为了解决这些问题，Meta 引入了 Emu Edit，这是首个在多样化的任务上训练而成的图像编辑模型，Emu Edit 可以根据指令进行自由形式的编辑，包括本地和全局编辑、删除和添加背景、颜色改变和几何变换、检测和分割等任务。

与当今许多生成式 AI 模型不同，Emu Edit 可以精确遵循指令，确保输入图像中与指令无关的像素保持不变。例如，下图左侧，用户给出指令「将草地上的小狗移除」，移除物体后的图片几乎看不出来有什么变化，再比如下图右侧，移除图片中左下角的文本，再给图片换个背景，Emu Edit 也能处理得很好：

2.1.2 成功的两个关键：多任务训练、通过交叉注意力融合任务嵌入向量和时间步嵌入

为了训练这个模型，Meta 开发了一个包含 1000 万个合成样本的数据集，每个样本都包含一个输入图像、对要执行任务的描述以及目标输出图像，而在训练方法上主要有两个关键

首先，我们将模型训练为跨16个不同的图像编辑任务的多任务。这些任务跨越基于区域的编辑任务、自由形式的编辑任务和计算机视觉任务，都被制定为生成任务
且为每个任务开发了独特的数据管理pipeline，Meta发现，在所有任务上训练单个模型，比在每个任务上独立训练专家模型产生更好的结果。且随着训练任务数量的增加，Emu Edit的性能也会增加
其次，为了有效地处理各种各样的任务，引入了学习任务嵌入(learned task embeddings)的概念，用于引导生成过程朝着正确的生成任务方向发展
Second, to process this wide array of tasks effectively,we introduce the concept of learned task embeddings,which are used to steer the generation process toward the correct generative task.

具体来说，对于每个任务，都学习一个独特的任务嵌入向量，并通过交叉注意力交互将其集成到模型中，并将其添加到时间步嵌入中(we learn a unique task embedding vector, and integrate it into the model through cross-attention interactions, and by adding it to the timestep embeddings)

我们证明，学习到的任务嵌入显著增强了我们的模型从自由形式的指令中准确推断出适当的编辑类型并执行正确编辑的能力
在这个过程中，我们保持模型权重不变，并仅更新一个任务嵌入以适应新任务。我们的实验表明，Emu Edit可以快速适应新的任务，如超分辨率

下面重点解释一下学习任务嵌入( Learned Task Embedding)

为了引导生成过程走向正确的发展方向，我们为数据集中的每个任务学习一个嵌入向量

在训练期间，给定我们数据集中的一个样本，我们使用任务索引，从嵌入表中获取任务的嵌入向量，并与模型权重联合优化它(we use the task index, i, to fetch the task’s embedding vector, vi, froman embedding table, and optimize it jointly with the modelweights)

具体而言，我们通过交叉注意交互将任务嵌入到U-Net中，并将其添加到时间步长嵌入中(We do so by introducing the task embedding vias an additional condition to the U-Net, ϵθ. Concretely,we integrate the task embedding into the U-Net via cross-attention interactions, and by adding it to the timestep em-beddings)

优化问题更新为

$\min _{\theta, v_{1}, \ldots, v_{k}} \mathbb{E}_{\hat{y}, \epsilon, t}\left[\left\|\epsilon-\epsilon_{\theta}\left(z_{t}, t, E\left(c_{I}\right), c_{T}, v_{i}\right)\right\|_{2}^{2}\right]$

其中是我们数据集中的任务总数， $\hat{y}=\left(c_{I}, c_{T}, x, i\right)$ 是来自数据集中的输入图像、输入指令文本、目标图像和任务索引的四元组

// 待更

2.2 Emu Video：先生成图像，再通过图像和文本生成视频

2.2.1 EMU VIDEO:Factorizing Text-to-Video Generation by Explicit Image Conditioning

大型文生图模型在网络规模的图像-文本对上经过训练，可生成高质量的多样化图像，然问题是

虽然这些模型可以通过使用视频-文本对进一步适用于文本 - 视频(T2V)生成，但视频生成在质量和多样性方面仍然落后于图像生成
与图像生成相比，视频生成更具挑战性，因为它需要建模更高维度的时空输出空间，而能依据的仍然只是文本提示。此外，市面上现有的视频-文本数据集的规模通常比图像 - 文本数据集小一个数量级
视频生成的主流模式是使用扩散模型一次生成所有视频帧。与此形成鲜明对比的是，在 NLP 中，长序列生成被表述为一个自回归问题：以先前预测的单词为条件预测下一个单词
$\rightarrow$ 因此，后续预测的条件信号(conditioning signal)会逐渐变强。研究者假设，加强条件信号对高质量视频生成也很重要，因为视频生成本身就是一个时间序列
$\rightarrow$ 然而，使用扩散模型进行自回归解码具有挑战性，因为借助此类模型生成单帧图像本身就需要多次迭代

因此，Meta 的研究者提出了 EMU VIDEO，其论文为《EMU VIDEO:Factorizing Text-to-Video Generation by Explicit Image Conditioning》，其项目地址为https://emu-video.metademolab.com/，通过显式的中间图像生成步骤来增强基于扩散的文本到视频生成的条件

具体来说，他们将文生视频问题分解为两个子问题：

根据输入的文本提示，生成图像
然后使用更强的条件：生成的图像和文本来生成视频
直观地说，给模型一个起始图像和文本会使视频生成变得更容易，因为模型只需预测图像在未来将如何演变即可
且，为了以图像约束模型 F，他们暂时对图像进行补零，并将其与一个二进制掩码(指示哪些帧是被补零的)以及带噪声的输入连接起来

由于视频 - 文本数据集比图像 - 文本数据集要小得多，研究者还使用权重冻结的预训练文本 - 图像(T2I)模型初始化了他们的文本 - 视频模型
且他们确定了关键的设计决策 —— 改变扩散噪声调度和多阶段训练(adjusted noiseschedules for diffusion, and multi-stage training) —— 该方法支持直接生成 512px 的高分辨率视频，不需要先前方法中使用的一些深度级联模型(without requiring a deep cascade of models as inprior work)

再说一下更多细节

我们用预训练的文本到图像模型初始化F，以确保它能够在初始化时生成图像。因此，我们只需要训练F来解决第二步，即推断以文本提示和起始帧为条件的视频
我们通过对起始帧I进行采样，并要求模型同时使用文本提示pxw和图像I调节来预测T帧，从而使用视频-文本对来训练F

由于使用潜在扩散模型，所以首先使用按帧应用的图像自动编码器将视频V转换为潜在空间X∈R T ×C×H×W，这降低了空间维度
再之后，利用自动编码器的解码器，可以将潜空间转换回像素空间(The latent space can be converted back to the pixel spaceusing the autoencoder’s decode)
视频的T帧被独立去噪，以产生去噪输入Xt，扩散模型被训练去噪(The T frames of the videoare noised independently to produce the noised input Xt,which the diffusion model is trained to denoise)

我们使用预训练的T2I模型初始化潜在扩散模型F
像「上文1.1.2.2 时空潜在扩散(Spatio-temporal Latent Diffusion)」所述的一样，我们添加了新的可学习的时间参数：
$\rightarrow$ 在每个空间卷积之后添加一个一维时间卷积
$\rightarrow$ 在每个空间注意力层之后添加一个一维时间注意力层
原始的空间卷积层和注意力层被独立应用到每个T帧上，并保持冻结

预训练的T2I模型已经是文本条件，结合上面描述的图像条件，F同时是文本和图像条件
The pretrained T2I model is already text conditioned and combined with the image conditioning described above,Fis conditioned on both text and image

最终如此操作带来的好处是

与直接用文本生成视频的方法不同，他们的分解方法在推理时会显式地生成一张图像，这使得他们能够轻松保留文生图模型的视觉多样性、风格和质量，如下图所示
这使得 EMU VIDEO 即使在训练数据、计算量和可训练参数相同的情况下，也能超越直接 T2V 方法
且比如通过多阶段的训练方法，文生视频的生成质量可以得到大幅提高

2.2.2 模型的评估及与Pika、Gen-2的对比

研究者设计了一个稳健的人工评估方案 ——JUICE，要求评估者在两两比较中做出选择时证明他们的选择是正确的。如图 2 所示，EMU VIDEO 在质量和文本忠实度方面的平均胜率分别为 91.8% 和 86.6%，大大超越了包括 Pika、Gen-2 等商业解决方案在内的所有前期工作。除 T2V 外，EMU VIDEO 还可用于图像 - 视频生成，即模型根据用户提供的图像和文本提示生成视频。在这种情况下，EMU VIDEO 的生成结果有 96% 优于 VideoComposer

从展示的 demo 中可以看到，EMU VIDEO 已经可以支持 4 秒的视频生成。在论文中，他们还探讨了增加视频时长的方法。作者表示，通过一个小的架构修改，他们可以在 T 帧上约束模型并扩展视频。因此，他们训练 EMU VIDEO 的一个变体，以「过去」16 帧为条件生成未来 16 帧。在扩展视频时，他们使用与原始视频不同的未来文本提示，效果如图 7 所示。他们发现，扩展视频既遵循原始视频，也遵循未来文本提示。

第三部分 PixelDance

11月18日，字节就半路杀出发布PixelDance

生成有高度一致性且有丰富动态性的视频，让视频内容真正地动起来，是目前视频生成领域中的最大挑战
在这方面，最新的研究成果 PixelDance 迈出了关键性的一步，其生成结果的动态性显著优于目前现有的其它模型，引起了业界的关注

3.1 PixelDance的两种视频生成模式

在官网（https://makepixelsdance.github.io）中，PixelDance 给出了两种不同的视频生成模式。

第一种是基础模式（Basic Mode），用户只需要提供一张指导图片+文本描述，PixelDance 就可以生成有高度一致性且有丰富动态性的视频，其中指导图片可以是真实图片，也可以利用现有的文生图模型生成。
从展示的结果来看，真实风格、动画风格、二次元风格、魔幻风格，PixelDance 通通都可以解决，人物动作、脸部表情、相机视角控制、特效动作，Pixeldance 也都可以很好的完成
第二种是高级魔法模式（Magic Mode），给了用户更多发挥想象力和创造力的空间。在这种模式下，用户需要提供两张指导图片+文本描述，可以更好地生成更有难度的各种炫酷特效镜头

除此之外，官网还展示了完全使用 PixelDance 制作的 3 分钟故事短片

使用 PixelDance 能按照用户预想的一个故事，制作每一个场景和对应的动作。不管是真实场景（如埃及、长城等），还是虚幻场景（如外星球），PixelDance 都能生成细节丰富、动作丰富的视频，甚至各种特效镜头也不在话下
并且，主人公北极熊先生的黑色礼帽和红色领结形象，在不同的场景中都得到了很好的保持。长视频生成再也不是简单的拼凑弱相关的短视频片段了

而达到这样拔群的视频生成效果，并没有依赖复杂的数据集和大规模的模型训练，PixelDance 在公开的 WebVid-10M 数据集上仅用 1.5B 大小的模型就达到了上述效果。

3.2 论文解读：Make Pixels Dance: High-Dynamic Video Generation

在相应的论文《Make Pixels Dance: High-Dynamic Video Generation》中(论文地址：https://arxiv.org/abs/2311.10982，demo 地址：https://makepixelsdance.github.io)，作者指出了视频生成难以做出好效果的原因：相比于图片生成，视频生成具有特征空间显著更大、动作多样性显著更强的特点。这就导致了现有的视频生成方法难以学到有效的时域动作信息，生成的视频虽然图片质量较高，但动态性非常有限。

如国内媒体机器之心所说，针对上述问题，PixelDance 提出了基于文本指导 + 首尾帧图片指导的视频生成方法，使得模型更充分地关注和学习视频的动态信息。

其中，首帧图片指导为整个视频内容提供了框架和素材。此外，通过将上一个视频片段的尾帧拿来作为下一个视频片段的首帧指导，可以生成更长的视频。文本描述提供了对视频动作的描述。尾帧图片指导为视频生成过程提供了结束状态的信息。作者提出了适配的方法，使得模型能接收比较粗糙的图片作为指导，这使得用户可以使用基本的图片编辑工具获得尾帧图片指导。

官网的信息显示，目前还在积极地迭代模型效果中，未来 2-3 个月内就会放出人人可以试用的模型。目前，作者也提供了途径支持大家发送想要测试的样例，目前官网中已经放出了一些用户的测试样例：

如此看来，有了 PixelDance，只要有天马行空的想象力，人人都可以成为「百万特效大师」

// 待更

第四部分 Stable Video Diffusion (SVD)

4.1 Stability AI发布生成式视频模型Stable Video Diffusion(SVD)

11月21日，开发并维护stable diffusion后续版本的Stability AI终于发布了他们自家的生成式视频模型Stable Video Diffusion(SVD)，支持文本到视频、图像到视频生成

并且还支持物体从单一视角到多视角的转化，也就是3D合成：

SVD基于Stable Diffusion 2.1，用约6亿个样本的视频数据集预训练了基础模型

4.2 论文解读：Stable Video Diffusion: Scaling Latent Video Diffusion Models to Large Datasets

SVD对应的论文为：《Stable Video Diffusion: Scaling Latent Video Diffusion Models to Large Datasets》

// 待更

参考文献

视频生成新突破：PixelDance，轻松呈现复杂动作与炫酷特效
一句话拍大片，导演末日来了？Runway发布文字生成视频模型Gen-2，科幻日系二次元统统拿捏
2023年11月 runway Gen2的更新
Gen-2颠覆AI生成视频！一句话秒出4K高清大片，网友：彻底改变游戏规则
文本生视频工具又迎来重大更新，Runway Gen-2 到底有多强？
Meta版ChatGPT来了：Llama 2加持，接入必应搜索，小扎现场演示，介绍了文生图模型Emu
Meta生成式AI连放大招：视频生成超越Gen-2，动图表情包随心定制
斯坦福美女博士创业项目爆火！AI视频生成出道即顶流，半年融资5500万美元
..

创作、修改、晚上记录

11.28日，一字一句读runway的Gen1论文，完善本文的第一部分
算新增一个新的研究方向：文生视频
我(们)将围绕文生视频，逐一发布一系列解读博客、公开课、课程、商用项目/解决方案等
11.29日，开始读Meta发布的Emu Edit论文、EMU VIDEO论文，完善本文的第三部分
..

你可能感兴趣的:(论文,代码,实战,文生视频,Gen2,Emu,Video,PixelDance,文生视频SVD)

x86-64汇编语言训练程序与实战十除以十等于一
本文还有配套的精品资源，点击获取简介：汇编语言是一种低级语言，与机器代码紧密相关，特别适用于编写系统级代码及性能要求高的应用。nasm编译器是针对x86和x86-64架构的汇编语言编译器，支持多种语法风格和指令集。项目Euler提供数学和计算机科学问题，鼓励编程技巧应用，前100个问题的答案可共享。x86-64架构扩展了寄存器数量并引入新指令，提升了数据处理效率。学习汇编语言能够深入理解计算机底层
day15｜前端框架学习和算法 universe_01 前端算法笔记
T22括号生成先把所有情况都画出来，然后（在满足什么情况下）把不符合条件的删除。T78子集要画树状图，把思路清晰。可以用暴力法、回溯法和DFS做这个题DFS深度搜索：每个边都走完，再回溯应用：二叉树搜索，图搜索回溯算法=DFS+剪枝T200岛屿数量（非常经典BFS宽度把树状转化成队列形式，lambda匿名函数“一次性的小函数，没有名字”setup语法糖：让代码更简洁好写的语法ref创建：基本类型的
Git 与 GitHub 的对比与使用指南一念& 其它 git github
Git与GitHub的对比与使用指南在软件开发中，Git和GitHub是两个密切相关但本质不同的工具。下面我将逐步解释它们的定义、区别、核心概念以及如何协同使用，确保内容真实可靠，基于广泛的技术实践。1.什么是Git？Git是一个分布式版本控制系统，由LinusTorvalds于2005年创建。它的核心功能是跟踪代码文件的变化，帮助开发者管理项目历史记录、协作和回滚错误。Git是开源的，可以在本地
深入解析JVM工作原理：从字节码到机器指令的全过程
一、JVM概述Java虚拟机(JVM)是Java平台的核心组件，它实现了Java"一次编写，到处运行"的理念。JVM是一个抽象的计算机器，它有自己的指令集和运行时内存管理机制。JVM的主要职责：加载：读取.class文件并验证其正确性存储：管理内存分配和垃圾回收执行：解释或编译字节码为机器指令安全：提供沙箱环境限制恶意代码二、JVM架构详解JVM由三个主要子系统组成：1.类加载子系统类加载过程分为
第28章汇编语言--- 异常处理 hummhumm 汇编算法开发语言程序设计高级语言异常处理汇编语言
在汇编语言中，异常处理是一个重要的概念，它涉及到处理器如何响应和处理程序运行时发生的非正常情况。异常可以是硬件错误（例如除零错误、非法指令）或者软件触发的中断（例如系统调用）。当发生异常时，处理器会暂停当前正在执行的程序，并转移到一个预先定义好的位置来处理这个异常。为了详细阐述第28章关于汇编语言中的异常处理，我们可以考虑一个简化的例子，展示异常处理的基本结构。请注意，实际的代码将取决于具体的处理
【C++算法】76.优先级队列_前 K 个高频单词流星白龙优选算法C++c++算法开发语言
文章目录题目链接：题目描述：解法C++算法代码：题目链接：692.前K个高频单词题目描述：解法利用堆来解决TopK问题预处理一下原始的字符串数组，用一个哈希表统计一下每一个单词出现的频次。创建一个大小为k的堆频次：小根堆字典序（频次相同的时候）：大根堆循环让元素依次进堆判断提取结果C++算法代码：classSolution{//定义类型别名，PSI表示对typedefpairPSI;//自定义比较
Flowable 实战落地核心：选型决策与坑点破解练习时长两年半的程序员小胡 Flowable 流程引擎实战指南低代码 BPMN 流程引擎 flowable 后端 java
在企业级流程引擎的落地过程中，选型的准确性和坑点的预见性直接决定项目成败。本文聚焦Flowable实战中最关键的“选型决策”与“常见坑点”，结合真实项目经验，提供可落地的解决方案。一、流程引擎选型：从业务本质出发1.1选型的三大核心维度企业在选择流程引擎时，需避免陷入“技术崇拜”，应回归业务本质。评估Flowable是否适用，可从三个维度判断：业务复杂度若流程涉及动态审批链（如按金额自动升级审批）
Flowable 高级扩展：自定义元素与性能优化实战练习时长两年半的程序员小胡 Flowable 流程引擎实战指南流程图 flowable BPMN 流程引擎 java
在前五篇文章中，我们从基础概念、流程设计、API实战、SpringBoot集成，到外部系统协同，逐步构建了Flowable的应用体系。但企业级复杂场景中，原生功能往往难以满足定制化需求——比如需要特殊的审批规则网关、与决策引擎联动实现动态路由，或是在高并发场景下优化流程引擎性能。本文将聚焦Flowable的高级扩展能力，详解如何自定义流程元素、集成规则引擎，并掌握大型系统中的性能调优策略。一、自定
互信息：理论框架、跨学科应用与前沿进展大千AI助手人工智能 Python #OTHER 人工智能深度学习算法互信息香农通信随机变量
1.起源与核心定义互信息（MutualInformation,MI）由克劳德·香农（ClaudeShannon）在1948年开创性论文《AMathematicalTheoryofCommunication》中首次提出，该论文奠定了现代信息论的基础。互信息用于量化两个随机变量之间的统计依赖关系，定义为：若已知一个随机变量的取值，能为另一个随机变量提供的信息量。数学上，对于离散随机变量XXX和YYY，
Java | 多线程经典问题 - 售票 Ada54
一、售票需求1）同一个票池2）多个窗口卖票，不能出售同一张票二、售票问题代码实现（线程与进程小总结，请戳：Java|线程和进程，创建线程）step1：定义SaleWindow类实现Runnable接口，覆盖run方法step2：实例化SaleWindow对象，创建Thread对象，将SaleWindow作为参数传给Thread类的构造函数，然后通过Thread.start()方法启动线程step3
通义万相2.2：开启高清视频生成新纪元 Liudef06小白特殊专栏 AIGC 人工智能人工智能通义万相2.2 图生视频
通义万相2.2：开启高清视频生成新纪元2025年7月28日，中国AI领域迎来里程碑时刻——通义万相团队正式开源其革命性视频生成模型Wan2.2的核心权重，这标志着开源社区首次获得支持720P高清视频生成的先进模型架构。一、架构革新：混合专家系统1.1MoE视频扩散架构通义万相2.2首次将混合专家（MoE）架构引入视频扩散模型，通过双专家系统实现计算效率与模型容量的平衡：classMoEVideoD
2023-01-26 胡喜平
我觉得《可见的学习》一书确实从底层逻辑说清楚了，教学的本质。可是太多术语和概念，一时间难以消化啊。而且知道和懂得有距离，运用就更不行了，需要高手和专家的指导。我需要多听听新课标的讲座了，来反复印证。读论文也有了一点点灵感，明天修改我的论文。
CodeFoeces-450B ss5smi
题目原题链接：B.JzzhuandSequences题意根据公式公式计算对应fn的值。参考了其他作者的代码和思路。找循环点。负数取余需要加取余数到>0为止才可取余。代码#includeusingnamespacestd;constintmod=1e9+7;intmain(){longlongf[10],x,y,n;cin>>x>>y>>n;x=(x+mod)%mod;y=(y+mod)%mod;f
你好，2020年瑄瑄妍妍的妈咪
早上好，今天是2020年的第一天，也就是元旦，新年新的一天开始了。新的开始，重新规划未来的一年。从今天开始，用了一个新的记账软件，之前的随手记软件，也没有删除，只是重新下载了一个别的软件，开始一个新的记账旅程，对于理财开支，有个新的规划。通过小红书视频软件，学习了不少育儿知识，和各种不同的美食，以后动手制作，给宝宝做健康美味的营养餐。学习方面，继续学英语吧！虽然是抽出时间学的，进度也比较慢，但是积
图论算法经典题目解析：DFS、BFS与拓扑排序实战周童學数据结构与算法深度优先算法图论
图论算法经典题目解析：DFS、BFS与拓扑排序实战图论问题是算法面试中的高频考点，本博客将通过四道LeetCode经典题目（均来自"Top100Liked"题库），深入讲解图论的核心算法思想和实现技巧。涵盖DFS、BFS、拓扑排序和前缀树等知识点，每道题配有Java实现和易错点分析。1.岛屿数量(DFS遍历)问题描述给定一个由'1'(陆地)和'0'(水)组成的二维网格，计算岛屿的数量。岛屿由水平或
基于redis的Zset实现作者的轻量级排名周童學 Java redis 数据库缓存
基于redis的Zset实现轻量级作者排名系统在今天的技术架构中，Redis是一种广泛使用的内存数据存储系统，尤其在需要高效检索和排序的场景中表现优异。在本篇博客中，我们将深入探讨如何使用Redis的有序集合（ZSet）构建一个高效的笔记排行榜系统，并提供相关代码示例和详细的解析。1.功能背景与需求假设我们有一个笔记分享平台，用户可以发布各种笔记，系统需要根据用户发布的笔记数量来生成一个实时更新的
【项目实战】容错机制与故障恢复：保障系统连续性的核心体系本本本添哥 004 -研效与DevOps运维工具链 002 -进阶开发能力分布式
在分布式系统中，硬件故障、网络波动、软件异常等问题难以避免。容错机制与故障恢复的核心目标是：通过主动检测故障、自动隔离风险、快速转移负载、重建数据一致性，最大限度减少故障对业务的影响，保障系统“持续可用”与“数据不丢失”。以下从核心机制、实现方式、典型案例等维度展开说明。一、故障检测：及时发现异常节点故障检测是容错的第一步，需通过多维度手段实时感知系统组件状态，确保故障被快速识别。1.健康检查与心
Java并发核心：线程池使用技巧与最佳实践！ | 多线程篇(五) bug菌¹ Java实战(进阶版)java Java零基础入门 Java并发线程池多线程篇
本文收录于「Java进阶实战」专栏，专业攻坚指数级提升，希望能够助你一臂之力，帮你早日登顶实现财富自由；同时，欢迎大家关注&&收藏&&订阅！持续更新中，up！up！up！！环境说明：Windows10+IntelliJIDEA2021.3.2+Jdk1.8本文目录前言摘要正文何为线程池？为什么需要线程池？线程池的好处线程池使用场景如何创建线程池？线程池的常见配置源码解析案例分享案例代码演示案例运行
5G基站信号加速器！AD8021ARZ-REEL7亚德诺超低噪声高速电压放大器专利失真消除技术! 深圳市尚想信息技术有限公司 5G通信高速运放 ADI黑科技 8K视频医疗超声
AD8021ARZ-REEL7ADI：重新定义高速放大器的性能极限！一、产品简介AD8021ARZ-REEL7是ADI（亚德诺半导体）推出的超低噪声高速电压反馈放大器，采用XFCB工艺和专利失真消除技术，专为4K/8K视频处理、医疗成像、5G通信等超高频应用设计。以1.8GHz带宽和0.1nV/√Hz超低噪声，成为高速信号调理的终极解决方案！二、五大颠覆性优势军工级信号保真度1.8GHz-3dB带
Matrix-Breakout 2 Morpheus靶场解题过程
信息收集目标探测靶机目标很明显就是61.139.2.141了扫描开放端口发现22、80、81访问端口主机访问80翻译一下，并没有发现什么审查源代码发现里面有一张图片，下载下来看看是否有图片的隐写wgethttp://61.139.2.141/trinity.jpegstegoveritas-itrinity.jpeg-o/home/kali/Desktop/11分解后发现什么都没有，里面的keep
JVM 内存分配与回收策略：从对象创建到内存释放的全流程
在JVM的运行机制中，内存分配与回收策略是连接对象生命周期与垃圾收集器的桥梁。它决定了对象在堆内存中的创建位置、存活过程中的区域迁移，以及最终被回收的时机。合理的内存分配策略能减少GC频率、降低停顿时间，是优化Java应用性能的核心环节。本文将系统解析JVM的内存分配规则、对象晋升机制，以及实战中的内存优化技巧。一、对象优先在Eden区分配：新生代的“临时缓冲区”大多数情况下，Java对象在新生代
代码随想录算法训练营第三十五天
01背包问题二维题目链接01背包问题二维题解importjava.util.Scanner;publicclassMain{publicstaticvoidmain(String[]args){Scannersc=newScanner(System.in);intM=sc.nextInt();intN=sc.nextInt();int[]space=newint[M];int[]value=new
Redis + Caffeine 实现高效的两级缓存架构周童學 Java 缓存 redis 架构
Redis+Caffeine实现高效的两级缓存架构引言在现代高并发系统中，缓存是提升系统性能的关键组件之一。传统的单一缓存方案往往难以同时满足高性能和高可用性的需求。本文将介绍如何结合Redis和Caffeine构建一个高效的两级缓存系统，并通过三个版本的演进展示如何逐步优化代码结构。项目源代码：github地址、gitee地址两级缓存架构概述两级缓存通常由本地缓存（如Caffeine）和分布式缓
uniapp微信小程序 - 详解微信小程序平台用户授权登录全流程，uniapp v3版本中小程序端开发下用户点击登录后获取手机号/昵称/性别/头像等信息完成登录（提供完整示例代码，一键复制开箱即用）十一猫咪爱养鱼前端组件与功能(开箱即用)uniapp常见问题解决 uniapp vue3 uniapp3小程序授权登录微信小程序登录获取用户信息教程获取用户昵称手机号头像信息登录 vue3版本小程序平台授权登录 uniap小程序端用户登录流程 uni完整的小程序平台登录源码
效果图在uniapp微信小程序端开发中，超详细实现用户授权登录完整功能源码，用户授权后获取手机号/昵称/头像/性别等，提供完整思路流程及逻辑讲解。uniappVue3和Vue2都能用，你也可以直接复制粘贴，然后改下参数放到你的项目中去就行。整体思路做功能之前，先来看一下整体流程是
【Coze搞钱实战】3. 避坑指南：对话流设计中的6个致命错误（真实案例） AI_DL_CODE Coze平台对话流设计客服Bot避坑用户流失封号风险智能客服配置故障修复指南
摘要：对话流设计是智能客服Bot能否落地的核心环节，直接影响用户体验与业务安全。本文基于50+企业Bot部署故障分析，聚焦导致用户流失、投诉甚至封号的6大致命错误：无限循环追问、人工移交超时、敏感词过滤缺失、知识库冲突、未处理否定意图、跨平台适配失败。通过真实案例拆解每个错误的表现形式、技术根因及工业级解决方案，提供可直接复用的Coze配置代码、工作流模板和检测工具。文中包含对话流健康度检测工具使
微信公众号回调java_处理微信公众号消息回调 weixin_39607620 微信公众号回调java
1、背景在上一节中，咱们知道如何接入微信公众号，可是以后公众号会与咱们进行交互，那么微信公众号如何通知到咱们本身的服务器呢？咱们知道咱们接入的时候提供的url是GET/mp/entry，那么公众号以后产生的事件将会以POST/mp/entry发送到咱们本身的服务器上。html2、代码实现，此处仍是使用weixin-java-mp这个框架实现一、引入weixin-java-mpcom.github.
Deepseek技术深化：驱动大数据时代颠覆性变革的未来引擎荣华富贵8 spring boot 搜索引擎后端缓存 redis
在大数据时代，信息爆炸和数据驱动的决策逐渐重塑各行各业。作为一项前沿技术，Deepseek正在引领新一轮技术革新，颠覆传统数据处理与分析方式。本文将从理论原理、应用场景和前沿代码实践三个层面，深入剖析Deepseek技术如何为大数据时代提供颠覆性变革的解决方案。一、技术背景与核心思想1.1大数据挑战与机遇在数据量呈指数级增长的背景下，传统数据处理方法面临数据存储、计算效率和信息提取精度的诸多挑战。
Qwen3 大模型实战：使用 vLLM 部署与函数调用（Function Call）全攻略曦紫沐大模型大模型部署 Qwen3 vLLM 函数调用
文章摘要本文将带你从零开始，深入掌握如何使用Qwen3-8B大语言模型，结合vLLM进行高性能部署，并通过函数调用（FunctionCall）实现模型与外部工具的智能联动。我们将详细讲解部署命令、调用方式、代码示例及实际应用场景，帮助你快速构建基于Qwen3的智能应用。一、Qwen3简介与部署环境准备Qwen3是通义千问系列的最新一代大语言模型，具备强大的自然语言理解和生成能力，尤其在函数调用、工
你竟然还在用克隆删除？Conda最新版rename命令全攻略！曦紫沐 Python基础知识 conda 虚拟环境管理
文章摘要Conda虚拟环境管理终于迎来革命性升级！本文揭秘Conda4.9+版本新增的rename黑科技，彻底告别传统“克隆+删除”的繁琐操作。从命令解析到实战案例，手把手教你如何安全高效地重命名Python虚拟环境，附带版本检测、环境迁移、故障排查等进阶技巧，助你提升开发效率10倍！一、颠覆认知：Conda居然自带重命名功能？很多开发者仍停留在“Conda无法直接重命名环境”的认知阶段，实际上自
Pandas：数据科学的超级瑞士军刀科技林总 DeepSeek学AI 人工智能
**——从零基础到高效分析的进化指南**###**一、Pandas诞生：数据革命的救世主****2010年前的数据分析噩梦**：```python#传统Python处理表格数据data=[]forrowincsv_file:ifrow[3]>100androw[2]=="China":data.append(float(row[5])#代码冗长易错！```**核心痛点**：-Excel处理百万行崩
JAVA基础灵静志远位运算加载 Date 字符串池覆盖
一、类的初始化顺序 1 （静态变量，静态代码块）-->（变量，初始化块）--> 构造器同一括号里的，根据它们在程序中的顺序来决定。上面所述是同一类中。如果是继承的情况，那就在父类到子类交替初始化。二、String 1 String a = "abc"; JAVA虚拟机首先在字符串池中查找是否已经存在了值为"abc"的对象，根
keepalived实现redis主从高可用 bylijinnan redis
方案说明两台机器（称为A和B），以统一的VIP对外提供服务 1.正常情况下，A和B都启动，B会把A的数据同步过来（B is slave of A） 2.当A挂了后，VIP漂移到B；B的keepalived 通知redis 执行：slaveof no one，由B提供服务 3.当A起来后，VIP不切换，仍在B上面；而A的keepalived 通知redis 执行slaveof B，开始
java文件操作大全 0624chenhong java
最近在博客园看到一篇比较全面的文件操作文章，转过来留着。 http://www.cnblogs.com/zhuocheng/archive/2011/12/12/2285290.html 转自http://blog.sina.com.cn/s/blog_4a9f789a0100ik3p.html 一.获得控制台用户输入的信息 &nbs
android学习任务不懂事的小屁孩工作
任务完成情况搞清楚带箭头的pupupwindows和不带的使用已完成熟练使用pupupwindows和alertdialog，并搞清楚两者的区别已完成熟练使用android的线程handler,并敲示例代码进行中了解游戏2048的流程，并完成其代码工作进行中-差几个actionbar 研究一下android的动画效果，写一个实例已完成复习fragem
zoom.js 换个号韩国红果果 oom
它的基于bootstrap 的 https://raw.github.com/twbs/bootstrap/master/js/transition.js transition.js模块引用顺序 <link rel="stylesheet" href="style/zoom.css"> <script src=&q
详解Oracle云操作系统Solaris 11.2 蓝儿唯美 Solaris
当Oracle发布Solaris 11时，它将自己的操作系统称为第一个面向云的操作系统。Oracle在发布Solaris 11.2时继续它以云为中心的基调。但是，这些说法没有告诉我们为什么Solaris是配得上云的。幸好，我们不需要等太久。Solaris11.2有4个重要的技术可以在一个有效的云实现中发挥重要作用：OpenStack、内核域、统一存档（UA）和弹性虚拟交换（EVS）。
spring学习——springmvc（一） a-john springMVC
Spring MVC基于模型-视图-控制器（Model-View-Controller，MVC）实现，能够帮助我们构建像Spring框架那样灵活和松耦合的Web应用程序。 1，跟踪Spring MVC的请求请求的第一站是Spring的DispatcherServlet。与大多数基于Java的Web框架一样，Spring MVC所有的请求都会通过一个前端控制器Servlet。前
hdu4342 History repeat itself-------多校联合五 aijuans 数论
水题就不多说什么了。 #include<iostream>#include<cstdlib>#include<stdio.h>#define ll __int64using namespace std;int main(){ int t; ll n; scanf("%d",&t); while(t--)
EJB和javabean的区别 asia007 bean ejb
EJB不是一般的JavaBean,EJB是企业级JavaBean,EJB一共分为3种,实体Bean,消息Bean,会话Bean,书写EJB是需要遵循一定的规范的,具体规范你可以参考相关的资料.另外,要运行EJB,你需要相应的EJB容器,比如Weblogic,Jboss等,而JavaBean不需要,只需要安装Tomcat就可以了 1.EJB用于服务端应用开发, 而JavaBeans
Struts的action和Result总结百合不是茶 struts Action配置 Result配置
一:Action的配置详解: 下面是一个Struts中一个空的Struts.xml的配置文件 <?xml version="1.0" encoding="UTF-8" ?> <!DOCTYPE struts PUBLIC &quo
如何带好自已的团队 bijian1013 项目管理团队管理团队
在网上看到博客" 怎么才能让团队成员好好干活"的评论，觉得写的比较好。原文如下：我做团队管理有几年了吧，我和你分享一下我认为带好团队的几点： 1.诚信对团队内成员，无论是技术研究、交流、问题探讨，要尽可能的保持一种诚信的态度，用心去做好，你的团队会感觉得到。 2.努力提
Java代码混淆工具 sunjing ProGuard
Open Source Obfuscators ProGuard http://java-source.net/open-source/obfuscators/proguardProGuard is a free Java class file shrinker and obfuscator. It can detect and remove unused classes, fields, m
【Redis三】基于Redis sentinel的自动failover主从复制 bit1129 redis
在第二篇中使用2.8.17搭建了主从复制，但是它存在Master单点问题，为了解决这个问题，Redis从2.6开始引入sentinel，用于监控和管理Redis的主从复制环境，进行自动failover，即Master挂了后，sentinel自动从从服务器选出一个Master使主从复制集群仍然可以工作，如果Master醒来再次加入集群，只能以从服务器的形式工作。什么是Sentine
使用代理实现Hibernate Dao层自动事务白糖_ DAO spring AOP 框架 Hibernate
都说spring利用AOP实现自动事务处理机制非常好，但在只有hibernate这个框架情况下，我们开启session、管理事务就往往很麻烦。 public void save(Object obj){ Session session = this.getSession(); Transaction tran = session.beginTransaction(); try
maven3实战读书笔记 braveCS maven3
Maven简介是什么？ Is a software project management and comprehension tool.项目管理工具是基于POM概念(工程对象模型) [设计重复、编码重复、文档重复、构建重复，maven最大化消除了构建的重复] [与XP：简单、交流与反馈；测试驱动开发、十分钟构建、持续集成、富有信息的工作区] 功能：
编程之美-子数组的最大乘积 bylijinnan 编程之美
public class MaxProduct { /** * 编程之美子数组的最大乘积 * 题目: 给定一个长度为N的整数数组，只允许使用乘法，不能用除法，计算任意N-1个数的组合中乘积中最大的一组，并写出算法的时间复杂度。 * 以下程序对应书上两种方法，求得“乘积中最大的一组”的乘积——都是有溢出的可能的。 * 但按题目的意思，是要求得这个子数组，而不
读书笔记-2 chengxuyuancsdn 读书笔记
1、反射 2、oracle年-月-日时-分-秒 3、oracle创建有参、无参函数 4、oracle行转列 5、Struts2拦截器 6、Filter过滤器(web.xml) 1、反射 (1)检查类的结构在java.lang.reflect包里有3个类Field,Method,Constructor分别用于描述类的域、方法和构造器。 2、oracle年月日时分秒 s
[求学与房地产]慎重选择IT培训学校 comsci it
关于培训学校的教学和教师的问题,我们就不讨论了,我主要关心的是这个问题培训学校的教学楼和宿舍的环境和稳定性问题我们大家都知道，房子是一个比较昂贵的东西，特别是那种能够当教室的房子... &nb
RMAN配置中通道(CHANNEL)相关参数 PARALLELISM 、FILESPERSET的关系 daizj oracle rman filesperset PARALLELISM
RMAN配置中通道(CHANNEL)相关参数 PARALLELISM 、FILESPERSET的关系转 PARALLELISM --- 我们还可以通过parallelism参数来指定同时"自动"创建多少个通道： RMAN > configure device type disk parallelism 3 ; 表示启动三个通道，可以加快备份恢复的速度。
简单排序:冒泡排序 dieslrae 冒泡排序
public void bubbleSort(int[] array){ for(int i=1;i<array.length;i++){ for(int k=0;k<array.length-i;k++){ if(array[k] > array[k+1]){
初二上学期难记单词三 dcj3sjt126com sciet
concert 音乐会 tonight 今晚 famous 有名的；著名的 song 歌曲 thousand 千 accident 事故；灾难 careless 粗心的，大意的 break 折断；断裂；破碎 heart 心（脏） happen 偶尔发生，碰巧 tourist 旅游者；观光者 science （自然）科学 marry 结婚 subject 题目；
I.安装Memcahce 1. 安装依赖包libevent Memcache需要安装libevent,所以安装前可能需要执行 Shell代码收藏代码 dcj3sjt126com redis
wget http://download.redis.io/redis-stable.tar.gz tar xvzf redis-stable.tar.gz cd redis-stable make 前面3步应该没有问题，主要的问题是执行make的时候，出现了异常。异常一： make[2]: cc: Command not found 异常原因：没有安装g
并发容器 shuizhaosi888 并发容器
通过并发容器来改善同步容器的性能，同步容器将所有对容器状态的访问都串行化，来实现线程安全，这种方式严重降低并发性，当多个线程访问时，吞吐量严重降低。并发容器ConcurrentHashMap 替代同步基于散列的Map，通过Lock控制。 &nb
Spring Security（12）——Remember-Me功能 234390216 Spring Security Remember Me 记住我
Remember-Me功能目录 1.1 概述 1.2 基于简单加密token的方法 1.3 基于持久化token的方法 1.4 Remember-Me相关接口和实现
位运算焦志广位运算
一、位运算符Ｃ语言提供了六种位运算符： & 按位与 | 按位或 ^ 按位异或 ~ 取反 << 左移 >> 右移 1. 按位与运算按位与运算符"&"是双目运算符。其功能是参与运算的两数各对应的二进位相与。只有对应的两个二进位均为1时，结果位才为1 ，否则为0。参与运算的数以补码方式出现。例如：9&am
nodejs 数据库连接 mongodb mysql liguangsong mongodb mysql node 数据库连接
1.mysql 连接 package.json中dependencies加入 "mysql":"~2.7.0" 执行 npm install 在config 下创建文件 database.js
java动态编译 olive6615 java HotSpot jvm 动态编译
在HotSpot虚拟机中，有两个技术是至关重要的，即动态编译(Dynamic compilation)和Profiling。 HotSpot是如何动态编译Javad的bytecode呢？Java bytecode是以解释方式被load到虚拟机的。HotSpot里有一个运行监视器，即Profile Monitor,专门监视
Storm0.9.5的集群部署配置优化 roadrunners 优化 storm.yaml
nimbus结点配置（storm.yaml）信息： # Licensed to the Apache Software Foundation (ASF) under one # or more contributor license agreements. See the NOTICE file # distributed with this work for additional inf
101个MySQL 的调节和优化的提示 tomcat_oracle mysql
　1. 拥有足够的物理内存来把整个InnoDB文件加载到内存中——在内存中访问文件时的速度要比在硬盘中访问时快的多。　　2. 不惜一切代价避免使用Swap交换分区 – 交换时是从硬盘读取的，它的速度很慢。　　3. 使用电池供电的RAM（注：RAM即随机存储器）。　　4. 使用高级的RAID（注：Redundant Arrays of Inexpensive Disks，即磁盘阵列
zoj 3829 Known Notation(贪心) 阿尔萨斯 ZOJ
题目链接：zoj 3829 Known Notation 题目大意：给定一个不完整的后缀表达式，要求有2种不同操作，用尽量少的操作使得表达式完整。解题思路：贪心，数字的个数要要保证比∗的个数多1，不够的话优先补在开头是最优的。然后遍历一遍字符串，碰到数字+1，碰到∗-1,保证数字的个数大于等1，如果不够减的话，可以和最后面的一个数字交换位置（用栈维护十分方便），因为添加和交换代价都是1

文生视频的发展史及其原理解析：从Gen2、Emu Video到PixelDance、SVD、Pika 1.0

前言

第一部分 文生视频的iPhone时刻：Runway先后发布Gen-1、Gen-2

1.1 Gen-1：对现有的3D动画和手机视频进行AI编辑

1.1.1 Gen-1何以做到：给图像模型增加时间线，且对图像和视频做联合训练

1.1.2 Gen1的训练过程、推理过程的详解

1.1.2.1 对潜在扩散模型的回顾

1.1.2.2 时空潜在扩散(Spatio-temporal Latent Diffusion)

1.1.2.3 结构与内容的表示(Representing Content and Structure)

1.2 Gen-2获得了史诗级的升级——可以从头开始生成视频

1.2.1 基于Gen-2生成视频的8种模式

1.2.2 Gen-2在23年11月的更新：生成视频4K超高清且涂哪动哪

第二部分 Meta发布生成式视频模型：Emu Video

2.1 Emu Edit ：精确的图像编辑

2.1.1 相比InstructPix2Pix的优势：更准确的执行指令

2.1.2 成功的两个关键：多任务训练、通过交叉注意力融合任务嵌入向量和时间步嵌入

2.2 Emu Video：先生成图像，再通过图像和文本生成视频

2.2.1 EMU VIDEO:Factorizing Text-to-Video Generation by Explicit Image Conditioning

2.2.2 模型的评估及与Pika、Gen-2的对比

第三部分 PixelDance

3.1 PixelDance的两种视频生成模式

3.2 论文解读：Make Pixels Dance: High-Dynamic Video Generation

第四部分 Stable Video Diffusion (SVD)

4.1 Stability AI发布生成式视频模型Stable Video Diffusion(SVD)

4.2 论文解读：Stable Video Diffusion: Scaling Latent Video Diffusion Models to Large Datasets

参考文献

创作、修改、晚上记录

你可能感兴趣的:(论文,代码,实战,文生视频,Gen2,Emu,Video,PixelDance,文生视频SVD)

第一部分文生视频的iPhone时刻：Runway先后发布Gen-1、Gen-2