2025 年 5 月 14 日,阿里巴巴为视频创作领域带来了重磅惊喜 —— 开源通义万相 Wan2.1-VACE。这一模型堪称视频生成与编辑领域的集大成者,凭借其全面且强大的功能,为广大创作者、开发者以及企业用户开辟了全新的视频创作天地。它打破了以往视频创作中需依赖多种工具和模型的局限,以单一模型之力,将视频生成与编辑的众多关键环节整合,极大地简化了创作流程,提升了创作效率。接下来,让我们深入探索通义万相 Wan2.1-VACE 的神奇世界。
在通义万相 Wan2.1-VACE 的操作界面中,有一个简洁而强大的文本输入框。当你在其中输入一段充满想象力的文字描述,比如 “宁静的夜晚,古老的城堡被月光笼罩,城墙上的旗帜随风轻轻飘动,城堡前的花园里,萤火虫闪烁着微光,穿梭在花丛间”,并设置好期望的视频分辨率(如选择 1080P 以获得高清画质)和时长(假设设置为 10 秒)后,点击生成按钮,模型便迅速运转起来。它基于对文字的深度理解,从海量的知识储备中提取相关元素,构建场景,生成一段完全贴合你文字描述的视频。视频中,夜晚的黑暗氛围、城堡的神秘轮廓、月光的柔和洒下、旗帜的飘动细节以及萤火虫的灵动闪烁都栩栩如生,让文字在屏幕上鲜活地动起来。
若你有一张极具故事感的静态图片,比如一张小女孩站在海边望向远方的照片,想要将其转化为动态视频。在通义万相 Wan2.1-VACE 中,你只需上传这张图片,还可以在旁边的文本框中补充描述,如 “小女孩开始奔跑,海风将她的头发吹起,海浪拍打着沙滩,溅起朵朵白色浪花”。模型会以图片中的小女孩为主体,根据你的描述,生成一段小女孩在海边动态活动的视频。她的奔跑动作流畅自然,头发随风飘动的姿态、海浪拍打沙滩的动态效果都与图片中的场景完美融合,仿佛原本静止的画面被注入了生命的活力,开启了一段新的故事。
对于已经存在的视频,通义万相 Wan2.1-VACE 的视频重绘功能可以对其进行全方位的改造。比如你有一段拍摄日常城市街道的普通视频,画面风格平淡无奇。通过上传该视频,在模型操作界面中,你可以选择将其重绘为复古风格,视频瞬间就像是从老电影中截取的片段,画面色调泛黄,带有颗粒质感,充满怀旧氛围;或者选择将其转化为卡通风格,街道和人物都以卡通形象呈现,线条简洁流畅,色彩鲜艳活泼,具有独特的艺术感。同时,若原视频画质模糊,模型还能通过智能算法提升画质,让视频中的细节更加清晰,如街道上的店铺招牌文字变得清晰可辨,人物的面部表情也更加细腻。
在视频局部编辑方面,通义万相 Wan2.1-VACE 展现出了极高的精准度。以一段热闹的集市视频为例,视频中有一位摊主在摊位前售卖水果,但摊位上有一个不太美观的杂物。你可以在模型操作界面中,通过鼠标精准地圈选这个杂物所在区域,选择 “删除” 操作,模型会自动识别该区域周围的场景元素,然后智能地填补删除杂物后的空白,使视频画面依然保持连贯自然,就好像这个杂物从未存在过一样。又或者,你想在视频中的某个摊位上添加一些鲜花作为装饰,选择 “添加” 操作,上传鲜花图片,模型会将鲜花自然地融入摊位场景中,调整鲜花的光影、角度等,使其与周围环境完美匹配,实现对视频局部细节的精准雕琢。
假设你有一段人物在室内演讲的视频,背景较为单调。使用通义万相 Wan2.1-VACE 的视频背景延展功能,你可以在操作界面中选择上下左右等方向进行背景扩展。比如选择向下扩展,并描述 “添加一个带有精美花纹的木质地板,地板上摆放着几盆绿色植物”。模型会根据你的要求,在视频下方生成符合描述的背景内容,扩展后的背景与原视频中的人物和前景元素融合自然,仿佛原本的室内空间得到了真实的延伸,极大地丰富了视频的场景空间和视觉效果。
对于一段时长较短、内容略显单薄的产品介绍视频,通义万相 Wan2.1-VACE 的视频时长延展功能可以发挥重要作用。你可以在操作界面中选择在视频的开头、结尾或中间插入额外内容。例如,选择在视频结尾插入一段用户使用该产品后露出满意笑容并点赞的画面。通过输入详细描述,模型会生成相应内容并添加到视频中。新生成的视频不仅时长得到了延展,而且内容更加丰富完整,从产品展示到用户反馈,情节更加连贯,能够更好地吸引观众的注意力,传达产品信息。
通义万相 Wan2.1-VACE 创新性地提出了视频条件单元 VCU,这是其实现强大功能的关键技术之一。VCU 就像是一个智能的多模态信息处理器,它将各种不同类型的输入,如文本、图像、视频、Mask 和控制信号等,进行统一的整合和处理。在输入形态上,它巧妙地将这些多模态信息归纳为文本、帧序列和 Mask 序列三大类,从而为文生视频、参考图生视频、视频生视频以及基于局部区域的视频生视频这 4 大类视频生成和编辑任务,提供了统一的输入形式基础。
在处理多模态信息时,VCU 对输入的 Frame 序列进行了独特的概念解耦。它如同一个精细的分类器,将 Frame 序列中的图像元素按性质精准拆分。对于那些需要保留原始视觉信息的 RGB 像素,它将其归类为不变帧序列;而对于承载着控制指令等需要重新生成的像素内容,则构建为可变帧序列。这种解耦方式,使得不同性质的元素能够在后续的处理中得到针对性的操作,为多模态输入的高效处理奠定了坚实基础。
模型采用了先进的 DiT(Diffusion in Transformer)架构,这种架构在视频生成领域具有独特的优势。它能够有效地捕捉视频中不同元素在时空维度上的长时程依赖关系,使得生成的视频在时间上的动作衔接更加流畅自然,在空间上的场景布局更加合理协调,从而生成时空一致的高质量视频。
同时,结合 Full Attention 机制,DiT 架构能够更好地聚焦于视频中的关键信息,准确地理解和处理每个元素之间的关联。无论是复杂的人物动作,还是宏大的场景变化,Full Attention 机制都能确保模型不会遗漏任何重要细节,为生成细节丰富、逻辑连贯的视频提供了有力支持。
在提升计算效率方面,通义万相 Wan2.1-VACE 运用了 VAE 视频压缩技术。这一技术就像是一个高效的 “压缩大师”,在保证视频质量不受明显影响的前提下,对视频数据进行合理压缩,大大减少了模型运行时所需处理的数据量。这不仅节省了大量的计算时间,还降低了对硬件资源的需求,使得在一些配置相对普通的设备上,也能够较为流畅地运行该模型,让更多用户能够轻松享受到模型带来的便利。
与传统仅依赖文本提示的视频生成模型不同,通义万相 Wan2.1-VACE 构建了一个极为丰富和强大的多模态信息输入系统。这个系统就像是一个多功能的创作工具箱,为创作者提供了丰富多样的创作工具和手段,使其能够对视频生成过程进行更加精准的控制。
在图像输入方面,模型可支持物体参考图或视频帧。这意味着创作者可以通过上传特定的物体图片或视频中的关键帧,引导模型在生成视频时,更好地把握物体的形态、颜色、纹理等特征,实现元素一致性生成。例如,在生成一个关于汽车的视频时,上传一张汽车的高清图片作为参考,模型生成的视频中汽车的外观细节将与参考图片高度一致。
对于视频输入,用户可以通过抹除、局部扩展等操作,使用模型重新生成视频。比如,对于一段舞蹈视频,用户可以选择抹除其中某个不太满意的舞蹈动作片段,然后通过输入新的描述,让模型重新生成这部分内容,实现对视频内容的个性化定制。
在局部区域编辑中,用户可以通过简单的 0/1 二值信号来指定编辑区域。这种直观的操作方式,使得创作者能够轻松地圈定视频中需要修改的局部区域,如人物的面部、物体的某个部分等,然后进行相应的元素替换、添加或删除操作,实现对视频细节的精细调整。
在控制信号方面,模型支持深度图、光流、布局、灰度、线稿和姿态等多种信号输入。以姿态控制为例,创作者可以通过输入人物的姿态信息,让模型生成的视频中人物的动作姿态符合预期,无论是优雅的舞蹈动作,还是激烈的运动场景,都能精准呈现。这种多模态信息输入与可控重绘机制,极大地满足了不同创作者对于视频内容和风格的多样化需求,让创作者的创意能够得到更充分的表达和实现。