哔哩哔哩推出开源动漫视频生成模型速读:Index-AniSora

Index-AniSora 模型速读

一、项目概述

Index-AniSora 是由哔哩哔哩推出的开源动漫视频生成模型,旨在实现一键式跨多种动漫风格的视频创作,包括系列剧集、中国原创动画、漫画改编、虚拟主播内容、动漫 PV 和鬼畜风格动画等。该项目基于 IJCAI’25 接受的工作 AniSora 开发,提供完整的训练和推理代码,并支持在 RTX 4090 上经济高效的部署。

Index-AniSora 的开发团队强调其开源特性,所有构建内容均对外公开。项目自2024年12月首次在 arXiv 上提交论文并发布项目及评估基准以来,持续进行更新与优化。目前,AniSoraV2.0 版本正在开发中,预计将在5月底前推出。

二、技术架构

模型训练基础

Index-AniSora 的早期版本基于 CogVideoX-5B 基础模型训练,而后续版本则采用增强型 Wan2.1-14B 基础模型,从而显著提升生成视频的稳定性,同时通过蒸馏加速推理过程,实现更快且成本更低的视频生成。

视频控制技术

  • 区域指导(Localized region guidance):实现对视频特定区域的精确控制,使生成视频更符合预期效果。

  • 时序指导(Temporal guidance):包括首尾帧指导、关键帧插值和多帧指导,增强视频的连贯性和逻辑性。

设备适配性

  • AniSoraV1.0 支持 Nvidia GPU 训练。

  • AniSoraV2.0 原生支持华为昇腾910B NPUs,且完全基于国产芯片进行训练,扩大了模型在不同硬件环境下的适用范围。

三、数据集与评估

数据集构建

Index-AniSora 配备了端到端的数据集管道,用于快速扩展训练数据。其动画数据清理管道能够有效提升数据质量,确保模型训练的基础数据可靠性。项目还收集了948个不同动作的动画视频片段,构成评估基准数据集,每个标签包含10-30个视频片段,并通过 Qwen-VL2 生成初始文本提示后进行人工校正,以保证文本与视频的一致性。

评估体系

  • 自动化评估模型:包括适合强化学习和基准测试的奖励模型,以及针对动画生成的定制化评估框架。

  • 人类偏好对齐:通过与 ACG 美学标准对齐的测试数据集,进行人类双盲测试,验证模型生成视频在角色和动作一致性方面的表现。

四、模型性能

Vbench 评估结果

方法 运动流畅度 运动分数 美学质量 成像质量 图像转视频主体 图像转视频背景 总体一致性
Opensora Plan(V1.3) 99.13 76.45 53.21 65.11 93.53 94.71 21.67
Opensora(V1.2) 98.78 73.62 54.30 68.44 93.15 91.09 22.68
Vidu 97.71 77.51 53.68 69.23 92.25 93.06 20.87
Covideo(5B V1) 97.67 71.47 54.87 68.16 90.68 91.79 21.87
MiniMax 99.20 66.53 54.56 71.67 95.95 95.42 21.82
AniSora 99.34 45.59 54.31 70.58 97.52 95.04 21.15

AniSora 基准评估结果

方法 人类评估 视觉流畅 视觉运动 视觉吸引力 文本-视频一致性 图像-视频一致性 角色一致性
Vidu-1.5 60.98 55.37 78.95 50.68 60.71 66.85 82.57
Opensora V1.2 41.10 22.28 74.90 22.62 52.19 55.67 74.76
Opensora Plan-V1.3 46.14 35.08 77.47 36.14 56.19 59.42 81.19
CovideoX 5B-V1 53.29 39.91 73.07 39.59 67.98 65.49 83.07
MiniMax I2V01 69.63 69.38 68.05 70.34 76.14 78.74 89.47
AniSora (Ours) 70.13 71.47 47.94 64.44 72.92 81.54 94.54

五、应用场景

Index-AniSora 覆盖了超过90%的应用场景,能够生成高质量的视频镜头,包括但不限于:

  • 动漫剧集制作

  • 中国原创动画开发

  • 漫画内容改编

  • 虚拟主播素材创作

  • 动漫宣传视频(PV)制作

  • 鬼畜风格动画创作

其强大的可控性使创作者能够通过图像到视频生成、帧插值和局部图像引导动画等功能,实现精准的创意表达。

六、未来展望

Index-AniSora 项目团队计划持续优化模型性能,特别是在 AniSoraV2.0 版本中进一步提升14B版本模型的能力。团队还致力于完善动画视频生成的评价体系,并探索强化学习从人类反馈(RLHF)框架在动画视频生成中的应用,以实现更符合人类偏好的动画风格输出。

七、核心技术总结

哔哩哔哩推出开源动漫视频生成模型速读:Index-AniSora_第1张图片

你可能感兴趣的:(前沿,人工智能,生成模型,大模型,开源,算法,文生视频)