谷歌开源音乐生成模型速览:magenta-realtime

Magenta RealTime 模型

一、模型概述

Magenta RealTime 是由 Google DeepMind 开发的开源音乐生成模型,基于 MusicFX DJ 和 Lyria RealTime 同样的研究技术构建。它能够通过文本提示、音频示例或多种文本提示及音频示例的加权组合来持续生成音乐音频,在资源有限的环境中(如现场表演或免费 Colab TPU)也能部署,支持实时、连续的音乐音频生成。

二、使用条款

  • 代码库基于 Apache 2.0 许可证,模型权重基于知识共享署名 4.0 国际许可证。

  • Google 声明对用户使用 Magenta RealTime 生成的输出不主张权利,用户及使用者需对输出及其后续用途负责。

  • 除非适用法律要求或书面同意,否则软件和材料按 “原样” 分发,不提供任何形式的明示或暗示保证。

三、模型详情

  • 系统组成 :包含 SpectroStream、MusicCoCa 和一个 LLM 三个组件。SpectroStream 是离散音频编解码器,可将立体声 48kHz 音频转换为 tokens;MusicCoCa 是对比训练模型,能将音频和文本文嵌入到公共嵌入空间;LLM 是编码器 - 解码器 Transformer 模型,可根据上下文音频 tokens 和 tokenized MusicCoCa 嵌入生成音频 tokens。

  • 输入输出 :SpectroStream RVQ 编解码器将高保真音乐音频进行标记化,编码器输入 / 解码器输出是 48kHz 立体声音乐音频波形,编码器输出 / 解码器输入是离散音频 tokens,25Hz 帧率,64 RVQ 深度,10 位代码,16kbps;MusicCoCa 输入是音乐音频波形(16kHz 单声道)或音乐的文本文表示,输出是 768 维嵌入,量化为 12 RVQ 深度,10 位代码;LLM 编码器输入是(上下文,1000 个 tokens)10 秒音频上下文 tokens(4 RVQ 深度)、(风格,6 个 tokens)量化后的 MusicCoCa 风格嵌入,解码器输出是(生成,800 个 tokens)2 秒音频(16 RVQ 深度)。

四、应用场景

  • 互动音乐创作 :可用于现场表演 / 即兴创作,表演者通过操控风格嵌入或音频上下文来生成音乐;使有传统乐器使用障碍的人能够参与音乐创作,还可在电子游戏开发中根据用户行为和环境实时创建定制配乐。

  • 研究方面 :研究者可借助 MusicCoCa 和 Magenta RT 的表示来识别音乐信息,进行迁移学习。

  • 个性化定制 :音乐家可对模型进行微调,使其符合自己的风格(即将支持微调功能)。

  • 教育领域 :自然语言提示使用户能够快速了解和实验音乐概念,探索各种音乐体裁、乐器和历史。

五、局限性

  • 音乐风格覆盖范围有限 :主要基于西方器乐音乐训练,对声乐表演和世界各地丰富的音乐传统覆盖不全面,对于更广泛风格覆盖的实时生成,可参考 Lyria RealTime API。

  • 声乐方面 :虽能生成非词汇化哼唱声,但未基于歌词进行条件设置,不太可能生成实际歌词,但仍存在生成不当或文化不敏感歌词的风险。

  • 延迟问题 :Magenta RT LLM 每次处理两秒的音频块,用户输入的风格提示可能需要两秒或更长时间才能影响音乐输出。

  • 上下文有限 :编码器最大音频上下文窗口为十秒,无法直接引用早于该时间的音乐,无法自动创建长期歌曲结构。

六、优势

Magenta RealTime 是当时唯一支持实时、连续音乐音频生成的开源权重模型,专为现场互动音乐创作而设计,可为音乐表演、艺术装置、电子游戏等众多应用带来新的功能。

七、启动方法

可通过 Magenta RealTime 的 Colab 演示和 GitHub 仓库中的使用示例来开始使用该模型。

八、训练细节

  • 训练数据 :基于来自多个来源的大约 19 万小时的库存音乐进行训练,主要是器乐音乐。

  • 硬件方面 :使用 Tensor Processing Unit(TPU)硬件(TPUv6e / Trillium)进行训练。

  • 软件部分 :使用 JAX 和 T5X 进行训练,利用 SeqIO 构建数据管道,JAX 可帮助研究人员利用最新硬件(如 TPUs)更快更高效地训练大型模型。

九、评估

模型评估指标和结果将在即将发布的技术报告中分享。

Magenta RealTime 核心技术总结

谷歌开源音乐生成模型速览:magenta-realtime_第1张图片

你可能感兴趣的:(前沿,开源,人工智能,语言模型,音视频,算法,音乐生成)