Meta 新推出的实时语音翻译模型 Seamless

项目简介

SeamlessM4T 是我们基础的一体式大规模多语言和多模式机器翻译模型,可为近 100 种语言的语音和文本提供高质量翻译。

SeamlessM4T 模型支持以下任务:

  • 语音到语音翻译 (S2ST)

  • 语音到文本翻译 (S2TT)

  • 文本到语音翻译 (T2ST)

  • 文本到文本翻译 (T2TT)

  • 自动语音识别 (ASR)

我们正在发布 SemalessM4T v2,这是采用我们新颖的 UnitY2 架构的更新版本。与 SeamlessM4T v1 相比,该新模型在质量以及语音生成任务中的推理延迟方面有所改进。

要了解有关 SeamlessM4T 模型集合、每个模型所使用的方法、其语言覆盖范围及其性能的更多信息,请访问 SeamlessM4T 自述文件或模型卡

SeamlessExpressive

SeamlessExpressive 是一种语音到语音翻译模型,可捕捉韵律中某些未充分探索的方面,例如语速和停顿,同时保留语音风格和高内容翻译质量。

要了解有关 SeamlessExpressive 模型的更多信息,请访问 SeamlessExpressive 自述文件或 模型卡

SeamlessStreaming 

SeamlessStreaming 是一种流式翻译模型。该模型支持语音作为输入模态和语音/文本作为输出模态。

SeamlessStreaming 模型支持以下任务:

  • 语音到语音翻译 (S2ST)

  • 语音到文本翻译 (S2TT)

  • 自动语音识别 (ASR)

要了解有关 SeamlessStreaming 模型的更多信息,请访问 SeamlessStreaming 自述文件或模型卡

安装

先决条件之一是 fairseq2,它具有仅适用于 Linux x84-86 和 Apple-silicon Mac 计算机的预构建软件包。此外,它还依赖于 libsndfile,而您的计算机上可能没有安装该文件。如果您遇到任何安装问题,请参阅其自述文件以获取进一步说明。

pip install .

转录推理音频以计算指标使用自动安装的 Whisper。Whisper 反过来需要在您的系统上安装命令行工具 ffmpeg ,大多数包管理器都可以提供该工具。

项目链接

https://github.com/facebookresearch/seamless_communication

网站/论文: https://ai.meta.com/research/seamless-communication/

HF: https://huggingface.co/collections/facebook/seamless-communication-6568d486ef451c6ba62c7724

你可能感兴趣的:(智能语音,人工智能,音视频,开源)