在音频处理,特别是机器学习训练数据的准备中,获取纯净的人声(去除背景音乐或噪声)是一个常见的痛点。幸运的是,开源社区提供了许多强大的工具来帮助我们完成这项任务!
本文将盘点一系列 GitHub 上的开源语音分离项目,重点关注那些能有效分离“人物语音”和“背景音乐”的工具,并根据 GitHub 星标 ⭐(反映社区关注度和活跃度)从高到低进行介绍。请注意,本文中提及的 GitHub 星标数据统计于 2025年4月17日(根据用户提供的数据),这些数字是动态变化的,反映了当时的社区热度。 无论你是需要为语音识别(ASR)、声纹识别(Speaker Verification)还是其他语音任务准备训练数据,这里总有一款工具适合你!
Spleeter (⭐ 26.7k+)
vocals
轨道即可得到人声。Ultimate Vocal Remover GUI (⭐ 20.3k+)
pyvideotrans (⭐ 12.5k+)
vocal-remover
或类似库),以便单独处理人声进行识别和翻译。FunASR (⭐ 9.8k+)
SpeechBrain (⭐ 9.7k+)
Demucs (⭐ 8.8k+)
pyannote-audio (⭐ 7.3k+)
ClearerVoice-Studio (⭐ 2.6k+)
Asteroid (⭐ 2.4k+)
AudioSep (⭐ 1.7k+)
vocal-separate (⭐ 1.5k+)
pyvideotrans
同作者,这是一个更专注于人声分离的命令行工具。底层可能依赖其他库(如 vocal-remover
包,间接使用 Spleeter 或 UVR 模型等)。Open-Unmix (PyTorch) (⭐ 1.4k+)
svoice (⭐ 1.3k+)
Wave-U-Net (⭐ 888+)
Demucs-Gui (⭐ 751+)
python-audio-separator (⭐ 712+)
spleeter-web (⭐ 471+)
MVSEP-MDX23-Colab_v2 (⭐ 300+)
TDANet (⭐ 272+)
VoiceSplit (⭐ 245+)
Looking-to-Listen-at-the-Cocktail-Party (⭐ 164+)
Deep-Audio-Prior (⭐ 159+)