部署Fish-Speech实现声音克隆及文本转语音

FishSpeech 是由Fish Audio团队开发的一款开源文本转语音(TTS)模型,支持多语言的语音合成和识别。它采用先进的深度学习技术,能够生成自然流畅的语音,并提供高质量的语音转文字功能。FishSpeech 支持声音克隆,仅需15秒的音频样本即可生成相似语音。它还支持本地部署,用户可以在个人设备上轻松运行,仅需4GB显存。FishSpeech 广泛应用于内容创作、教育、虚拟助手、游戏和辅助工具等领域,为语音交互提供了强大的技术支持。

要求

  • GPU 内存: 4GB (用于推理), 8GB (用于微调)
  • 系统: Linux, Windows

下载模型

克隆FishSpeech仓库:

git clone https://github.com/fishaudio/fish-speech.git
cd fish-speech

下载模型权重:

git clone https://hf-mirror.com/fishaudio/fish-speech-1.5

或者手动下载模型文件,并放置在checkpoints/fish-speech-1.5目录下。

安装环境依赖

创建虚拟环境

conda create -n fish-speech python=3.10
conda activate fish-speech

 安装PyTorch

pip install torch==2.4.1 torchvision==0.19.1 torchaudio==2.4.1 --index-url https://download.pytorch.org/whl/cu121

安装Fish-Speech

pip install -e .

安装Triton加速(可选)

pip install https://github.com/AnyaCoder/fish-speech/releases/download/v0.1.0/triton_windows-0.1.0-py3-none-any.whl

运行项目

启动WebUI服务:

python tools/run_webui.py

启动API服务:

python tools/api_server.py --listen 0.0.0.0:3003

使用WebUI进行语音合成:

  • 打开浏览器,访问http://localhost:7860
  • 在WebUI中输入文本,上传参考音频(可选),然后点击“生成”按钮即可

你可能感兴趣的:(AI,linux,人工智能,运维)