GptSoVits音频教程

这个号称5秒克隆,或者用1分钟音频训练10分钟就能达到原声效果。

5秒的号称,只要是,什么几秒的,大家可以完全不要想了,什么知更鸟,什么火山,包括本次的GptSoVits的效果肯定是不行的,数据太短效果不可能达到。所以这些都听不出来本人的声音。

新测试,拿35秒的高质量音频训练,效果确实还可以吊打目前世面一切中文训练的。

重点关注1分钟的音频训练10分钟,是否能赶超阿里的kantts。阿里1分钟音频训练10分钟出来,音色是比较像的,但是杂音和混响严重。这也是本文的目的。

由于是测试这里就不部署linux版本,直接用作者提供的整合包


资源位置(123网盘)

GPT-SoVITS官方版下载丨最新版下载丨绿色版下载丨APP下载-123云盘

GptSoVits音频教程_第1张图片

环境:

win10,我显卡是3060ti(12g显存),装了nvida驱动。内存建议16G(2条8g才60块钱,很便宜,9成新)

1.安装

由于是整合包,解压就行,这里用7z解压,因为rar压缩包里面有2个7z的文件,是2个版本的。

GptSoVits音频教程_第2张图片

2.数据集准备

2.1去混响

我是干净的人声,但是有空调声,我试一下这个功能

GptSoVits音频教程_第3张图片

然后会自动弹出一个新页面,进行下图操作

GptSoVits音频教程_第4张图片

然后点转换,等待每一条处理完成

完毕后,UVR5-WebUI(关闭这个页面,取消对钩就行)

2.2切分文件,降低显存,用于每条每条训练

我已经是切分过的了,就不用切分了,我以前写了个程序更方便切分

https://shiao.blog.csdn.net/article/details/133700129

2.3使用funAsr进行文本标注

这边是我以前写的单独做asr标注的,这个中文效果比openAi的whisper好。

中文语音标注工具FunASR(语音识别)-CSDN博客

本文中是用他集成好的asr,修改输入和输出

GptSoVits音频教程_第5张图片

之后点击开启批量ASR,看黑窗口,他会去下载模型(第一次比较慢,请耐心等待

GptSoVits音频教程_第6张图片

成功后

GptSoVits音频教程_第7张图片

2.4文本校对,就是用耳朵听,看看哪个地方不对

GptSoVits音频教程_第8张图片

输入刚刚合成的【文件路径】,然后勾选启动打标WebUI

稍后会弹出新页面

GptSoVits音频教程_第9张图片

听声音,看哪个不对,就改掉。觉得声音完全不对的,可以勾选yes然后点deleteAudio按钮删除。

想听下一批点击next index。最后点击SaveFile。

3.训练

进入训练步骤

GptSoVits音频教程_第10张图片

3.1执行特征提取

和sovits一样,推理的同样会默认保存在logs中

输入实验名,然后给定标注路径还有音频路径,点击一键三连开始训练。

GptSoVits音频教程_第11张图片

3.2训练微调

GptSoVits音频教程_第12张图片

参数的话我显存12G,我就调高了一点,大家也可以用默认。

点击开始sovits训练,然后看窗口,没有报错就行。

训练完成后,然后,开始GPT训练,我GPU占用率百分之40。

GptSoVits音频教程_第13张图片

4.推理

4.1推理模型配置

点击推理界面,先刷新模型,然后点击推理,然后打钩

GptSoVits音频教程_第14张图片

打钩后,稍等一会儿就会弹出一个推理界面

4.2推理测试

刷新模型路径,上传语音,然后输入文本,点击合成语音

GptSoVits音频教程_第15张图片

GptSoVits音频教程_第16张图片

结果:

效果很不错,清晰度居然超过了kantts-sambert预训练16k。但是有个别吐字错误的情况。不过效果确实不错,我训练的数据是300句录音棚数据。

参考:

语音克隆神器GPT-SoVITS,只需一分钟素材训练模型,AI文字转语音效果堪比真人 | 科技与狠活

耗时两个月自主研发的低成本AI音色克隆软件,免费送给大家!【GPT-SoVITS】_哔哩哔哩_bilibili

你可能感兴趣的:(音视频)