**> 观看本篇内容则自动同意使用软件者与本博客博主无关,出任何后果使用软件者、传播软件导出的声音者自负全责. 不同意则严禁继续观看。
此软件以MIT协议开源, 作者不对软件具备任何控制力, 使用软件者、传播软件导出的声音者自负全责. 如不认可该条款,
则不能使用或引用软件包内任何代码和文件. 详见根目录LICENSE.**
GPT-SoVITS下载
Github 链接:https://github.com/RVC-Boss/GPT-SoVITS
出于对原作者的尊重,我不会直接提供整合包的网盘链接,只可从 Github 下载
GPT-SoVITS使用
- 解压压缩包
- 打开
D:\app\tool\GBT soVits\GPT-SoVITS\go-webui.bat
- 这时会弹出一个网页,此时你有两个选择,一个是不经过任何训练直接使用声音模拟,第二个是经过声音训练再进行模拟
方案一:直接进行模拟,不进行任何训练
- 点击 1-GPT-SoVITS-TTS
- 实验/模型名->自己取个名字即可(不建议用中文命名)
- 点击 1C-推理
- 这里最好刷新模型路径,然后勾选 是否开启TTS推理WebUI
- 等待一段时间会出现新页面
- 请上传并填写参考信息 这一栏中把准备好的音频拖到里面(注意此参考音频影响重大,最好不要有杂音等,如果有详细查看下文如何除杂音)这里的参考音频效果不理想可更换多个直到理想为止
- 参考音频的文本须手动输入且要跟音频内容相同,有停顿用 “,”隔开
- 请填写需要合成的目标文本 中短文字可直接输入,如果是过长的文字须放入下面的文本切分工具中根据需求进行切割
方案二:进行训练后模拟(相对麻烦,但是效果更好)
- 首先你准备的音频先检查是否有杂音,如果有开启0a-UVR5人声伴奏分离&去混响去延迟工具,等待一段时间会弹出一个界面
- 根据新界面的内容说明进行对应的去除杂音
- 成功去除杂音以后可以将过长的语音在0b-语音切分工具进行分割,如果你的语音并不是很长可以跳过
- 然后开始进行 0c-中文批量离线ASR工具 将处理好的音频路径复制粘贴,当出现“ASR任务完成”则表示成功
- -语音文本校对标注工具(很重要)将上一步生成的文件路径粘贴到里面
【注意】这里的路径为文件路径,路径中要包含文件,例如我的D:\app\tool\GBT soVits\GPT-SoVITS\output\asr_opt\XXX.list 这里最后结尾为要是以.list结尾的
然后开启是否开启打标WebUI,等待一段时间会出现一个新页面,在这个页面里修正语音的文字
【注意】每次修改后一定要点 Submit Text 进行保存
- 点击 1-GPT-SoVITS-TTS,起实验名字
- 在1A-训练集格式化工具里把文本标注文件填上【注意】是.list后缀结尾的路径,{这里的路径可能会被“”所包括,这会导致识别出错,记得把“”删掉}开始一键三联
- 在1B微调训练里分别进行两次训练,训练完成后在跟目录下的SoVITS_weights文件夹中和GPT_weights查看是否有文件生成,如果没有则代表训练失败你的电脑配置偏低,调低每张显卡的batch_size或者总训练轮数total_epoch,不建议太高的数值继续训练
【它提示的训练完成并不表示真正的完成,必须是在两个文件夹里生成文件才代表成功】
- 在1C-推理中刷新模型路径,然后勾选 是否开启TTS推理WebUI
- 请上传并填写参考信息 这一栏中把准备好的音频拖到里面(注意此参考音频影响重大,最好不要有杂音等)这里的参考音频效果不理想可更换多个直到理想为止
参考音频的文本须手动输入且要跟音频内容相同,有停顿用 “,”隔开
请填写需要合成的目标文本 中短文字可直接输入,如果是过长的文字须放入下面的文本切分工具中根据需求进行切割
到这里基本就配置完成,在GPT模型列表和SoVITS模型列表可以选择不同的配置来达到你想要的效果,而且同一个配置多次生成声音他的音色也不同。