WYC的个人分享 你好,陌生人

声音模拟GPT-SoVITS

⚠️ 本文最后更新于2024年01月28日,已经过了330天没有更新,若内容或图片失效,请留言反馈

**> 观看本篇内容则自动同意使用软件者与本博客博主无关,出任何后果使用软件者、传播软件导出的声音者自负全责. 不同意则严禁继续观看。

此软件以MIT协议开源, 作者不对软件具备任何控制力, 使用软件者、传播软件导出的声音者自负全责. 如不认可该条款,
则不能使用或引用软件包内任何代码和文件. 详见根目录LICENSE.**

GPT-SoVITS下载

Github 链接:https://github.com/RVC-Boss/GPT-SoVITS

出于对原作者的尊重,我不会直接提供整合包的网盘链接,只可从 Github 下载

GPT-SoVITS使用

  1. 解压压缩包
  2. 打开 D:\app\tool\GBT soVits\GPT-SoVITS\go-webui.bat
  3. 这时会弹出一个网页,此时你有两个选择,一个是不经过任何训练直接使用声音模拟,第二个是经过声音训练再进行模拟

方案一:直接进行模拟,不进行任何训练

  1. 点击 1-GPT-SoVITS-TTS
  2. 实验/模型名->自己取个名字即可(不建议用中文命名)
  3. 点击 1C-推理
  4. 这里最好刷新模型路径,然后勾选 是否开启TTS推理WebUI
  5. 等待一段时间会出现新页面
  6. 请上传并填写参考信息 这一栏中把准备好的音频拖到里面(注意此参考音频影响重大,最好不要有杂音等,如果有详细查看下文如何除杂音)这里的参考音频效果不理想可更换多个直到理想为止
  7. 参考音频的文本须手动输入且要跟音频内容相同,有停顿用 “,”隔开
  8. 请填写需要合成的目标文本 中短文字可直接输入,如果是过长的文字须放入下面的文本切分工具中根据需求进行切割

方案二:进行训练后模拟(相对麻烦,但是效果更好)

  1. 首先你准备的音频先检查是否有杂音,如果有开启0a-UVR5人声伴奏分离&去混响去延迟工具,等待一段时间会弹出一个界面
  2. 根据新界面的内容说明进行对应的去除杂音
  3. 成功去除杂音以后可以将过长的语音在0b-语音切分工具进行分割,如果你的语音并不是很长可以跳过
  4. 然后开始进行 0c-中文批量离线ASR工具 将处理好的音频路径复制粘贴,当出现“ASR任务完成”则表示成功
  5. -语音文本校对标注工具(很重要)将上一步生成的文件路径粘贴到里面

【注意】这里的路径为文件路径,路径中要包含文件,例如我的D:\app\tool\GBT soVits\GPT-SoVITS\output\asr_opt\XXX.list 这里最后结尾为要是以.list结尾的
然后开启是否开启打标WebUI,等待一段时间会出现一个新页面,在这个页面里修正语音的文字
【注意】每次修改后一定要点 Submit Text 进行保存

  1. 点击 1-GPT-SoVITS-TTS,起实验名字
  2. 在1A-训练集格式化工具里把文本标注文件填上【注意】是.list后缀结尾的路径,{这里的路径可能会被“”所包括,这会导致识别出错,记得把“”删掉}开始一键三联
  3. 在1B微调训练里分别进行两次训练,训练完成后在跟目录下的SoVITS_weights文件夹中和GPT_weights查看是否有文件生成,如果没有则代表训练失败你的电脑配置偏低,调低每张显卡的batch_size或者总训练轮数total_epoch,不建议太高的数值继续训练

【它提示的训练完成并不表示真正的完成,必须是在两个文件夹里生成文件才代表成功】

  1. 在1C-推理中刷新模型路径,然后勾选 是否开启TTS推理WebUI
  2. 请上传并填写参考信息 这一栏中把准备好的音频拖到里面(注意此参考音频影响重大,最好不要有杂音等)这里的参考音频效果不理想可更换多个直到理想为止
    参考音频的文本须手动输入且要跟音频内容相同,有停顿用 “,”隔开
    请填写需要合成的目标文本 中短文字可直接输入,如果是过长的文字须放入下面的文本切分工具中根据需求进行切割

到这里基本就配置完成,在GPT模型列表和SoVITS模型列表可以选择不同的配置来达到你想要的效果,而且同一个配置多次生成声音他的音色也不同。

By wyc On