LOADING

加载过慢请开启缓存 浏览器默认开启

SoVits调研使用

2023/8/25 SoVits;TTS

这个博客,主要调研如何最基础的使用SoVits进行

语音合成。

该项目的官网链接为:

github.com/svc-develop-team/so-vits-svc/

现在,该项目已经归档,无法进行PR的提交了

SoVits的部署

简介

so-vits-svc是一个开源的基于PyTorch的歌唱语音转换项目。它主要功能是可以将一段歌唱语音转换成另一个人的声音风格,实现不同人物“演唱”同一首歌曲的效果。

该项目的核心思路是利用SoftVC内容编码器提取源音频的语音特征,然后直接输入到VITS中进行转换,不需要转换为文本的中间表示。这样可以保留原音频的音高和语调信息。同时替换了VITS原来的声码器为NSF HiFiGAN,解决了声音中断的问题。

项目使用ContentVec或Hubert作为语音编码器,提取语音特征;使用RMVPE或其他方法提取音高特征;然后输入到VITS模型中进行风格转换。转换后的语音通过HiFiGAN等声码器还原为语音波形。

项目提供了完整的训练、推理流程,可以自定义训练数据集。也提供了多种语音编码器、音高提取器、声码器等模块的选择。支持动态的音色融合功能。同时具有浅度扩散等后处理功能提升音质。

部署

  1. 下载项目
git clone https://github.com/svc-develop-team/so-vits-svc.git
  1. 下载预训练文件

📥 预先下载的模型文件

第一步:选择并下载声音编码器

  1. contentvec (推荐)

  2. hubertsoft

… (以此类推,为每个编码器提供下载链接和存放位置)

第二步:下载可选的预训练模型

  1. 预训练底模文件

    • 下载:G_0.pthD_0.pth
    • 存放位置:logs/44k目录
  2. 扩散模型预训练

    • 下载:model_0.pt
    • 存放位置:logs/44k/diffusion目录

第三步:下载增强器和预测器(如果需要)

  1. NSF-HIFIGAN

    • 下载链接
    • 解压后存放位置:pretrain/nsf_hifigan目录
  2. RMVPE