GPT-SoVITS：用一分钟语音完美克隆自己的声音

哇，你们听说了吗？最近有个超酷的项目，叫GPT-SoVITS，简直就像是科幻小说里的技术一样！这个东西能做的事情，听着都有点不可思议——给它一分钟的声音录音，它就能克隆出来那个人的声音。是的，你没听错，只需要一分钟。

我刚开始也是半信半疑的，但是这个项目已经在GitHub上火了，拿到了超过16.5k的星星。而且，不仅仅是汉语，它还能处理英语和日语的声音转换。

github_ai_tool_gpt_sovits_1

独特之处

GPT-SoVITS的独特之处在于其惊人的效率和高质量的输出。传统的声音克隆技术往往需要大量的语音数据和复杂的训练过程，而GPT-SoVITS打破了这一局限，仅需短短一分钟的录音就能训练出一个声音模型，这使得个人用户和小型开发团队也能轻松入门并实现声音克隆。

github_ai_tool_gpt_sovits_2

功能特色

零样本文本到语音（TTS）：就是说，哪怕只有5秒钟的声音样本，它也能帮你转换文本到语音。
少样本TTS：如果你能提供1分钟的声音样本给它，它就能更好地学习，让克隆出来的声音更加真实、更加像原声。
跨语言能力：这个功能也很赞，意味着它能帮你把英语、日语和中文文本都转换成那个克隆的声音。
超友好的WebUI工具：这个对于像我这样的技术小白来说太重要了，有了这些工具，我们也能玩转声音克隆了。

测试环境

GPT-SoVITS已在多个环境下通过测试，包括不同版本的Python、PyTorch和CUDA，甚至支持在macOS上运行，这一点对于使用Apple芯片的Mac用户来说尤其重要。

github_ai_tool_gpt_sovits_3

快速部署

Windows

如果你是 Windows 用户（已在 win>=10 上测试），可以直接下载预打包文件，解压后双击 go-webui.bat 即可启动 GPT-SoVITS-WebUI。

Linux

conda create -n GPTSoVits python=3.9
conda activate GPTSoVits
bash install.sh

macOS

只有符合以下条件的 Mac 可以训练模型：

搭载 Apple 芯片的 Mac
运行macOS 12.3 或更高版本
已通过运行xcode-select --install安装 Xcode command-line tools

所有 Mac 都可使用 CPU 进行推理，且已测试性能优于 GPU。

首先确保你已通过运行 brew install ffmpeg 或 conda install ffmpeg 安装 FFmpeg，然后运行以下命令安装：

conda create -n GPTSoVits python=3.9
conda activate GPTSoVits

pip3 install --pre torch torchaudio --index-url https://download.pytorch.org/whl/nightly/cpu
pip install -r requirements.txt

注：只有安装了Pytorch Nightly才可训练模型。

实际应用

这个项目的用途真的很广泛。想要模仿明星的声音做个搞笑视频？或者制作一个个性化的语音助手？GPT-SoVITS都能帮你实现。

GPT-SoVITS真的给我们展示了声音合成技术的一个全新境界。随着技术的进步，我相信将来我们在声音合成领域还会看到更多令人兴奋的突破。真是太期待了！