GPT-SoVITS:用一分钟语音完美克隆自己的声音
GPT-SoVITS是一个创新的语音克隆技术项目,它能够仅通过一分钟的声音录音克隆出相应的声音。这个开源项目不仅效率惊人,输出质量高,还支持零样本和少样本文本到语音(TTS)转换。
直达下载
回到上一页
clickgpt_line.png_noView
介绍

哇,你们听说了吗?最近有个超酷的项目,叫GPT-SoVITS,简直就像是科幻小说里的技术一样!这个东西能做的事情,听着都有点不可思议——给它一分钟的声音录音,它就能克隆出来那个人的声音。是的,你没听错,只需要一分钟。

我刚开始也是半信半疑的,但是这个项目已经在GitHub上火了,拿到了超过16.5k的星星。而且,不仅仅是汉语,它还能处理英语和日语的声音转换。

github_ai_tool_gpt_sovits_1

独特之处

GPT-SoVITS的独特之处在于其惊人的效率和高质量的输出。传统的声音克隆技术往往需要大量的语音数据和复杂的训练过程,而GPT-SoVITS打破了这一局限,仅需短短一分钟的录音就能训练出一个声音模型,这使得个人用户和小型开发团队也能轻松入门并实现声音克隆。

github_ai_tool_gpt_sovits_2

功能特色

  • 零样本文本到语音(TTS):就是说,哪怕只有5秒钟的声音样本,它也能帮你转换文本到语音。
  • 少样本TTS:如果你能提供1分钟的声音样本给它,它就能更好地学习,让克隆出来的声音更加真实、更加像原声。
  • 跨语言能力:这个功能也很赞,意味着它能帮你把英语、日语和中文文本都转换成那个克隆的声音。
  • 超友好的WebUI工具:这个对于像我这样的技术小白来说太重要了,有了这些工具,我们也能玩转声音克隆了。

测试环境

GPT-SoVITS已在多个环境下通过测试,包括不同版本的Python、PyTorch和CUDA,甚至支持在macOS上运行,这一点对于使用Apple芯片的Mac用户来说尤其重要。

github_ai_tool_gpt_sovits_3

快速部署

Windows

如果你是 Windows 用户(已在 win>=10 上测试),可以直接下载预打包文件,解压后双击 go-webui.bat 即可启动 GPT-SoVITS-WebUI。

Linux

conda create -n GPTSoVits python=3.9
conda activate GPTSoVits
bash install.sh

macOS

只有符合以下条件的 Mac 可以训练模型:

  • 搭载 Apple 芯片的 Mac
  • 运行macOS 12.3 或更高版本
  • 已通过运行xcode-select --install安装 Xcode command-line tools

所有 Mac 都可使用 CPU 进行推理,且已测试性能优于 GPU。

首先确保你已通过运行 brew install ffmpegconda install ffmpeg 安装 FFmpeg,然后运行以下命令安装:

conda create -n GPTSoVits python=3.9
conda activate GPTSoVits

pip3 install --pre torch torchaudio --index-url https://download.pytorch.org/whl/nightly/cpu
pip install -r requirements.txt

注:只有安装了Pytorch Nightly才可训练模型。

实际应用

这个项目的用途真的很广泛。想要模仿明星的声音做个搞笑视频?或者制作一个个性化的语音助手?GPT-SoVITS都能帮你实现。

GPT-SoVITS真的给我们展示了声音合成技术的一个全新境界。随着技术的进步,我相信将来我们在声音合成领域还会看到更多令人兴奋的突破。真是太期待了!

编程学习
编程学习 免费领取编程学习资料 进编程学习交流群
订阅号
视频号
公众号 关注公众号,回复关键字python领取大厂最新面试题
×
编程学习
免费领取编程学习资料 进编程学习交流群