# AI训练自己的声音唱歌

By [Free DAO](https://paragraph.com/@z22222) · 2023-06-15

---

微信公众号：「佑秀创业」
============

微信号：lamdaai
===========

重点声明：本教程仅用作个人娱乐使用，不承担任何责任，请勿将其用作违法途径使用

重点声明：本教程仅用作个人娱乐使用，不承担任何责任，请勿将其用作违法途径使用

重点声明：本教程仅用作个人娱乐使用，不承担任何责任，请勿将其用作违法途径使用

重点注释：

1：全程安装或建立的文件夹，请不要使用空格或中文，都用英文字母，不然可能会各种报错，除非你知道自己在做什么并且有能力处理各种报错

2：全程禁止使用科学上网，不然会中途无法运行

3：软件合集包里需要安装的软件使用默认安装路径，除非你知道自己在做什么并且有能力处理各种报错，可以将安装路径记到记事本上，防止后期找不到

1：获得软件合集包「lamdaai」，大约8G

![](https://storage.googleapis.com/papyrus_images/f4987452fa5b8671076c094065c7d85f1fe97fe2429e57e2cd2da44096a616ab.png)

2：双击运行So-VITS-SVC新版目录下的“UVR\_v5.5.0\_setup”，此软件可以分离歌曲的人声和伴奏

![](https://storage.googleapis.com/papyrus_images/8355dc97c7e483d47ebea3feaf657144bd857cc28b4d05f3bd181ff849d3f520.png)

注：请安装默认路径并添加快捷方式至桌面，自定义安装路径可能导致无法运行且无法重新更改为默认路径，除非你知道自己在做什么并有能力处理路径问题

3：安装后打开界面如下，确认无误后将其关闭

![](https://storage.googleapis.com/papyrus_images/49f3da2d3cd9d25e96e5cee21d5a4c6577cabf8fbd7d0e45419b88218a95057b.png)

![](https://storage.googleapis.com/papyrus_images/4e978f279ada922f4e96d248d232a583e0f37e4c35962b19b5d4d7122d12a571.png)

4：打开So-VITS-SVC新版路径下的“UVR5模型”解压至当前文件夹，解压后即可看到“Demucs\_Models、VR\_Models”2个文件夹

![](https://storage.googleapis.com/papyrus_images/a15904ba0747a486e6a3550618edb7bf5b954e52232e364563e68412e5025e9f.png)

5：鼠标右键桌面上“Ultimate Vocal Remover”选择“打开文件所在位置” 

![](https://storage.googleapis.com/papyrus_images/8e1a324eb0733b8b7ba9b9e856c17da0cddaaf7ea3528fd4ad4f8982aa4b23f2.png)

6：将这三个文件粘贴至“models”目录下，出现提示后选择“替换目标中的文件”，完成后将全部窗口关闭，重新打开“Ultimate Vocal Remover”

![](https://storage.googleapis.com/papyrus_images/7b9cad246e4c05742bfcd21ee689af96c29ec5e0447860a61e20dddf5ff092fe.png)

7：新建一个文件夹，将准备好的MP3/WAV音频文件放进去

![](https://storage.googleapis.com/papyrus_images/9e6fb5298bb89daa2db710bd6b7ddcfd827c0ae7de7f315f6af5e58ab0fdc417.png)

8：点击Ultimate Vocal Remover软件内的“slelct input”将音频上传，然后点击“slelct Output”选择一个新创建的文件夹，将输出格式选为“MAV/MP3”

![](https://storage.googleapis.com/papyrus_images/bc12716d5d82704ff90f48d346d11aef540d3a7dcedfd53016a2eb77be6ccf62.png)

9：CHOOSE PROCESS METHOD下方选择“Demucs”、CHOOSE PROCESS MODEL下方选择“V3”、选择GPU Conversion、最后点击“Start Processing”处理人声&和背景音乐分离

![](https://storage.googleapis.com/papyrus_images/eff16219be392dca00f977c75adb8cc3893777844bde404a577ccea01c2606fa.png)

10：完成后会在你刚刚选择的输入文件夹内出现2个音频（分别为背景音乐、原唱人干声）

![](https://storage.googleapis.com/papyrus_images/dd79d1d14a22ec2bc3e2909bf44dda3b9a7d08e692f8b00acce90f4e9e03b192.png)

11：在Ultimate Vocal Remover内“slelct input”将Vocals（人声）音频上传，然后点击“slelct Output”选择一个新创建的文件夹CHOOSE PROCESS METHOD下方选择“VR Architecture”、WINDOW SIZE下方选择“320”、CHOOSE PROCESS MODEL下方选择“5\_HP-Karaoke-UVR”、勾选“GPU Conversion”、“Vocals Only”最后点击“Start Processing”开始处理消除混响合声，处理完成后刚刚选择的输出文件夹内即可出现一个已处理的干净人声的音频，处理完以上步骤无误后将软件关闭即可

![](https://storage.googleapis.com/papyrus_images/60867d3ec371be3d7ff37d1767c08f5daa7b62abaf0f54a97f7060fe8c96d717.png)

注：以下是上文中在Ultimate Vocal Remover软件内进行设置的参数

![](https://storage.googleapis.com/papyrus_images/b996773801cb5945b2a6a742913704d5f46c919ec74f7d2ad028a34981690702.png)

12：在安静的环境下录制30分钟以上自己的声音（时长对训练起到至关重要的作用），保存格式为WAV，为了品质更好每条音频时长可以控制在6-10分钟左右，建立好独立文件夹

![](https://storage.googleapis.com/papyrus_images/a9f1eccea33dab0341236eb3a706941a5bfc467d38c6599ba8b011fe4bdd8fb0.png)

注：这是个可以使用的在线格式转换器，可以将音频格式转换为MAV格式：

[

免费 M4A 到 WAV 转换器 - 快速、无限制 | Converter App
-----------------------------------------

使用 Converter App 在线将 M4A 转换为 WAV。永久免费、无需注册，在合理使用范围内不设每日上限。一次最多可批量处理 20 个音频文件。转换在启用 HTTPS 的高速服务器上进行，文件仅在处理期间暂存。我们也接受超大文件上传--这对视频工具最有用，但长时间录音在这里也能顺利处理。

https://converter.app



](https://converter.app/m4a-to-wav/result.php?lang=cn)

如果失效，可以找「lamdaai」获取本地软件转换器

13：将自己录制的音频文件批量重命名，「lamdaai」给你的压缩包内将“批量重命名”解压后

将批处理文件粘贴至你录音文件夹下，双击运行“批量重命名”批处理文件即可完成批量重命名

![](https://storage.googleapis.com/papyrus_images/c71eb94e37e588077c1f919a99b0167e4f96576512c8623f3e0dc0c2d4313f95.png)

![](https://storage.googleapis.com/papyrus_images/66100712d369f28b24f2d21fd29e26e4af7a07ce461f41cc6013d1cc2b07fdb1.png)

注：不重命名可能会导致后续问题（也可能不会）

14：打开So-VITS-SVC新版\\Audio Slicer（音频切分）文件夹将“slicer-gui”解压至当前文件夹，双击运行“slicer-gui.exe”

![](https://storage.googleapis.com/papyrus_images/67e9152ad546d9d1981ee20e944a9e73e8101077801a853d804c96932014d854.png)

![](https://storage.googleapis.com/papyrus_images/20c72256fe29721c4b1992d42f678bff52a99d86a3a4fde2fa0a7b4ffa98b18e.png)

15：正常打开页面如下，Audio Slicer可将音频切分，创建一个新的文件夹用来存放切分后的声音

![](https://storage.googleapis.com/papyrus_images/15cb57e14aeb78731fad499c498f626716d15088f4e79223551b4921220f6778.png)

16：将自己录制的MAV音频文件批量拖动至Audio Slicer然后点击“Start”，完成后点击“OK”

![](https://storage.googleapis.com/papyrus_images/02f6aac2d6bf44a9d81e8249a05ba2d35de9d1a180f056c17759f5f1a8a5056d.png)

17：在你创建的输出文件夹内可以看到切分后的音频，单机鼠标右键一次选择“排序方式”、“更多”、将“大小”选项勾选、确定

![](https://storage.googleapis.com/papyrus_images/caa4944e4d2bcdfcb1c7c2682d3636e04a61a792802b0f49ddf2b9e34dad21aa.png)

![](https://storage.googleapis.com/papyrus_images/83d56b95efd76cb38135a500db67708873f2af026e1596c5f4ec146c51bc387c.png)

18：将大于2000kb的音频进行再次切割，Maximum lnterval(ms)改为“100”、Maximum Silence Length(ms)改为“300”，点击“Start”

![](https://storage.googleapis.com/papyrus_images/d998001c83daf5bf5681d457870c6965f133b2ce88cabe8aa0f51cae249187c3.png)

19：将“批量重命名”批处理文件粘贴至切分后文件夹下，双击运行“批量重命名”批处理文件进行批量重命名，用完将批处理文件在此文件夹内删除

![](https://storage.googleapis.com/papyrus_images/090fd1f713d4726283dd6347dc400f39e69525f1a074ffce512bae02b7cc93ca.png)

20：将So-VITS-SVC新版\\新版整合包内“so-vits-svc”解压至当前文件夹，打开dataset\_raw

文件夹，将刚刚Audio Slicer音频切分后的音频文件夹粘贴至此文件夹内

![](https://storage.googleapis.com/papyrus_images/1f1b458885a4403988cc0683ec96cb6dca9c2c6751c8f7cbac975478ba55bab8.png)

21：回到so-vits-svc文件夹，双击运行“启动webui”，当看到ip地址后，会自动弹出页面，后续打开运行此程序后可以通过这个ip地址在网页内即可访问AI训练页面

![](https://storage.googleapis.com/papyrus_images/4cced4ce4038c2804c055d602298f4fa30f9fb67a3e61432dd5b12b485c9b3ce.png)

![](https://storage.googleapis.com/papyrus_images/865e0004df7a5d33d638cd062ba8d8aaf98f4c322a054f8cb7f88c2080ce8d1d.png)

注：运行期间不要关闭命令窗口，关闭后网页将无法使用

22：点击训练目录下的“识别数据集”，系统会自动识别已切分音频，然后点击“数据预处理”，这个过程比较久（速度取决于显卡性能）

![](https://storage.googleapis.com/papyrus_images/36db7a2d86ab6e388d062b86c4a0e520bfb67b54723dc6c0460816df9a1a9dd8.png)

![](https://storage.googleapis.com/papyrus_images/deab9c397da82d0093df52166bfb68a189dbf63ebed34a666060720a21295c42.png)

23：等待100%完成后依次点击“清空输出信息”、“写入配置文件”、“从头开始训练”

![](https://storage.googleapis.com/papyrus_images/869ba9ca2de65042a2103a98d2c978ce04953f065d96973a6bb48d207b66365a.png)

24：命令框出现如下情况即代表开始漫长的训练

![](https://storage.googleapis.com/papyrus_images/d1d89e273378d30ce6f073aa8b940d674b22fce15d98757013168f03891dc8c3.png)

25：停止训练可以在命令框中输入Ctrl+C即可终止训练，如需继续上次训练可在训练页面点击“继续上一次的训练进度”

![](https://storage.googleapis.com/papyrus_images/9850918548d9eb512f27a0395ded390932321007f164762aaded1494acb0c819.png)

26：观察reference\_loss：一串数字，这个数值是动态的，损失值越小代表训练效果越好

![](https://storage.googleapis.com/papyrus_images/929b1b22eaf89597173a68c5032e29c06fd30515076e0409d0c8437f93ebf688.png)

注：以下是常见报错和解决方法：

报错：页面文件太小，无法完成操作。

答：增大系统虚拟内存大小，方法各种地方都能搜得到，不展开了。

报错：torch.cuda.OutOfMemoryError: CUDA out of memory 

答：爆显存了，训练遇到的话调小批量大小，推理遇到的话使用强制切片

RuntimeError: DataLoader worker (pid(s) xxxx) exited unexpectedly

答：把虚拟内存再调大一点。

报错：CUDA error: CUBLAS\_STATUS\_NOT\_INITIALIZED when calling 'cublasCreate(handle)'

答：爆显存了，基本上跟CUDA有关的报错大都是爆显存…… 

报错：torch.multiprocessing.spawn.ProcessExitedException: process 0 terminated with exit code 3221225477

答：调大虚拟内存

报错：'HParams' object has no attribute 'xxx'

答：无法找到音色，一般是配置文件和模型没对应，打开配置文件拉到最下面看看有没有你训练的音色

报错：The expand size of the tensor (768) must match the existing size (256) at non-singleton dimension 0.

答：把 dataset/44k 下的内容全部删了，重新走一遍预处理流程

报错：Given groups=1, weight of size \[xxx, 256, xxx\], expected input\[xxx, 768, xxx\] to have 256 channels, but got 768 channels instead

答：vec256的模型用了vec768的配置文件，如果上面报错的256的768位置反过来了那就是vec768的模型用了vec256的配置文件，请参考本文的的旧模型兼容，确认你的配置文件和模型维度对应。

报错：配置文件中的编码器与模型维度不匹配

答：在修改配置文件中的 "speech\_encoder" 时修改错了，检查配置文件中的"ssl\_dim"一项，如果这项是256，那你的speech\_encoder应当修改为"vec256l9"，如果是768，则是"vec768l12"

报错：模型说话人数量与emb维度不匹配

答：配置文件中的"n\_speakers"一项与模型中实际的说话人数量不一致。你应当将"n\_speaker"修改为模型中实际的说话人数量。当然，出现这一错误更有可能是你没有选择模型对应的配置文件。

报错：配置文件与模型不匹配

答：配置文件中的模型维度与模型的实际维度不一致。出现这一报错说明没有选择模型对应的配置文件。

报错：Expecting value: line 1 column 1 (char 0)

答：关闭科学上网

报错：error: emb\_g.weight is not in the checkpoint

答：这其实不是报错，首次训练时出现这一条恰恰说明你的底模被成功加载了，属于正常现象，不用担心。

27：运行1天后你想看下效果的话，可以在so-vits-svc文件夹目录下双击运行“启动tensorboard”，在命令框中复制这个网址打开后即可查看后台训练看板了

![](https://storage.googleapis.com/papyrus_images/3e5ff815c19184322bc1b2965881e66b11c5f6b11fce51974981e4145d7f2a1f.png)

注：命令框关闭网页将无法加载出来

28：点击进入“AUDIO”页面，就可以试听训练结果了，声音训练满意后，就可以终止训练，一般训练至3万步以上，即可开始制作歌曲

![](https://storage.googleapis.com/papyrus_images/a31110fd7ad7279f3e48a73f3d9697043ab2da69279068ad72fe5a05a545bc2f.png)

29：完成训练后，开始对训练好的结果进行推理，回到训练控制面板依次点击推理下的“刷新选项”、“模型选择”，选择你满意的训练完毕模型（一般选择训练步数高的），将配置文件选择为“config.json”，选择后“模型编码器”、“配置文件编码器”会自动更新

![](https://storage.googleapis.com/papyrus_images/82b03b7a9d273526991febf4ded0798e7f4da7157e3bc335a39484ea02d06cec.png)

30：完成以上配置后拉到下方点击“加载模型”即可看到对应模型已更新出来

![](https://storage.googleapis.com/papyrus_images/f685abac1f56dea0404bf23cb630fc3cc78daafa0a27918c53832748b7cb4724.png)

31：训练控制面板内点击“单个音频上传”，将消除混响合声后的原唱人声上传，点击“音频转换”，等待几秒钟完成后，即可将原唱声音替换为自己训练的声音并保持节奏同步

![](https://storage.googleapis.com/papyrus_images/0e1bcd1a20a75c7da989e9b960784afcc84955e226bca0fff76448ad20e24ff2.png)

32：如运行框内出现类似提示则代表消除混响合声后的原唱人声不是MAV文件，利用上文提到的格式转换器将其转换下格式即可：

RuntimeError: Cannot load audio from file: \`ffprobe\` not found. Please install \`ffmpeg\` in your system to use non-WAV audio file formats and make sure \`ffprobe\` is in your PATH.

![](https://storage.googleapis.com/papyrus_images/c183728024cfbe503b55c01fc5f3c5bae1f0058c819ef5b1b8968cd832068e71.png)

注：无报错跳过此步骤即可

33：等待推理完成后即可在下方看到经过推理后的模仿干音，点击音频后的三个点，将训练好的最终音频下载保存到一个新的文件夹

![](https://storage.googleapis.com/papyrus_images/cba4f99f92e2cd4566861ab47a989c02b4f3f739fd043889b48d220e2a80326a.png)

![](https://storage.googleapis.com/papyrus_images/c3953cd7992063fcf3a29ca0320603cb4c149b61f326d90a20a86e04bd25b389.png)

34：回到So-VITS-SVC新版文件夹打开Adobe Audition，将“Adobe Audition 2022 SP”解压至当前文件夹，双击运行“Set-up”按照提示安装即可，这是将人声和背景音乐合成的软件

![](https://storage.googleapis.com/papyrus_images/90e492bf759d0c400f018bb783b48593c497517890d91fe7e68db1ea46a878dd.png)

注：如果你的系统版本过低可以替换为21版本的Audition声音编辑器，软件都在合集包内

35：Audition声音编辑器内点击左上角文件，选择“新建多轨会话”

![](https://storage.googleapis.com/papyrus_images/4a824431fad4e72f65b6ead92110a4563d341bdfb1a7b76d847ed3b2d7494c28.png)

36：将制作好的音频按以下顺序拖进Audition声音编辑器内

1：第一条音轨=AI推理后的最终人声

2：第二条音轨=歌曲原唱背景音乐（鼠标右键选择波纹删除-间隙，效果不错也可忽略）

![](https://storage.googleapis.com/papyrus_images/23546f27fb140ceac54fcff74195c078bd922248529b64f211a3cc02362ddc2b.png)

37：点击左上角文件-导出-导出多轨音频-整个会话，即可将其保存为本地音频

![](https://storage.googleapis.com/papyrus_images/e745850106f5369f909b36d397ff2e7da9df2a64912ec2cb75fe0910f9507c30.png)

结语：以上是本次教程全部内容，仅起到入门个人娱乐使用，如需更加精进则需要自行研习相关资料，再次提醒本教程仅用作个人娱乐使用，不承担任何责任，请勿将其用作违法途径使用

欢迎和「lamdaai」一起探索更多更有趣的AI应用，期待你的到来，最后让我们一起来听一曲经过10小时训练的AI音乐：

[

AI训练自己的声音唱歌
-----------

AI训练自己的声音唱歌重点声明：本教程仅用作个人娱乐使用，不承担任何责任，请勿将其用作违法途径使用重点声明：

https://mp.weixin.qq.com

![](https://storage.googleapis.com/papyrus_images/115ad2eeaccb91bd7497ce79ffd5ac450c8214e7fe611ef3076cfe38748ebb94.jpg)

](https://mp.weixin.qq.com/s/0VnGH8pVVpbYq-tPYxfRPw)

---

*Originally published on [Free DAO](https://paragraph.com/@z22222/ai-5)*
