✨ 关于训练一个自己的TTS模型 #1842
Replies: 15 comments 27 replies
-
已经挺细了 可以直接去读一下shell代码 基本就知道流程了,因为我不懂shell也不怎么懂python 都能把流程走下来,所以我估计换一个人来走一遍流程也是轻而易举的。 |
Beta Was this translation helpful? Give feedback.
-
我和你的情况差不多,也不懂shell和python,只能按着你的流程试一下,再百度一下吧~~谢谢你啦
李子 ***@***.***> 于2022年5月9日周一 15:57写道:
… 已经挺细了 可以直接去读一下shell代码 基本就知道流程了,因为我不懂shell也不怎么懂python
都能把流程走下来,所以我估计换一个人来走一遍流程也是轻而易举的。
我估计我再写的细点,就要去牢里蹬缝纫机了
—
Reply to this email directly, view it on GitHub
<#1842 (comment)>,
or unsubscribe
<https://github.com/notifications/unsubscribe-auth/ASJVGUG5EILLTDS5XXLHE5LVJDAM3ANCNFSM5VEC5RZA>
.
You are receiving this because you commented.Message ID:
***@***.***
com>
|
Beta Was this translation helpful? Give feedback.
-
请问,你训练出来模型,数据集用了多少个音频 |
Beta Was this translation helpful? Give feedback.
-
你好,我这边有几个问题: 2.在数据预处理阶段: |
Beta Was this translation helpful? Give feedback.
-
注意,finetune 的时候,❗❗speaker_id_map 也需要用预训练模型提供的(要保证 speaker 数与预训练模型保持一致),假设你有 n 个新的 speaker, 需要把前 n 个 speaker 替换成自己的 speaker ,合成的时候通过 |
Beta Was this translation helpful? Give feedback.
-
根据这个 discussion,我们发布了小样本 finetune 示例, 欢迎试用 |
Beta Was this translation helpful? Give feedback.
-
核显炼丹莫名喜感 |
Beta Was this translation helpful? Give feedback.
-
mfa工具安装哪个版本啊? |
Beta Was this translation helpful? Give feedback.
-
您好,请问paddlespeech能实现自己通过数据集训练后,生成训练集以外的说话人的声音吗?类似于sv2tts? |
Beta Was this translation helpful? Give feedback.
-
您好,请问一下finetune大概要多久呢?声学模型和声码器 |
Beta Was this translation helpful? Give feedback.
-
额 看不明白 我是不是废了 |
Beta Was this translation helpful? Give feedback.
-
我看了好几遍代码,没有发现locla/fitune.py在哪里加载预训练模型参数。是在那就加载预训练模型的pdz文件的? |
Beta Was this translation helpful? Give feedback.
-
有一个坑
\udce4\udcb8\udc8b\udce8\udcbd\udcbd就是中文路径名…… |
Beta Was this translation helpful? Give feedback.
-
大佬,问一下,自己训练一定需要有GPU吗? |
Beta Was this translation helpful? Give feedback.
-
首先看一下效果 对paddlespeech的拙劣尝试 对paddlespeech的拙劣尝试2
我们需要走通 other/mfa和aishell3/tts3 两个流程
另外 windows 电脑也能搞这个 用 gitshell 就好了 有的地方要小改一下
收集数据
我的数据收集自网上,一种speaker大概需要600句话。获取到数据后用SpleeterGui进行背景音乐的分离,只取人声。
数据标注
我自己写了个小软件 啪的一下 很快啊 我们就标注完了,然后模仿 aishell3 的格式制作数据集,记得要排除所有非中文字符。
经过尝试和读代码我觉得照搬 aishell3 的 speaker 名的方式是最好的,改动少。然后我们用 pypinyin 制作标注文本,效果不怎么喜人,但是大概够用。记得抽出几句来填进test文件夹里。
获取mfa结果
other/mfa 流程走一下 流程里下载的是 linux 版本的二进制文件 如果你是windows的电脑记得改成下载windows版本的文件。
数据预处理
mfa结果有了之后去走 aishell3/tts3 的流程 要记住,先下载预训练好的那个 aishell3_fastspeech2 模型然后 ❗❗把脚本里的音素对照表指向这里的音素对照表,不要用你自己生成的那个。
训练
走流程 练一会 然后停下 进checkpoints文件夹,❗❗把预训练模型复制进来然后编辑那个 jsonl 文件。删的只剩一行然后把那一行里的 pdz 文件指向你刚复制进来的那个模型就可以接着训练了。
运行
你可以走 e2e 那个 step 然后指定好 speaker 如果不出意外的话,你就能听到你的训练结果了。
Beta Was this translation helpful? Give feedback.
All reactions