-
Notifications
You must be signed in to change notification settings - Fork 3.6k
对照实验·实验记录
RVC-Boss edited this page Jul 26, 2023
·
3 revisions
一、对照实验数据集
训练集(target speaker)约8min。
采样试听(用于展示音色和训练集质量)来自 米津玄師《ピースサイン》
trainset_sample_audio.mp4
测试音频:夏真浔 翻唱 《冬之花》 第一段
input_audio_fuyu-no-hana_clip1.mp4
before-baseline-version(史前版本)混音结果完整版(《冬の花》coverd by AI米津玄師):
https://www.bilibili.com/video/BV1Kb411d7zC
二、faiss索引对照(updated20230428)
结论:
1、nprobe增大对效果影响不大,因此更新后从7降至1,检索速度7倍;
2、fastscan(PQ128)质量有损(注意 wa ta shi no i no "ch"i),暂时不采纳;
3、top8进行加权混合代替top1:显著削弱高频刺耳的现象,提升了音频质量,采纳。
baseline-nprobe1.mp4
baseline-nprobe7.mp4
fastscan.pq128rflat.-nprobe7.mp4
top8weighted_mix-nprobe1.mp4
三、backbone结构对照(底模+小训练集fine tune)
version:hubert_base(ContentVec)+add 3 period discriminators
harvest+邻域3的中值滤波+index_rate=1
hubert_base结构下,中间hidden size为768,结尾linear至256
C768:不使用final_proj
C256:使用final_proj
L9/L12:hubert的特征层数
baseline(当前版本):C256L9
结论:C768L12默秒全(呼吸+辅音齿音电流声)。
audio_c768l12.mp4
audio_c256l9.mp4
audio_c256l12.mp4
audio_c768l9.mp4
四、RVC_v3偷跑
大就是好!