Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

关于训练数据和测试数据的长度 #8

Open
violet2020 opened this issue Dec 22, 2020 · 8 comments
Open

关于训练数据和测试数据的长度 #8

violet2020 opened this issue Dec 22, 2020 · 8 comments

Comments

@violet2020
Copy link

您好,感谢您优秀的工作!
在复现您的论文时,我们使用DNS数据集生成的30s语音进行训练和测试,但是最后的结果不是很理想,想请问一下论文中训练数据和测试数据的长度和格式是怎样的?谢谢!

@MaNatsu8023
Copy link
Collaborator

训练数据随机取4或6s的片段加噪都可以(没啥区别),测试数据原封不动。格式就是直接读原始的wav,数据的格式没有影响。

@violet2020
Copy link
Author

谢谢您的回答, 还想请问一下您在测试的时候是直接一长段语音(如30s)作为输入, 还是将长段语音分隔为一小段一小段的语音进行输入再拼接呢?

@violet2020
Copy link
Author

我们希望能达到实时去噪的效果, 因此在测试时将长语音切成小段语音进行测试, 最后拼接得到的长语音会出现明显的声音卡顿, 请问您知道这是什么原因吗?

@MaNatsu8023
Copy link
Collaborator

切成一小段4s一段,举个例子:第一段0-4s,第二段3-7s,你把中间重叠的部分(3-4s)加起来除以2.这样你两段就得到7s的语音,连接处的1s平均一下就好。DNS的测试集比较短,建议直接测指标。

@violet2020
Copy link
Author

非常感谢! 那么如果是4s一段的话, 处理完就在4s之后了, 达不到实时的效果, 请问怎样能达到实时的效果呢?

@KAWAKO-in-GAYHUB
Copy link

我尝试在训练时每次放入15s音频进行训练,在测试时将音频分为37.5ms一帧进行处理(stft补零时在左侧补前一帧的数据、在右侧补0,istft后左右两侧都删掉对应长度的音频),然后将处理后的音频进行拼接,但是出来的效果并不太好。。。

@VoiceMagician
Copy link

VoiceMagician commented Jan 20, 2022

你好, 我看到大部分CRN类型网络的输入都是4s的, 要满足实时的话 (比如每次输入37.5ms), 是不是说明只有最后37.5ms的数据是最新的, 然后前面的数据都是之前帧的呢? 表示如下方表示
|------------------.....----------------|-------------|
|<--------------3962.5ms--------->|<-37.5ms->|
|<---------------之前帧----------->|<-当前帧->|
然后每次将4s的数据进行STFT输入模型处理
如果可以看到并解答的话就非常感谢啦 @MaNatsu8023

@Blakey-Gavin
Copy link

我们希望能达到实时去噪的效果, 因此在测试时将长语音切成小段语音进行测试, 最后拼接得到的长语音会出现明显的声音卡顿, 请问您知道这是什么原因吗?

您好,请问您实时降噪的效果实现了吗?

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

5 participants