Skip to content

Attempting to build a custom pipeline using 100k hours of Russian speech data, leveraging Wav2Vec2 and speechbrain/spkrec-ecapa-voxceleb for embedding extraction. This will involve employing a combination of non-standard clustering approaches.

License

Notifications You must be signed in to change notification settings

progressionnetwork/Wav2Vec2-ru-Diarization

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

5 Commits
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Wav2Vec2-ru-Diarization

Attempting to build a custom pipeline using 100k hours of Russian speech data, leveraging Wav2Vec2 and speechbrain/spkrec-ecapa-voxceleb for embedding extraction. This will involve employing a combination of non-standard clustering approaches.

It outperforms PyAnnote in clustering and diarization on short recordings up to 2 minutes long.

WEBVTT

00:00:08,927 --> 00:00:14,529
[SPEAKER_6]: Пап, а что если меня выберут в Слизерин?

00:00:14,609 --> 00:00:19,230
[SPEAKER_6]: Альбус Северус Потт.

00:00:19,270 --> 00:00:24,892
[SPEAKER_3]: Тебя назвали в честь двух директоров Хогвартса.

00:00:25,052 --> 00:00:29,454
[SPEAKER_3]: Один выпускник Слизерина, и это был храбрейший человек, которого я знал.

00:00:29,494 --> 00:00:36,696
[SPEAKER_3]: Тот, чье имя я назову, выйдет вперед, и я надену ему на голову распределяющую шляпу.

00:00:36,756 --> 00:00:38,337
[SPEAKER_3]: И она определит вас на факультет.

00:00:40,717 --> 00:00:43,960
[SPEAKER_3]: Папа, ну а вдруг я тоже?

00:00:44,020 --> 00:00:46,202
[SPEAKER_3]: Слизари!

00:00:46,262 --> 00:00:51,506
[SPEAKER_2]: Тогда факультету Слизари достанется удивительной юной волшебной.

00:00:51,586 --> 00:00:56,410
[SPEAKER_2]: Гарри, Альбус пропал.

00:00:56,470 --> 00:00:58,952
[SPEAKER_2]: Я должен найти своего сына.

00:00:59,012 --> 00:01:00,754
[SPEAKER_2]: Мы должны сделать это вместе.

00:01:00,814 --> 00:01:02,936
[SPEAKER_2]: Я всегда восхищалась твоим мужеством.

00:01:03,016 --> 00:01:04,637
[SPEAKER_2]: Но иногда ты такой дурак.

00:01:04,677 --> 00:01:06,098
[SPEAKER_2]: [Мы нужны тебе, Гарри.

00:01:06,839 --> 00:01:06,919
[SPEAKER_2]: Да?

00:01:06,979 --> 00:01:07,800
[SPEAKER_2]: И как мы послухаем?

00:01:09,667 --> 00:01:13,949
[SPEAKER_2]: Мы используем маховик времени, чтобы спасти Седрика Дигаря.

00:01:13,989 --> 00:01:20,691
[SPEAKER_1]: Наше приключение только начинается.

00:01:20,811 --> 00:01:32,635
[SPEAKER_1]: Любое, даже самое малейшее изменение, влечет за собой последствия.

00:01:32,775 --> 00:01:36,276
[SPEAKER_1]: Гарри, Альбус в опасности.

00:01:36,397 --> 00:01:37,497
[SPEAKER_0]: Думаю, мы все в опасности.

00:01:48,513 --> 00:02:01,007
[SPEAKER_0]: Даже если на это уйдут роды, мы должны найти наших детей.

00:02:01,047 --> 00:02:09,497
[SPEAKER_5]: Воскобань, один из пожирателей смерти, рассказал, что Волан-де-Морт оставил ментя.

00:02:13,833 --> 00:02:14,434
[SPEAKER_5]: Кто здесь?

00:02:14,474 --> 00:02:14,835
[SPEAKER_5]: Гарри?

@uberwow

About

Attempting to build a custom pipeline using 100k hours of Russian speech data, leveraging Wav2Vec2 and speechbrain/spkrec-ecapa-voxceleb for embedding extraction. This will involve employing a combination of non-standard clustering approaches.

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Languages