Cours “Réseaux de neurones pour la reconnaissance de l’oral et application linguistiques”
Ici vous pouvez trouver le modèle qui prédit une langue (français, russe, arabe ou hindi) à partir d'un audio (mp3 ou wav). Il y a également un dataset de Mozilla CommonVoice convérti en spectrogrammes. Dans le fichier ipynb vous pouvez trouver un script du prétraitement, de l'apprentissage et des résultats ainsi qu'une code qui permet d'essayer le modèle par vous-mêmes (Section Post Scriptum).
Le modèle utilisé est un CNN qui a l'architecture ci-dessous.
Voici du statistique qui permet d'estimer le modèle.
Liens vers un notebook et un github avec des experiences differentes:
- la version principale ======= Lien vers un notebook et un github avec des expériences diverses :
- google colab d'expérience avec un CNN (+ utilisation de train-split et shuffling de toutes les données)
- Lien github vers un notebook avec les tests d'autres architectures
- lien vers le github avec les scripts