Outil de traitement automatisé du langage réalisé dans le cadre du cours de Modélisation Mathématique, encadré par Mr Plouffe.
Réalisé exclusivement en bash, mais pourrait éventuellement se reposer sur des ressources externes :
- détection de l'encodage d'entrée, avec chardet (python)
- récupération des stopwords "mots vides", avec Lingua::StopWords (perl)
GitHub n'acceptant pas les fichiers lourds, pour trouver le thème d'un texte l'ajout manuel d'un fichier est nécessaire (data/champ_lexi/ve.txt) : disponible ici.