`lumi_language_id`

Utilities for reliable-enough language detection.

This package wraps fastText's "lid.176" language-detection model with another classifier, which is trained to produce better probability estimates. It also applies text cleaning, so that the text it detects is unaffected by punctuation, digits, or emoji.

Example:

>>> from lumi_language_id.tuned import TunedLanguageIdentifier
>>> lid = TunedLanguageIdentifier.load()
>>> lang, _prob = lid.detect_language("these are words")
>>> lang
'en'

>>> lang, _prob = lid.detect_language("aquí hay algunas palabras")
>>> lang
'es'

Name		Name	Last commit message	Last commit date
Latest commit History 30 Commits
lumi_language_id		lumi_language_id
.gitignore		.gitignore
LICENSE.txt		LICENSE.txt
README.md		README.md
setup.py		setup.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

`lumi_language_id`

About

Releases

Packages

Languages

License

LuminosoInsight/lumi_language_id

Folders and files

Latest commit

History

Repository files navigation

lumi_language_id

About

Resources

License

Stars

Watchers

Forks

Releases

Packages 0

Languages

`lumi_language_id`

Packages