Name		Name	Last commit message	Last commit date
parent directory ..
README.md		README.md
__init__.py		__init__.py
prepare_lm.py		prepare_lm.py

README.md

Language Modeling Benchmark

Prepare the language modeling benchmarking datasets. In order to help reproduce the papers, we use the tokenized corpus as the training/validation/testing dataset.

# WikiText-2
nlp_data prepare_lm --dataset wikitext2

# WikiText-103
nlp_data prepare_lm --dataset wikitext103

# enwik8
nlp_data prepare_lm --dataset enwik8

# Text-8
nlp_data prepare_lm --dataset text8

# Google One-Billion-Word
nlp_data prepare_lm --dataset gbw

Happy language modeling :)

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

language_modeling

language_modeling

README.md

Language Modeling Benchmark

Files

language_modeling

Directory actions

More options

Directory actions

More options

Latest commit

History

language_modeling

Folders and files

parent directory

README.md

Language Modeling Benchmark