Add support for Numba FP16 RNNT Loss (NVIDIA#6991) (NVIDIA#7038)

titu1994 · zhehuaichen · commit 91833b8fbe9a · 2023-10-04T06:56:42.000-07:00
* Force working space memory to always be in fp32

Signed-off-by: smajumdar &lt;titu1994@gmail.com&gt;

* Add support for fp16 testing in Numba

Signed-off-by: smajumdar &lt;titu1994@gmail.com&gt;

* Add support for fp16 testing in Numba

Signed-off-by: smajumdar &lt;titu1994@gmail.com&gt;

* Add support for fp16 testing in Numba

Signed-off-by: smajumdar &lt;titu1994@gmail.com&gt;

* Fix cost calculation by upcasting to fp32

Signed-off-by: smajumdar &lt;titu1994@gmail.com&gt;

* Fix cost calculation by upcasting to fp32

Signed-off-by: smajumdar &lt;titu1994@gmail.com&gt;

* Add support to check if numba fp16 is available

Signed-off-by: smajumdar &lt;titu1994@gmail.com&gt;

* add RNN-T loss implemented by PyTorch and test code (#5312)

* Fix the bugs in cache-aware streaming Conformer (#5032)

Signed-off-by: Vahid &lt;vnoroozi@nvidia.com&gt;
Signed-off-by: Hainan Xu &lt;hainanx@nvidia.com&gt;

* IA3 support for GPT and T5 (#4909)

* init commit for ia3 adater training in GPT

Signed-off-by: arendu &lt;adithya.r@gmail.com&gt;

* ia3 adater training in GPT, models and adapter classes

Signed-off-by: arendu &lt;adithya.r@gmail.com&gt;

* reshape to operate even on non-contiguous tensors

Signed-off-by: arendu &lt;adithya.r@gmail.com&gt;

* configs

Signed-off-by: arendu &lt;adithya.r@gmail.com&gt;

* fixed none init

Signed-off-by: arendu &lt;adithya.r@gmail.com&gt;

* adding adapter and ia3 support for T5 based models

Signed-off-by: arendu &lt;adithya.r@gmail.com&gt;

* style fix

Signed-off-by: arendu &lt;adithya.r@gmail.com&gt;

* config update and t5 model adapter and ia3

Signed-off-by: arendu &lt;adithya.r@gmail.com&gt;

* removed unused imports

Signed-off-by: arendu &lt;adithya.r@gmail.com&gt;

* predict step for inference

Signed-off-by: arendu &lt;adithya.r@gmail.com&gt;

* style fix

Signed-off-by: arendu &lt;adithya.r@gmail.com&gt;

* style fix

Signed-off-by: arendu &lt;adithya.r@gmail.com&gt;

* adapter inference for t5

Signed-off-by: arendu &lt;adithya.r@gmail.com&gt;

* style fix

Signed-off-by: arendu &lt;adithya.r@gmail.com&gt;

* fixed bug micro and global batch size in eval

Signed-off-by: arendu &lt;adithya.r@gmail.com&gt;

* minor edit

Signed-off-by: arendu &lt;adithya.r@gmail.com&gt;

* agressive truncation if in test examples if no truncation field is given

Signed-off-by: arendu &lt;adithya.r@gmail.com&gt;

* corrected for language_model_path name changes in main

Signed-off-by: arendu &lt;adithya.r@gmail.com&gt;

* removed unused import

Signed-off-by: arendu &lt;adithya.r@gmail.com&gt;

* name change for language_model_path

Signed-off-by: arendu &lt;adithya.r@gmail.com&gt;

* include inter_attention to IA3

Signed-off-by: arendu &lt;adithya.r@gmail.com&gt;

* minor fix in confg

Signed-off-by: arendu &lt;adithya.r@gmail.com&gt;

* minor fixes

Signed-off-by: arendu &lt;adithya.r@gmail.com&gt;

* removed unused flag

Signed-off-by: arendu &lt;adithya.r@gmail.com&gt;

* addressing PR comments

Signed-off-by: arendu &lt;adithya.r@gmail.com&gt;

* address PR comments

Signed-off-by: arendu &lt;adithya.r@gmail.com&gt;

* minor fix

Signed-off-by: arendu &lt;adithya.r@gmail.com&gt;

* [pre-commit.ci] auto fixes from pre-commit.com hooks

for more information, see https://pre-commit.ci

* style fix

Signed-off-by: arendu &lt;adithya.r@gmail.com&gt;

* CI test

Signed-off-by: arendu &lt;adithya.r@gmail.com&gt;

* minor fix in jenkinsfile

Signed-off-by: arendu &lt;adithya.r@gmail.com&gt;

Signed-off-by: arendu &lt;adithya.r@gmail.com&gt;
Co-authored-by: pre-commit-ci[bot] &lt;66853113+pre-commit-ci[bot]@users.noreply.github.com&gt;
Signed-off-by: Hainan Xu &lt;hainanx@nvidia.com&gt;

* Bug fix - Limit val batches set to 1.0  (#5023)

* Bug fix

Signed-off-by: shanmugamr1992 &lt;shanmugamr1992@gmail.com&gt;

* [pre-commit.ci] auto fixes from pre-commit.com hooks

for more information, see https://pre-commit.ci

* Adressed sandeep's comments

* Fixing limit val batches support in bert

* [pre-commit.ci] auto fixes from pre-commit.com hooks

for more information, see https://pre-commit.ci

* Fixing limit val batches support in bert

* [pre-commit.ci] auto fixes from pre-commit.com hooks

for more information, see https://pre-commit.ci

Signed-off-by: shanmugamr1992 &lt;shanmugamr1992@gmail.com&gt;
Co-authored-by: pre-commit-ci[bot] &lt;66853113+pre-commit-ci[bot]@users.noreply.github.com&gt;
Co-authored-by: Sandeep Subramanian &lt;sandeep.subramanian.1@umontreal.ca&gt;
Signed-off-by: Hainan Xu &lt;hainanx@nvidia.com&gt;

* [bug_fix] kv_channels is used when available (#5066)

* fix bug s.t kv_channels is used when available

Signed-off-by: arendu &lt;adithya.r@gmail.com&gt;

* [pre-commit.ci] auto fixes from pre-commit.com hooks

for more information, see https://pre-commit.ci

Signed-off-by: arendu &lt;adithya.r@gmail.com&gt;
Co-authored-by: pre-commit-ci[bot] &lt;66853113+pre-commit-ci[bot]@users.noreply.github.com&gt;
Signed-off-by: Hainan Xu &lt;hainanx@nvidia.com&gt;

* P&amp;C Docs (#5068) (#5069)

Signed-off-by: Matvei Novikov &lt;mattyson.so@gmail.com&gt;

Signed-off-by: Matvei Novikov &lt;mattyson.so@gmail.com&gt;

Signed-off-by: Matvei Novikov &lt;mattyson.so@gmail.com&gt;
Co-authored-by: Matvei Novikov &lt;mattyson.so@gmail.com&gt;
Signed-off-by: Hainan Xu &lt;hainanx@nvidia.com&gt;

* Add spe_split_by_unicode_script arg (#5072)

* Add spe_split_by_unicode_script arg

Signed-off-by: Anas &lt;aabouallaban@pm.me&gt;

* [pre-commit.ci] auto fixes from pre-commit.com hooks

for more information, see https://pre-commit.ci

Signed-off-by: Anas &lt;aabouallaban@pm.me&gt;
Co-authored-by: pre-commit-ci[bot] &lt;66853113+pre-commit-ci[bot]@users.noreply.github.com&gt;
Signed-off-by: Hainan Xu &lt;hainanx@nvidia.com&gt;

* probabilites -&gt; probabilities (#5078) (#5079)

Signed-off-by: nithinraok &lt;nithinrao.koluguri@gmail.com&gt;

Signed-off-by: nithinraok &lt;nithinrao.koluguri@gmail.com&gt;

Signed-off-by: nithinraok &lt;nithinrao.koluguri@gmail.com&gt;
Co-authored-by: Nithin Rao &lt;nithinrao.koluguri@gmail.com&gt;
Signed-off-by: Hainan Xu &lt;hainanx@nvidia.com&gt;

* increase PR and Issue sweep quantity and active close PRs. (#5073)

* increase PR and Issue sweep quantity and active close PRs.

Signed-off-by: Xuesong Yang &lt;1646669+XuesongYang@users.noreply.github.com&gt;

* update with stricter rules, 30 days to be stale and 7 days to be closed for both Issues and PRs.

Signed-off-by: Xuesong Yang &lt;1646669+XuesongYang@users.noreply.github.com&gt;

Signed-off-by: Xuesong Yang &lt;1646669+XuesongYang@users.noreply.github.com&gt;
Signed-off-by: Hainan Xu &lt;hainanx@nvidia.com&gt;

* [TTS] added missing German phoneme tokenizer. (#5070) (#5074)

Signed-off-by: Xuesong Yang &lt;1646669+XuesongYang@users.noreply.github.com&gt;
Signed-off-by: Hainan Xu &lt;hainanx@nvidia.com&gt;

* rename to match prompt leanring (#5076)

Signed-off-by: arendu &lt;adithya.r@gmail.com&gt;

Signed-off-by: arendu &lt;adithya.r@gmail.com&gt;
Signed-off-by: Hainan Xu &lt;hainanx@nvidia.com&gt;

* Missing fixes from r1.11.0 to T5 finetuning eval (#5054) (#5061)

* Fixes to seq2seq eval

Signed-off-by: MaximumEntropy &lt;sandeep.subramanian.1@umontreal.ca&gt;

* Style

Signed-off-by: MaximumEntropy &lt;sandeep.subramanian.1@umontreal.ca&gt;

* [pre-commit.ci] auto fixes from pre-commit.com hooks

for more information, see https://pre-commit.ci

Signed-off-by: MaximumEntropy &lt;sandeep.subramanian.1@umontreal.ca&gt;
Co-authored-by: pre-commit-ci[bot] &lt;66853113+pre-commit-ci[bot]@users.noreply.github.com&gt;

Signed-off-by: MaximumEntropy &lt;sandeep.subramanian.1@umontreal.ca&gt;
Co-authored-by: Sandeep Subramanian &lt;sandeep.subramanian.1@umontreal.ca&gt;
Co-authored-by: pre-commit-ci[bot] &lt;66853113+pre-commit-ci[bot]@users.noreply.github.com&gt;
Signed-off-by: Hainan Xu &lt;hainanx@nvidia.com&gt;

* Notebook bug fixes (#5084) (#5085)

* Notebook bug fixes

Signed-off-by: Virginia Adams &lt;vadams@nvidia.com&gt;

* Turned nemo install back on

Signed-off-by: Virginia Adams &lt;vadams@nvidia.com&gt;

* reverted notebook

Signed-off-by: Virginia Adams &lt;vadams@nvidia.com&gt;

* Updated one line in entity linking nb

Signed-off-by: Virginia Adams &lt;vadams@nvidia.com&gt;

Signed-off-by: Virginia Adams &lt;vadams@nvidia.com&gt;
Co-authored-by: Eric Harper &lt;complex451@gmail.com&gt;

Signed-off-by: Virginia Adams &lt;vadams@nvidia.com&gt;
Co-authored-by: Virginia Adams &lt;78445382+vadam5@users.noreply.github.com&gt;
Co-authored-by: Eric Harper &lt;complex451@gmail.com&gt;
Signed-off-by: Hainan Xu &lt;hainanx@nvidia.com&gt;

* update strategy in notebook from ddp_fork to dp (#5088) (#5089)

Co-authored-by: Zhilin Wang &lt;wangzhilin12061996@hotmail.com&gt;
Signed-off-by: Hainan Xu &lt;hainanx@nvidia.com&gt;

* Fix bug in Squeezeformer Conv block (#5011) (#5024)

* Fix bug in Squeezeformer Conv block

Signed-off-by: smajumdar &lt;smajumdar@nvidia.com&gt;

* Fix kernel context

Signed-off-by: smajumdar &lt;smajumdar@nvidia.com&gt;

* Fix access mixin

Signed-off-by: smajumdar &lt;smajumdar@nvidia.com&gt;

Signed-off-by: smajumdar &lt;smajumdar@nvidia.com&gt;

Signed-off-by: smajumdar &lt;smajumdar@nvidia.com&gt;
Co-authored-by: Somshubra Majumdar &lt;titu1994@gmail.com&gt;
Signed-off-by: Hainan Xu &lt;hainanx@nvidia.com&gt;

* fixed megatron lm conversion bug (PTL related) (#5038) (#5063)

Signed-off-by: David Mosallanezhad &lt;dmosallanezh@nvidia.com&gt;

Signed-off-by: David Mosallanezhad &lt;dmosallanezh@nvidia.com&gt;
Co-authored-by: David Mosallanezhad &lt;dmosallanezh@nvidia.com&gt;

Signed-off-by: David Mosallanezhad &lt;dmosallanezh@nvidia.com&gt;
Co-authored-by: David &lt;amosalla@asu.edu&gt;
Co-authored-by: David Mosallanezhad &lt;dmosallanezh@nvidia.com&gt;
Co-authored-by: Eric Harper &lt;complex451@gmail.com&gt;
Signed-off-by: Hainan Xu &lt;hainanx@nvidia.com&gt;

* Fix Unhashable type list for Numba Cuda spec augment kernel (#5093) (#5094)

Signed-off-by: smajumdar &lt;smajumdar@nvidia.com&gt;

Signed-off-by: smajumdar &lt;smajumdar@nvidia.com&gt;

Signed-off-by: smajumdar &lt;smajumdar@nvidia.com&gt;
Co-authored-by: Somshubra Majumdar &lt;titu1994@gmail.com&gt;
Signed-off-by: Hainan Xu &lt;hainanx@nvidia.com&gt;

* Fix numba (#5098)

Signed-off-by: smajumdar &lt;titu1994@gmail.com&gt;

Signed-off-by: smajumdar &lt;titu1994@gmail.com&gt;
Signed-off-by: Hainan Xu &lt;hainanx@nvidia.com&gt;

* Make it possible to specify output_filename in normalize_with_audio.py (#5092)

Signed-off-by: Elena Rastorgueva &lt;erastorgueva@nvidia.com&gt;

Signed-off-by: Elena Rastorgueva &lt;erastorgueva@nvidia.com&gt;
Signed-off-by: Hainan Xu &lt;hainanx@nvidia.com&gt;

* Greedy decoding confidence for CTC and RNNT (#4931)

* rnnt confidence draft

Signed-off-by: Aleksandr Laptev &lt;alaptev@nvidia.com&gt;

* word confidence

Signed-off-by: Aleksandr Laptev &lt;alaptev@nvidia.com&gt;

* advanced entropies added

Signed-off-by: Aleksandr Laptev &lt;alaptev@nvidia.com&gt;

* refactoring

Signed-off-by: Aleksandr Laptev &lt;alaptev@nvidia.com&gt;

* oops forgot a file

Signed-off-by: Aleksandr Laptev &lt;alaptev@nvidia.com&gt;

* metrics and benchmarking script added

Signed-off-by: Aleksandr Laptev &lt;alaptev@nvidia.com&gt;

* style fix

Signed-off-by: Aleksandr Laptev &lt;alaptev@nvidia.com&gt;

* texterrors installation added

Signed-off-by: Aleksandr Laptev &lt;alaptev@nvidia.com&gt;

* lgtm and bug fix

Signed-off-by: Aleksandr Laptev &lt;alaptev@nvidia.com&gt;

* fix comments

Signed-off-by: Aleksandr Laptev &lt;alaptev@nvidia.com&gt;

* fix typos

Signed-off-by: Aleksandr Laptev &lt;alaptev@nvidia.com&gt;

* add missing import after rebase

Signed-off-by: Aleksandr Laptev &lt;alaptev@nvidia.com&gt;

Signed-off-by: Aleksandr Laptev &lt;alaptev@nvidia.com&gt;
Co-authored-by: Aleksandr Laptev &lt;alaptev@nvidia.com&gt;
Signed-off-by: Hainan Xu &lt;hainanx@nvidia.com&gt;

* [Add] SLURP models and examples (#4668)

* add model, util and loss

Signed-off-by: stevehuang52 &lt;heh@nvidia.com&gt;

* update

Signed-off-by: stevehuang52 &lt;heh@nvidia.com&gt;

* update

Signed-off-by: stevehuang52 &lt;heh@nvidia.com&gt;

* update

Signed-off-by: stevehuang52 &lt;heh@nvidia.com&gt;

* update

Signed-off-by: stevehuang52 &lt;heh@nvidia.com&gt;

* update

Signed-off-by: stevehuang52 &lt;heh@nvidia.com&gt;

* update

Signed-off-by: stevehuang52 &lt;heh@nvidia.com&gt;

* update

Signed-off-by: stevehuang52 &lt;heh@nvidia.com&gt;

* update

Signed-off-by: stevehuang52 &lt;heh@nvidia.com&gt;

* update

Signed-off-by: stevehuang52 &lt;heh@nvidia.com&gt;

* refactor

Signed-off-by: stevehuang52 &lt;heh@nvidia.com&gt;

* refactor annd update

Signed-off-by: stevehuang52 &lt;heh@nvidia.com&gt;

* update

Signed-off-by: stevehuang52 &lt;heh@nvidia.com&gt;

* update and refactor

Signed-off-by: stevehuang52 &lt;heh@nvidia.com&gt;

* update and refactor

Signed-off-by: stevehuang52 &lt;heh@nvidia.com&gt;

* update and refactor

Signed-off-by: stevehuang52 &lt;heh@nvidia.com&gt;

* update

Signed-off-by: stevehuang52 &lt;heh@nvidia.com&gt;

* update

Signed-off-by: stevehuang52 &lt;heh@nvidia.com&gt;

* update

Signed-off-by: stevehuang52 &lt;heh@nvidia.com&gt;

* update

Signed-off-by: stevehuang52 &lt;heh@nvidia.com&gt;

* update

Signed-off-by: stevehuang52 &lt;heh@nvidia.com&gt;

* update

Signed-off-by: stevehuang52 &lt;heh@nvidia.com&gt;

* update

Signed-off-by: stevehuang52 &lt;heh@nvidia.com&gt;

* update docs

Signed-off-by: stevehuang52 &lt;heh@nvidia.com&gt;

* update available models

Signed-off-by: stevehuang52 &lt;heh@nvidia.com&gt;

* update

Signed-off-by: stevehuang52 &lt;heh@nvidia.com&gt;

* refactor data processing

Signed-off-by: stevehuang52 &lt;heh@nvidia.com&gt;

* fix typo

Signed-off-by: stevehuang52 &lt;heh@nvidia.com&gt;

* update docs

Signed-off-by: stevehuang52 &lt;heh@nvidia.com&gt;

* refactor and update

Signed-off-by: stevehuang52 &lt;heh@nvidia.com&gt;

* update doc

Signed-off-by: stevehuang52 &lt;heh@nvidia.com&gt;

* move transformer to asr.modules

Signed-off-by: stevehuang52 &lt;heh@nvidia.com&gt;

* move transformer to asr.modules

Signed-off-by: stevehuang52 &lt;heh@nvidia.com&gt;

* get rid of jsonlines

Signed-off-by: stevehuang52 &lt;heh@nvidia.com&gt;

* refactor

Signed-off-by: stevehuang52 &lt;heh@nvidia.com&gt;

* revert changes to nlp

Signed-off-by: stevehuang52 &lt;heh@nvidia.com&gt;

Signed-off-by: stevehuang52 &lt;heh@nvidia.com&gt;
Signed-off-by: He Huang (Steve) &lt;105218074+stevehuang52@users.noreply.github.com&gt;
Co-authored-by: Jagadeesh Balam &lt;4916480+jbalam-nv@users.noreply.github.com&gt;
Signed-off-by: Hainan Xu &lt;hainanx@nvidia.com&gt;

* only optimize params that are part of the adapter modules (#5086)

Signed-off-by: arendu &lt;adithya.r@gmail.com&gt;

Signed-off-by: arendu &lt;adithya.r@gmail.com&gt;
Co-authored-by: Virginia Adams &lt;78445382+vadam5@users.noreply.github.com&gt;
Signed-off-by: Hainan Xu &lt;hainanx@nvidia.com&gt;

* Pipeline Parallel T5 Prompt Learning (#4956)

* Added pre process flag checks and pipeline parallel in fwd

Signed-off-by: Virginia Adams &lt;vadams@nvidia.com&gt;

* Added rank check for pipeline parallel

Signed-off-by: Virginia Adams &lt;vadams@nvidia.com&gt;

* [pre-commit.ci] auto fixes from pre-commit.com hooks

for more information, see https://pre-commit.ci

* T5 prompt learning works!

Signed-off-by: Virginia Adams &lt;vadams@nvidia.com&gt;

* IA3 passing CI

Signed-off-by: Virginia Adams &lt;vadams@nvidia.com&gt;

* Fixed typo

Signed-off-by: Virginia Adams &lt;vadams@nvidia.com&gt;

* removed optimizer setup so Adi's change will not conflict

Signed-off-by: Virginia Adams &lt;vadams@nvidia.com&gt;

Signed-off-by: Virginia Adams &lt;vadams@nvidia.com&gt;
Signed-off-by: Adi Renduchintala &lt;108822655+arendu@users.noreply.github.com&gt;
Co-authored-by: Adi Renduchintala &lt;108822655+arendu@users.noreply.github.com&gt;
Co-authored-by: pre-commit-ci[bot] &lt;66853113+pre-commit-ci[bot]@users.noreply.github.com&gt;
Signed-off-by: Hainan Xu &lt;hainanx@nvidia.com&gt;

* [TTS] remove phonemizer.py (#5090)

remove phonemizer.py and convert code block to markdown in the tutorial.

Signed-off-by: Xuesong Yang &lt;1646669+XuesongYang@users.noreply.github.com&gt;
Signed-off-by: Hainan Xu &lt;hainanx@nvidia.com&gt;

* T5 Decoding with PP &gt; 2 fix (#5091) (#5103)

* set sequence lenghts in the pipeline properly

Signed-off-by: MaximumEntropy &lt;sandeep.subramanian.1@umontreal.ca&gt;

* Fix

Signed-off-by: MaximumEntropy &lt;sandeep.subramanian.1@umontreal.ca&gt;

Signed-off-by: MaximumEntropy &lt;sandeep.subramanian.1@umontreal.ca&gt;

Signed-off-by: MaximumEntropy &lt;sandeep.subramanian.1@umontreal.ca&gt;
Co-authored-by: Sandeep Subramanian &lt;sandeep.subramanian.1@umontreal.ca&gt;
Signed-off-by: Hainan Xu &lt;hainanx@nvidia.com&gt;

* [TTS] fixed wrong val loss for epoch 0 and inconsistent metrics names (#5087) (#5102)

* fixed hifigan configs as well
* [pre-commit.ci] auto fixes from pre-commit.com hooks

for more information, see https://pre-commit.ci

Signed-off-by: Xuesong Yang &lt;1646669+XuesongYang@users.noreply.github.com&gt;
Co-authored-by: pre-commit-ci[bot] &lt;66853113+pre-commit-ci[bot]@users.noreply.github.com&gt;
Signed-off-by: Hainan Xu &lt;hainanx@nvidia.com&gt;

* Fix and refactor consumed samples save/restore for Megatron models. (#5077)

* Fixes and refactor

Signed-off-by: MaximumEntropy &lt;sandeep.subramanian.1@umontreal.ca&gt;

* Fix

Signed-off-by: MaximumEntropy &lt;sandeep.subramanian.1@umontreal.ca&gt;

* Remove unused imports

Signed-off-by: MaximumEntropy &lt;sandeep.subramanian.1@umontreal.ca&gt;

* Empty

Signed-off-by: MaximumEntropy &lt;sandeep.subramanian.1@umontreal.ca&gt;

* Fix

Signed-off-by: MaximumEntropy &lt;sandeep.subramanian.1@umontreal.ca&gt;

Signed-off-by: MaximumEntropy &lt;sandeep.subramanian.1@umontreal.ca&gt;
Signed-off-by: Hainan Xu &lt;hainanx@nvidia.com&gt;

* RIR corpus generator tool (#4927)

Signed-off-by: Ante Jukić &lt;ajukic@nvidia.com&gt;

Signed-off-by: Ante Jukić &lt;ajukic@nvidia.com&gt;
Signed-off-by: Hainan Xu &lt;hainanx@nvidia.com&gt;

* Multiprocessing fix (#5106) (#5107)

Signed-off-by: Matvei Novikov &lt;mattyson.so@gmail.com&gt;

Signed-off-by: Matvei Novikov &lt;mattyson.so@gmail.com&gt;

Signed-off-by: Matvei Novikov &lt;mattyson.so@gmail.com&gt;
Co-authored-by: Matvei Novikov &lt;mattyson.so@gmail.com&gt;
Signed-off-by: Hainan Xu &lt;hainanx@nvidia.com&gt;

* [Bug fix] PC lexical + audio (#5109) (#5110)

* training running

Signed-off-by: ekmb &lt;ebakhturina@nvidia.com&gt;

* revert

Signed-off-by: ekmb &lt;ebakhturina@nvidia.com&gt;

* revert

Signed-off-by: ekmb &lt;ebakhturina@nvidia.com&gt;

Signed-off-by: ekmb &lt;ebakhturina@nvidia.com&gt;

Signed-off-by: ekmb &lt;ebakhturina@nvidia.com&gt;
Co-authored-by: Evelina &lt;10428420+ekmb@users.noreply.github.com&gt;
Signed-off-by: Hainan Xu &lt;hainanx@nvidia.com&gt;

* [Fix] schedulers with no max_steps param (#4564)

* fix schedulers

Signed-off-by: stevehuang52 &lt;heh@nvidia.com&gt;

* update to use python inspect module

Signed-off-by: stevehuang52 &lt;heh@nvidia.com&gt;

* update

Signed-off-by: stevehuang52 &lt;heh@nvidia.com&gt;

Signed-off-by: stevehuang52 &lt;heh@nvidia.com&gt;
Signed-off-by: Hainan Xu &lt;hainanx@nvidia.com&gt;

* T5 prompt learning fixes missing from r.11.0 merge (#5075) (#5101)

* Fix special tokens

Signed-off-by: MaximumEntropy &lt;sandeep.subramanian.1@umontreal.ca&gt;

* Fix

Signed-off-by: MaximumEntropy &lt;sandeep.subramanian.1@umontreal.ca&gt;

* Empty

Signed-off-by: MaximumEntropy &lt;sandeep.subramanian.1@umontreal.ca&gt;

Signed-off-by: MaximumEntropy &lt;sandeep.subramanian.1@umontreal.ca&gt;
Co-authored-by: David &lt;amosalla@asu.edu&gt;

Signed-off-by: MaximumEntropy &lt;sandeep.subramanian.1@umontreal.ca&gt;
Co-authored-by: Sandeep Subramanian &lt;sandeep.subramanian.1@umontreal.ca&gt;
Co-authored-by: David &lt;amosalla@asu.edu&gt;
Co-authored-by: Eric Harper &lt;complex451@gmail.com&gt;
Signed-off-by: Hainan Xu &lt;hainanx@nvidia.com&gt;

* [TTS] Add NeMo TTS Primer Tutorial (#4933)

* [TTS] Add NeMo TTS Primer Tutorial

Signed-off-by: Ryan &lt;rlangman@nvidia.com&gt;
Signed-off-by: Hainan Xu &lt;hainanx@nvidia.com&gt;

* Add Squeezeformer CTC model checkpoints on Librispeech (#5121)

Signed-off-by: smajumdar &lt;titu1994@gmail.com&gt;

Signed-off-by: smajumdar &lt;titu1994@gmail.com&gt;
Signed-off-by: Hainan Xu &lt;hainanx@nvidia.com&gt;

* adding loss normalization options to rnnt joint  (#4829)

* adding normalization options to rnnt joint loss

* moving the param to joint

* moving loss normalization to rnnt loss config

* style

* cleaning up

* fixing sum reduction in joint

Signed-off-by: Dima Rekesh &lt;drekesh@nvidia.com&gt;

* moving reduction into RNNT loss class

* [pre-commit.ci] auto fixes from pre-commit.com hooks

for more information, see https://pre-commit.ci

* refactoring

* typos

Signed-off-by: Dima Rekesh &lt;drekesh@nvidia.com&gt;

Signed-off-by: Dima Rekesh &lt;drekesh@nvidia.com&gt;
Co-authored-by: Dima Rekesh &lt;drekesh@nvidia.com&gt;
Co-authored-by: Oleksii Kuchaiev &lt;okuchaiev@users.noreply.github.com&gt;
Co-authored-by: pre-commit-ci[bot] &lt;66853113+pre-commit-ci[bot]@users.noreply.github.com&gt;
Signed-off-by: Hainan Xu &lt;hainanx@nvidia.com&gt;

* Asr concat dataloader (#5108)

* forced precision

* typo

* initial commit

Signed-off-by: Dima Rekesh &lt;bmwshop@gmail.com&gt;

* typos and bugs

Signed-off-by: Dima Rekesh &lt;drekesh@nvidia.com&gt;

* reverting conformer encoder

Signed-off-by: Dima Rekesh &lt;drekesh@nvidia.com&gt;

* additional checks

Signed-off-by: Dima Rekesh &lt;bmwshop@gmail.com&gt;

* adding support to CTC models as well

* reverting conformer_encoder

Signed-off-by: Dima Rekesh &lt;bmwshop@gmail.com&gt;

* typo

Signed-off-by: Dima Rekesh &lt;bmwshop@gmail.com&gt;

* [pre-commit.ci] auto fixes from pre-commit.com hooks

for more information, see https://pre-commit.ci

* refactoring

Signed-off-by: Dima Rekesh &lt;bmwshop@gmail.com&gt;

* [pre-commit.ci] auto fixes from pre-commit.com hooks

for more information, see https://pre-commit.ci

* refactoring

Signed-off-by: Dima Rekesh &lt;drekesh@nvidia.com&gt;

* merging

Signed-off-by: Dima Rekesh &lt;drekesh@nvidia.com&gt;

Signed-off-by: Dima Rekesh &lt;bmwshop@gmail.com&gt;
Signed-off-by: Dima Rekesh &lt;drekesh@nvidia.com&gt;
Co-authored-by: Dima Rekesh &lt;drekesh@nvidia.com&gt;
Co-authored-by: pre-commit-ci[bot] &lt;66853113+pre-commit-ci[bot]@users.noreply.github.com&gt;
Co-authored-by: Somshubra Majumdar &lt;titu1994@gmail.com&gt;
Signed-off-by: Hainan Xu &lt;hainanx@nvidia.com&gt;

* fix blossom ci unittests

Signed-off-by: Oleksii Kuchaiev &lt;okuchaiev@nvidia.com&gt;
Signed-off-by: Hainan Xu &lt;hainanx@nvidia.com&gt;

* bugfix: pybtex.database.InvalidNameString: Too many commas in author field. (#5112) (#5115)

Signed-off-by: Xuesong Yang &lt;1646669+XuesongYang@users.noreply.github.com&gt;
Signed-off-by: Hainan Xu &lt;hainanx@nvidia.com&gt;

* Uppdate container version to 22.09 (#5105)

* update container version

Signed-off-by: ericharper &lt;complex451@gmail.com&gt;

* pin click

Signed-off-by: ericharper &lt;complex451@gmail.com&gt;

* pin click 8.0.2

Signed-off-by: ericharper &lt;complex451@gmail.com&gt;

Signed-off-by: ericharper &lt;complex451@gmail.com&gt;
Signed-off-by: Hainan Xu &lt;hainanx@nvidia.com&gt;

* Remove unsupported arguments from MegatronNMT (#5065)

* Fixes

Signed-off-by: MaximumEntropy &lt;sandeep.subramanian.1@umontreal.ca&gt;

* Fixes

Signed-off-by: MaximumEntropy &lt;sandeep.subramanian.1@umontreal.ca&gt;

* Style

Signed-off-by: MaximumEntropy &lt;sandeep.subramanian.1@umontreal.ca&gt;

* Fix

Signed-off-by: MaximumEntropy &lt;sandeep.subramanian.1@umontreal.ca&gt;

* More fixes

Signed-off-by: MaximumEntropy &lt;sandeep.subramanian.1@umontreal.ca&gt;

Signed-off-by: MaximumEntropy &lt;sandeep.subramanian.1@umontreal.ca&gt;
Signed-off-by: Hainan Xu &lt;hainanx@nvidia.com&gt;

* pp2 support for T5 IA3 learning and T5 Adapters learning (#5116)

* enabling pp2

Signed-off-by: arendu &lt;adithya.r@gmail.com&gt;

* optimizer update

Signed-off-by: arendu &lt;adithya.r@gmail.com&gt;

* [pre-commit.ci] auto fixes from pre-commit.com hooks

for more information, see https://pre-commit.ci

* T5 pp&gt;1 support for adapters and ia3

Signed-off-by: arendu &lt;adithya.r@gmail.com&gt;

* fix bug with missing adapter_tuning

Signed-off-by: arendu &lt;adithya.r@gmail.com&gt;

* inference error fixed, pp=2

Signed-off-by: arendu &lt;adithya.r@gmail.com&gt;

Signed-off-by: arendu &lt;adithya.r@gmail.com&gt;
Co-authored-by: pre-commit-ci[bot] &lt;66853113+pre-commit-ci[bot]@users.noreply.github.com&gt;
Co-authored-by: Oleksii Kuchaiev &lt;okuchaiev@users.noreply.github.com&gt;
Signed-off-by: Hainan Xu &lt;hainanx@nvidia.com&gt;

* T5 Prompt Learning Fixes for Pipeline Parallel (#5120)

* Initial fixes

Signed-off-by: MaximumEntropy &lt;sandeep.subramanian.1@umontreal.ca&gt;

* Added back validation acc

Signed-off-by: Virginia Adams &lt;vadams@nvidia.com&gt;

* [pre-commit.ci] auto fixes from pre-commit.com hooks

for more information, see https://pre-commit.ci

* Put num workers back

Signed-off-by: Virginia Adams &lt;vadams@nvidia.com&gt;

* added relative encoding if statament

Signed-off-by: Virginia Adams &lt;vadams@selene-login-01.nvidia.com&gt;

* Added back val loss only validation

Signed-off-by: Virginia Adams &lt;vadams@nvidia.com&gt;

* Revert "Added back val loss only validation"

This reverts commit 86d8f4806fe30335c40c3716ce18259939df500f.

* Removed val acc for PP &gt; 1

Signed-off-by: Virginia Adams &lt;vadams@nvidia.com&gt;

* Removed enc_seq_len if statement

Signed-off-by: Virginia Adams &lt;vadams@nvidia.com&gt;

* Added back validation acc calc

Signed-off-by: Virginia Adams &lt;vadams@nvidia.com&gt;

* [pre-commit.ci] auto fixes from pre-commit.com hooks

for more information, see https://pre-commit.ci

Signed-off-by: MaximumEntropy &lt;sandeep.subramanian.1@umontreal.ca&gt;
Signed-off-by: Virginia Adams &lt;vadams@nvidia.com&gt;
Signed-off-by: Virginia Adams &lt;vadams@selene-login-01.nvidia.com&gt;
Co-authored-by: Virginia Adams &lt;vadams@nvidia.com&gt;
Co-authored-by: Virginia Adams &lt;78445382+vadam5@users.noreply.github.com&gt;
Co-authored-by: pre-commit-ci[bot] &lt;66853113+pre-commit-ci[bot]@users.noreply.github.com&gt;
Co-authored-by: Virginia Adams &lt;vadams@selene-login-01.nvidia.com&gt;
Signed-off-by: Hainan Xu &lt;hainanx@nvidia.com&gt;

* add doc info (#4721)

Signed-off-by: Yang Zhang &lt;yangzhang@nvidia.com&gt;

Signed-off-by: Yang Zhang &lt;yangzhang@nvidia.com&gt;
Signed-off-by: Hainan Xu &lt;hainanx@nvidia.com&gt;

* [TTS] Add SpanishCharsTokenizer (#5135)

* [TTS] Add SpanishCharsTokenizer

Signed-off-by: Ryan &lt;rlangman@nvidia.com&gt;
Signed-off-by: Hainan Xu &lt;hainanx@nvidia.com&gt;

* Update megatron interface to dialogue (#4936)

* fix style formatting

Signed-off-by: Zhilin Wang &lt;zhilinw@nvidia.com&gt;

* update template to include description of intent

Signed-off-by: Zhilin Wang &lt;zhilinw@nvidia.com&gt;

* update Jenkinsfile

Signed-off-by: Zhilin Wang &lt;zhilinw@nvidia.com&gt;

* changes based on requests in review

Signed-off-by: Zhilin Wang &lt;zhilinw@nvidia.com&gt;

* add compatibility with assistant dataset

Signed-off-by: Zhilin Wang &lt;zhilinw@nvidia.com&gt;

* update Jenkins

Signed-off-by: Zhilin Wang &lt;zhilinw@nvidia.com&gt;

* remove dialogue_state_tracking

Signed-off-by: Zhilin Wang &lt;zhilinw@nvidia.com&gt;

* update huggingface utils for dialogue

Signed-off-by: Zhilin Wang &lt;zhilinw@nvidia.com&gt;

* rename dialogue_state_tracking_hybrid to dialogue_state_tracking_sgdqa

Signed-off-by: Zhilin Wang &lt;zhilinw@nvidia.com&gt;

* style fix

Signed-off-by: Zhilin Wang &lt;zhilinw@nvidia.com&gt;

* fix style

Signed-off-by: Zhilin Wang &lt;zhilinw@nvidia.com&gt;

* style fix nemo/collections/nlp/models/dialogue_state_tracking_sgdqa/__init__.py

Signed-off-by: Zhilin Wang &lt;zhilinw@nvidia.com&gt;

* update Jenkinsfile for SGDGEN

Signed-off-by: Zhilin Wang &lt;zhilinw@nvidia.com&gt;

* update Jenkinsfile for SGDGEN

Signed-off-by: Zhilin Wang &lt;zhilinw@nvidia.com&gt;

* update Jenkinsfile for SGDGEN

Signed-off-by: Zhilin Wang &lt;zhilinw@nvidia.com&gt;

* update Jenkinsfile for SGDGEN

Signed-off-by: Zhilin Wang &lt;zhilinw@nvidia.com&gt;

* update Jenkinsfile for SGDGEN

Signed-off-by: Zhilin Wang &lt;zhilinw@nvidia.com&gt;

* fix typo

Signed-off-by: Zhilin Wang &lt;zhilinw@nvidia.com&gt;

* add docstrings for assistant data processsor

Signed-off-by: Zhilin Wang &lt;zhilinw@nvidia.com&gt;

* update Jenkins for SGDGEN local checkpoint

Signed-off-by: Zhilin Wang &lt;zhilinw@nvidia.com&gt;

* update style

Signed-off-by: Zhilin Wang &lt;zhilinw@nvidia.com&gt;

* use local vocab file for Jenkinsfile

Signed-off-by: Zhilin Wang &lt;zhilinw@nvidia.com&gt;

* patch for Jenkins CI using local file

Signed-off-by: Zhilin Wang &lt;zhilinw@nvidia.com&gt;

* add slot filling prediction and metrics

Signed-off-by: Zhilin Wang &lt;zhilinw@nvidia.com&gt;

* remove unused code

Signed-off-by: Zhilin Wang &lt;zhilinw@nvidia.com&gt;

* style fix

Signed-off-by: Zhilin Wang &lt;zhilinw@nvidia.com&gt;

* refactor metrics code out of Dialogue GPT Model

Signed-off-by: Zhilin Wang &lt;zhilinw@nvidia.com&gt;

* integrate backward compatible support for IntentSlotClassificationModel (bert model)

Signed-off-by: Zhilin Wang &lt;zhilinw@nvidia.com&gt;

* save prediction file for IntentSlotClassification

Signed-off-by: Zhilin Wang &lt;zhilinw@nvidia.com&gt;

* update dialogue gpt model training for megatron gpt

Signed-off-by: Zhilin Wang &lt;zhilinw@nvidia.com&gt;

* remove batch generate for HF GPT2, which causes lower performance

Signed-off-by: Zhilin Wang &lt;zhilinw@nvidia.com&gt;

* add few shot capability to dialogue gpt model

Signed-off-by: Zhilin Wang &lt;zhilinw@nvidia.com&gt;

* update Jenkinsfile and remove unused import

Signed-off-by: Zhilin Wang &lt;zhilinw@nvidia.com&gt;

* update code description and clarity

Signed-off-by: Zhilin Wang &lt;zhilinw@nvidia.com&gt;

* address PR comments

Signed-off-by: Zhilin Wang &lt;zhilinw@nvidia.com&gt;

* style fix

Signed-off-by: Zhilin Wang &lt;zhilinw@nvidia.com&gt;

* integrate compatibility with ZeroShotIntentModel

Signed-off-by: Zhilin Wang &lt;zhilinw@nvidia.com&gt;

* rename folder to dialogue due to increased scope and further refactor for clarity

Signed-off-by: Zhilin Wang &lt;zhilinw@nvidia.com&gt;

* added dialogue GPT for sequence generation task (e.g. answer extender)

Signed-off-by: Zhilin Wang &lt;zhilinw@nvidia.com&gt;

* add CI test for DialogueGPTGenerationModel

Signed-off-by: Zhilin Wang &lt;zhilinw@nvidia.com&gt;

* integrate DialogueS2SGenerationModel for generation task (e.g. answer extender)

Signed-off-by: Zhilin Wang &lt;zhilinw@nvidia.com&gt;

* modify huggingface utils to support HF t5/BART models

Signed-off-by: Zhilin Wang &lt;zhilinw@nvidia.com&gt;

* style fix

Signed-off-by: Zhilin Wang &lt;zhilinw@nvidia.com&gt;

* style fix

Signed-off-by: Zhilin Wang &lt;zhilinw@nvidia.com&gt;

* remove unused imports

Signed-off-by: Zhilin Wang &lt;zhilinw@nvidia.com&gt;

* style fix

Signed-off-by: Zhilin Wang &lt;zhilinw@nvidia.com&gt;

* update Jenkinsfile

Signed-off-by: Zhilin Wang &lt;zhilinw@nvidia.com&gt;

* update Jenkinsfile

Signed-off-by: Zhilin Wang &lt;zhilinw@nvidia.com&gt;

* update bleu metric

Signed-off-by: Zhilin Wang &lt;zhilinw@nvidia.com&gt;

* fix bleu metric style

Signed-off-by: Zhilin Wang &lt;zhilinw@nvidia.com&gt;

* debug bleu metric

Signed-off-by: Zhilin Wang &lt;zhilinw@nvidia.com&gt;

* debug bleu metric

Signed-off-by: Zhilin Wang &lt;zhilinw@nvidia.com&gt;

* update based on PR #3893

Signed-off-by: Zhilin Wang &lt;zhilinw@nvidia.com&gt;

* update 2 based on PR #3893

Signed-off-by: Zhilin Wang &lt;zhilinw@nvidia.com&gt;

* update 3 based on PR #3893

Signed-off-by: Zhilin Wang &lt;zhilinw@nvidia.com&gt;

* integrate sgd generation based on user user utterance and system slot-values to generate system utterance

Signed-off-by: Zhilin Wang &lt;zhilinw@nvidia.com&gt;

* add validation model saving capabilities

Signed-off-by: Zhilin Wang &lt;zhilinw@nvidia.com&gt;

* cleaned up code for SGD Based Answer extender

Signed-off-by: Zhilin Wang &lt;zhilinw@nvidia.com&gt;

* update Dialogue Generation CI

Signed-off-by: Zhilin Wang &lt;zhilinw@nvidia.com&gt;

* update Jenkinsfile

Signed-off-by: Zhilin Wang &lt;zhilinw@nvidia.com&gt;

* update Jenkinsfile

Signed-off-by: Zhilin Wang &lt;zhilinw@nvidia.com&gt;

* fix Jenkins CI issue"

Signed-off-by: Zhilin Wang &lt;zhilinw@nvidia.com&gt;

* add support for design dataset

Signed-off-by: Zhilin Wang &lt;zhilinw@nvidia.com&gt;

* remove unnecessary imports

Signed-off-by: Zhilin Wang &lt;zhilinw@nvidia.com&gt;

* update Jenkins

Signed-off-by: Zhilin Wang &lt;zhilinw@nvidia.com&gt;

* update jenkins

Signed-off-by: Zhilin Wang &lt;zhilinw@nvidia.com&gt;

* update jenkins

Signed-off-by: Zhilin Wang &lt;zhilinw@nvidia.com&gt;

* support megatron for dialogue_s2s_generation_model

Signed-off-by: Zhilin Wang &lt;zhilinw@nvidia.com&gt;

* reduce loaded samples in MSMarcoDataProcessor to 64 when cfg.model.dataset.debug_mode=True

Signed-off-by: Zhilin Wang &lt;zhilinw@nvidia.com&gt;

* style fix

Signed-off-by: Zhilin Wang &lt;zhilinw@nvidia.com&gt;

* style fix

Signed-off-by: Zhilin Wang &lt;zhilinw@nvidia.com&gt;

* update CI

Signed-off-by: Zhilin Wang &lt;zhilinw@nvidia.com&gt;

* update checkpoint and predictions filename to include epoch number

Signed-off-by: Zhilin Wang &lt;zhilinw@nvidia.com&gt;

* style fix

Signed-off-by: Zhilin Wang &lt;zhilinw@nvidia.com&gt;

* integrate HF BART MNLI into zero shot intent model

Signed-off-by: Zhilin Wang &lt;zhilinw@nvidia.com&gt;

* integrate Dialogue Nearest Neighbour Model

Signed-off-by: Zhilin Wang &lt;zhilinw@nvidia.com&gt;

* update Jenkins

Signed-off-by: Zhilin Wang &lt;zhilinw@nvidia.com&gt;

* update Jenkins

Signed-off-by: Zhilin Wang &lt;zhilinw@nvidia.com&gt;

* refactor Dialogue SGD Data Processor to make interface for models cleaner

Signed-off-by: Zhilin Wang &lt;zhilinw@nvidia.com&gt;

* update jenkins

Signed-off-by: Zhilin Wang &lt;zhilinw@nvidia.com&gt;

* update Dialogue S2S Generation model for DialogueSGDDataProcessor interface

Signed-off-by: Zhilin Wang &lt;zhilinw@nvidia.com&gt;

* update jenkins

Signed-off-by: Zhilin Wang &lt;zhilinw@nvidia.com&gt;

* update jenkins

Signed-off-by: Zhilin Wang &lt;zhilinw@nvidia.com&gt;

* support sgd and drive thru datasets by zero shot model and nearest neighbour model

Signed-off-by: Zhilin Wang &lt;zhilinw@nvidia.com&gt;

* add prediction saving code to nearest neighbour and zero shot intent models

Signed-off-by: Zhilin Wang &lt;zhilinw@nvidia.com&gt;

* fix typo in sgd data processor

Signed-off-by: Zhilin Wang &lt;zhilinw@nvidia.com&gt;

* integrate Dialogue Mellon QA Data Processor

Signed-off-by: Zhilin Wang &lt;zhilinw@nvidia.com&gt;

* update mellon qa

Signed-off-by: Zhilin Wang &lt;zhilinw@nvidia.com&gt;

* update dialogue.py to remove outdated info

Signed-off-by: Zhilin Wang &lt;zhilinw@nvidia.com&gt;

* style fix

Signed-off-by: Zhilin Wang &lt;zhilinw@nvidia.com&gt;

* update dialogue_config.yaml

Signed-off-by: Zhilin Wang &lt;zhilinw@nvidia.com&gt;

* update dialogue_config.yaml

Signed-off-by: Zhilin Wang &lt;zhilinw@nvidia.com&gt;

* add dialogue docs

Signed-off-by: Zhilin Wang &lt;zhilinw@nvidia.com&gt;

* address review comments

Signed-off-by: Zhilin Wang &lt;zhilinw@nvidia.com&gt;

* style fix

Signed-off-by: Zhilin Wang &lt;zhilinw@nvidia.com&gt;

* style fix

Signed-off-by: Zhilin Wang &lt;zhilinw@nvidia.com&gt;

* style fix

Signed-off-by: Zhilin Wang &lt;zhilinw@nvidia.com&gt;

* style fix

Signed-off-by: Zhilin Wang &lt;zhilinw@nvidia.com&gt;

* style fix

Signed-off-by: Zhilin Wang &lt;zhilinw@nvidia.com&gt;

* style fix for cfg

Signed-off-by: Zhilin Wang &lt;zhilinw@nvidia.com&gt;

* make dependency on apex optional

Signed-off-by: Zhilin Wang &lt;zhilinw@nvidia.com&gt;

* change NLPDDPluggin calling logic to make it possible to run without apex

Signed-off-by: Zhilin Wang &lt;zhilinw@nvidia.com&gt;

* add first draft of tutorial

Signed-off-by: Zhilin Wang &lt;zhilinw@nvidia.com&gt;

* reduce ms marco size by removing lines without wellFormedAnswers

Signed-off-by: Zhilin Wang &lt;zhilinw@nvidia.com&gt;

* address pr comments

Signed-off-by: Zhilin Wang &lt;zhilinw@nvidia.com&gt;

* style fix

Signed-off-by: Zhilin Wang &lt;zhilinw@nvidia.com&gt;

* update colab tutorial link in dialogue docs

Signed-off-by: Zhilin Wang &lt;zhilinw@nvidia.com&gt;

* include unit test and some refactor to facilitate unit test

Signed-off-by: Zhilin Wang &lt;zhilinw@nvidia.com&gt;

* style fix

Signed-off-by: Zhilin Wang &lt;zhilinw@nvidia.com&gt;

* address pr issues

Signed-off-by: Zhilin Wang &lt;zhilinw@nvidia.com&gt;

* remove typos in dialogue tutorial

Signed-off-by: Zhilin Wang &lt;zhilinw@nvidia.com&gt;

* support larger files for question answering

Signed-off-by: Zhilin Wang &lt;zhilinw@nvidia.com&gt;

* style fix

Signed-off-by: Zhilin Wang &lt;zhilinw@nvidia.com&gt;

* style fix

Signed-off-by: Zhilin Wang &lt;zhilinw@nvidia.com&gt;

* style fix

Signed-off-by: Zhilin Wang &lt;zhilinw@nvidia.com&gt;

* remove unnecessary artifacts to reduce memory use

Signed-off-by: Zhilin Wang &lt;zhilinw@nvidia.com&gt;

* put 0 tensor to device

Signed-off-by: Zhilin Wang &lt;zhilinw@nvidia.com&gt;

* update link within dialogue tutorial

Signed-off-by: Zhilin Wang &lt;zhilinw@nvidia.com&gt;

* restore previously delete files

Signed-off-by: Zhilin Wang &lt;zhilinw@nvidia.com&gt;

* update error handling when loss = nan

Signed-off-by: Zhilin Wang &lt;zhilinw@nvidia.com&gt;

* update nan handling

Signed-off-by: Zhilin Wang &lt;zhilinw@nvidia.com&gt;

* style fix

Signed-off-by: Zhilin Wang &lt;zhilinw@nvidia.com&gt;

* update spanning loss func

Signed-off-by: Zhilin Wang &lt;zhilinw@nvidia.com&gt;

* update spanning loss

Signed-off-by: Zhilin Wang &lt;zhilinw@nvidia.com&gt;

* fix type error raised in qa_dataset.py

Signed-off-by: Zhilin Wang &lt;zhilinw@nvidia.com&gt;

* add error checking message

Signed-off-by: Zhilin Wang &lt;zhilinw@nvidia.com&gt;

* revert back to float32

Signed-off-by: Zhilin Wang &lt;zhilinw@nvidia.com&gt;

* revert back to float32

Signed-off-by: Zhilin Wang &lt;zhilinw@nvidia.com&gt;

* update error msgs

Signed-off-by: Zhilin Wang &lt;zhilinw@nvidia.com&gt;

* update error msgs

Signed-off-by: Zhilin Wang &lt;zhilinw@nvidia.com&gt;

* update error msgs

Signed-off-by: Zhilin Wang &lt;zhilinw@nvidia.com&gt;

* update error msgs

Signed-off-by: Zhilin Wang &lt;zhilinw@nvidia.com&gt;

* update error msgs

Signed-off-by: Zhilin Wang &lt;zhilinw@nvidia.com&gt;

* update error msgs

Signed-off-by: Zhilin Wang &lt;zhilinw@nvidia.com&gt;

* update error msgs

Signed-off-by: Zhilin Wang &lt;zhilinw@nvidia.com&gt;

* update error msgs

Signed-off-by: Zhilin Wang &lt;zhilinw@nvidia.com&gt;

* update exp logging

Signed-off-by: Zhilin Wang &lt;zhilinw@nvidia.com&gt;

* update error msgs

Signed-off-by: Zhilin Wang &lt;zhilinw@nvidia.com&gt;

* update loading of large file from pickle to json

Signed-off-by: Zhilin Wang &lt;zhilinw@nvidia.com&gt;

* update loading of large file from pickle to json

Signed-off-by: Zhilin Wang &lt;zhilinw@nvidia.com&gt;

* limit number of negative samples

Signed-off-by: Zhilin Wang &lt;zhilinw@nvidia.com&gt;

* revert post processing

Signed-off-by: Zhilin Wang &lt;zhilinw@nvidia.com&gt;

* revert post processing

Signed-off-by: Zhilin Wang &lt;zhilinw@nvidia.com&gt;

* remove unused methods and style fix

Signed-off-by: Zhilin Wang &lt;zhilinw@nvidia.com&gt;

* add more documentation

Signed-off-by: Zhilin Wang &lt;zhilinw@nvidia.com&gt;

* remove unused imports

Signed-off-by: Zhilin Wang &lt;zhilinw@nvidia.com&gt;

* changes base on PR review

Signed-off-by: Zhilin Wang &lt;zhilinw@nvidia.com&gt;

* set wandb logger falseby default

Signed-off-by: Zhilin Wang &lt;zhilinw@nvidia.com&gt;

* update interface with megatron gpt prompt learning

Signed-off-by: Zhilin Wang &lt;zhilinw@nvidia.com&gt;

* update inline documentation

Signed-off-by: Zhilin Wang &lt;zhilinw@nvidia.com&gt;

* style fix

Signed-off-by: Zhilin Wang &lt;zhilinw@nvidia.com&gt;

* style fix

Signed-off-by: Zhilin Wang &lt;zhilinw@nvidia.com&gt;

* update prompt_ids

Signed-off-by: Zhilin Wang &lt;zhilinw@nvidia.com&gt;

* update error msg

Signed-off-by: Zhilin Wang &lt;zhilinw@nvidia.com&gt;

* update config

Signed-off-by: Zhilin Wang &lt;zhilinw@nvidia.com&gt;

* update config

Signed-off-by: Zhilin Wang &lt;zhilinw@nvidia.com&gt;

* set inference = False for dialgue prompt learning during trainng

Signed-off-by: Zhilin Wang &lt;zhilinw@nvidia.com&gt;

* set inference = False for dialgue prompt learning during trainng

Signed-off-by: Zhilin Wang &lt;zhilinw@nvidia.com&gt;

* remove unused code

Signed-off-by: Zhilin Wang &lt;zhilinw@nvidia.com&gt;

* update config yaml

Signed-off-by: Zhilin Wang &lt;zhilinw@nvidia.com&gt;

* fix bug for megatron gpt prompt learning

Signed-off-by: Zhilin Wang &lt;zhilinw@nvidia.com&gt;

* remove unused import

Signed-off-by: Zhilin Wang &lt;zhilinw@nvidia.com&gt;

* address comments in PR

Signed-off-by: Zhilin Wang &lt;zhilinw@nvidia.com&gt;

* address comments in PR

Signed-off-by: Zhilin Wang &lt;zhilinw@nvidia.com&gt;

* address typo

Signed-off-by: Zhilin Wang &lt;zhilinw@nvidia.com&gt;

* add megatron t5 inference

Signed-off-by: Zhilin Wang &lt;zhilinw@nvidia.com&gt;

* fix bug due to bert tokenizer not being space-aware

Signed-off-by: Zhilin Wang &lt;zhilinw@nvidia.com&gt;

* style fix

Signed-off-by: Zhilin Wang &lt;zhilinw@nvidia.com&gt;

* style fix

Signed-off-by: Zhilin Wang &lt;zhilinw@nvidia.com&gt;

* update style

Signed-off-by: Zhilin Wang &lt;zhilinw@nvidia.com&gt;

* update IntentSlotModel onnx export test

Signed-off-by: Zhilin Wang &lt;zhilinw@nvidia.com&gt;

* update style

Signed-off-by: Zhilin Wang &lt;zhilinw@nvidia.com&gt;

* update exportable

Signed-off-by: Zhilin Wang &lt;zhilinw@nvidia.com&gt;

* address PR comments

Signed-off-by: Zhilin Wang &lt;zhilinw@nvidia.com&gt;

* replace functools.cache_property with functools.lru_cache to maintain python 3.7 compatibility

Signed-off-by: Zhilin Wang &lt;zhilinw@nvidia.com&gt;

* improve speed of rank_candidates and support for p tuning

Signed-off-by: Zhilin Wang &lt;zhilinw@nvidia.com&gt;

* update dialogue.py

Signed-off-by: Zhilin Wang &lt;zhilinw@nvidia.com&gt;

* fix megatron prompt learning saving bug

Signed-off-by: Zhilin Wang &lt;zhilinw@nvidia.com&gt;

* update generate_candidate method

Signed-off-by: Zhilin Wang &lt;zhilinw@nvidia.com&gt;

* remove repeated init text ids and invert attention masks

Signed-off-by: Zhilin Wang &lt;zhilinw@nvidia.com&gt;

* update typo

Signed-off-by: Zhilin Wang &lt;zhilinw@nvidia.com&gt;

* custom collate fn to remove excess padding in batch

Signed-off-by: Zhilin Wang &lt;zhilinw@nvidia.com&gt;

* style fix

Signed-off-by: Zhilin Wang &lt;zhilinw@nvidia.com&gt;

* style fix

Signed-off-by: Zhilin Wang &lt;zhilinw@nvidia.com&gt;

* update complete method to mitigate issue when max seq len is low

Signed-off-by: Zhilin Wang &lt;zhilinw@nvidia.com&gt;

* address pr comments

Signed-off-by: Zhilin Wang &lt;zhilinw@nvidia.com&gt;

* update generation interface

Signed-off-by: Zhilin Wang &lt;zhilinw@nvidia.com&gt;

Signed-off-by: Zhilin Wang &lt;zhilinw@nvidia.com&gt;
Co-authored-by: Zhilin Wang &lt;zhilinw@nvidia.com&gt;
Co-authored-by: Oleksii Kuchaiev &lt;okuchaiev@users.noreply.github.com&gt;
Co-authored-by: Yang Zhang &lt;yzhang123@users.noreply.github.com&gt;
Co-authored-by: Eric Harper &lt;complex451@gmail.com&gt;
Co-authored-by: Sandeep Subramanian &lt;sandeep.subramanian.1@umontreal.ca&gt;
Signed-off-by: Hainan Xu &lt;hainanx@nvidia.com&gt;

* Added save inference ready .nemo file with every checkpoint (#5055)

* Added save inference ready .nemo file with every checkpoint

Signed-off-by: Virginia Adams &lt;vadams@nvidia.com&gt;

* Python style fix

Signed-off-by: Virginia Adams &lt;vadams@nvidia.com&gt;

* addressed Adi's comment

Signed-off-by: Virginia Adams &lt;vadams@nvidia.com&gt;

* Added ptuning check in model checkpoint saving

Signed-off-by: Virginia Adams &lt;vadams@nvidia.com&gt;

* Changed save_nemo_on_valdaition default to False

Signed-off-by: Virginia Adams &lt;vadams@nvidia.com&gt;

* [pre-commit.ci] auto fixes from pre-commit.com hooks

for more information, see https://pre-commit.ci

* Changes global batch size of adapter CI

Signed-off-by: Virginia Adams &lt;vadams@nvidia.com&gt;

* Changed num workers to 0

Signed-off-by: Virginia Adams &lt;vadams@nvidia.com&gt;

* added first stage of pipeline check

Signed-off-by: Virginia Adams &lt;vadams@nvidia.com&gt;

* [pre-commit.ci] auto fixes from pre-commit.com hooks

for more information, see https://pre-commit.ci

Signed-off-by: Virginia Adams &lt;vadams@nvidia.com&gt;
Signed-off-by: Virginia Adams &lt;78445382+vadam5@users.noreply.github.com&gt;
Co-authored-by: pre-commit-ci[bot] &lt;66853113+pre-commit-ci[bot]@users.noreply.github.com&gt;
Signed-off-by: Hainan Xu &lt;hainanx@nvidia.com&gt;

* Fixes for docs/typos + remove max_utts parameter from tarred datasets as it causes hang in training (#5118)

* Remove ; from jupyter notebook cells

Signed-off-by: Igor Gitman &lt;igitman@nvidia.com&gt;

* Fix typos in documentation/code

Signed-off-by: Igor Gitman &lt;igitman@nvidia.com&gt;

* Fix output message to have 'or equal'

Signed-off-by: Igor Gitman &lt;igitman@nvidia.com&gt;

* Link formatting fixes

Signed-off-by: Igor Gitman &lt;igitman@nvidia.com&gt;

* Add error if max_utts is used in tarred datasets

Signed-off-by: Igor Gitman &lt;igitman@nvidia.com&gt;

* Remove max_utts parameter from tarred datasets

Signed-off-by: Igor Gitman &lt;igitman@nvidia.com&gt;

* Fix max_utts removal in tests

Signed-off-by: Igor Gitman &lt;igitman@nvidia.com&gt;

* Fix typo if -&gt; is

Signed-off-by: Igor Gitman &lt;igitman@nvidia.com&gt;

Signed-off-by: Igor Gitman &lt;igitman@nvidia.com&gt;
Signed-off-by: Hainan Xu &lt;hainanx@nvidia.com&gt;

* Merge r1.12.0 main (#5139)

* update branch

Signed-off-by: ericharper &lt;complex451@gmail.com&gt;

* Add cherry-pick action (#4958)

* add cherry-pick action

Signed-off-by: ericharper &lt;complex451@gmail.com&gt;

* Pin Transformers version to fix CI (#4955)

* Pin transformers version in CI to prevent offline tokenizer loading error

Signed-off-by: SeanNaren &lt;snarenthiran@nvidia.com&gt;

* Drop version

Signed-off-by: SeanNaren &lt;snarenthiran@nvidia.com&gt;

* Disable offline temporarily

Signed-off-by: SeanNaren &lt;snarenthiran@nvidia.com&gt;

* Disable offline temporarily

Signed-off-by: SeanNaren &lt;snarenthiran@nvidia.com&gt;

* Enable offline

Signed-off-by: SeanNaren &lt;snarenthiran@nvidia.com&gt;

Signed-off-by: SeanNaren &lt;snarenthiran@nvidia.com&gt;

Signed-off-by: ericharper &lt;complex451@gmail.com&gt;
Signed-off-by: SeanNaren &lt;snarenthiran@nvidia.com&gt;
Co-authored-by: Sean Naren &lt;snarenthiran@nvidia.com&gt;

* upper bound transformers

Signed-off-by: ericharper &lt;complex451@gmail.com&gt;

* remove duplicate transformers requirement

Signed-off-by: ericharper &lt;complex451@gmail.com&gt;

* Release SOTA Lang ID model  (#5080)

* add pretrained lang id model ambernet

Signed-off-by: fayejf &lt;fayejf07@gmail.com&gt;

* update doc and style fix

Signed-off-by: fayejf &lt;fayejf07@gmail.com&gt;

Signed-off-by: fayejf &lt;fayejf07@gmail.com&gt;

* update branch and package info

Signed-off-by: ericharper &lt;complex451@gmail.com&gt;

* remove upper bounds on lightning and transformers

Signed-off-by: ericharper &lt;complex451@gmail.com&gt;

* remove transformers offline from ci

Signed-off-by: ericharper &lt;complex451@gmail.com&gt;

* upper bound transformers

Signed-off-by: ericharper &lt;complex451@gmail.com&gt;

Signed-off-by: ericharper &lt;complex451@gmail.com&gt;
Signed-off-by: SeanNaren &lt;snarenthiran@nvidia.com&gt;
Signed-off-by: fayejf &lt;fayejf07@gmail.com&gt;
Co-authored-by: Sean Naren &lt;snarenthiran@nvidia.com&gt;
Co-authored-by: fayejf &lt;36722593+fayejf@users.noreply.github.com&gt;
Signed-off-by: Hainan Xu &lt;hainanx@nvidia.com&gt;

* Added ASR model comparison to SDE (#5043)

SDE: Added ASR model comparison tool to SDE
transcribe speech: Added support for many predictions in one file, as well as custom field names
Signed-off-by: George Zelenfroynd &lt;gzelenfroind@nvidia.com&gt;
Signed-off-by: Hainan Xu &lt;hainanx@nvidia.com&gt;

* fix nmt eval sampler (#5154)

Signed-off-by: Abhinav Khattar &lt;aklife97@gmail.com&gt;

Signed-off-by: Abhinav Khattar &lt;aklife97@gmail.com&gt;
Signed-off-by: Hainan Xu &lt;hainanx@nvidia.com&gt;

* Fix Global init steps (#5143)

* move global step to base

Signed-off-by: Yi Dong &lt;yidong@nvidia.com&gt;

* fix fused softmax

Signed-off-by: Yi Dong &lt;yidong@nvidia.com&gt;

* add the missing file

Signed-off-by: Yi Dong &lt;yidong@nvidia.com&gt;

* update the fused kernel

Signed-off-by: Yi Dong &lt;doyend@gmail.com&gt;

* fix import error

Signed-off-by: Yi Dong &lt;doyend@gmail.com&gt;

* fix import again

Signed-off-by: Yi Dong &lt;yidong@nvidia.com&gt;

Signed-off-by: Yi Dong &lt;yidong@nvidia.com&gt;
Signed-off-by: Yi Dong &lt;doyend@gmail.com&gt;
Co-authored-by: Yi Dong &lt;doyend@gmail.com&gt;
Co-authored-by: Sandeep Subramanian &lt;sandeep.subramanian.1@umontreal.ca&gt;
Signed-off-by: Hainan Xu &lt;hainanx@nvidia.com&gt;

* [TTS] bug fix - sample rate was being ignored in vocoder dataset (#4518)

* bug fix - sample rate was being ignored in vocoder dataset when not loading mel
* handled n segments for a different sampling rate than original sampling rate
* Added case for n_segments 0, warning for n_segments greater than file length

Signed-off-by: Paarth Neekhara &lt;paarth.n@gmail.com&gt;
Co-authored-by: Xuesong Yang &lt;1646669+XuesongYang@users.noreply.github.com&gt;
Co-authored-by: Jocelyn &lt;jocelynh@nvidia.com&gt;
Signed-off-by: Hainan Xu &lt;hainanx@nvidia.com&gt;

* Add EMA support to NeMo (#4764)

* Added Base files

Signed-off-by: SeanNaren &lt;snarenthiran@nvidia.com&gt;

* Some refactors, swap to using MNIST Lnet

Signed-off-by: SeanNaren &lt;snarenthiran@nvidia.com&gt;

* Add a few more tests, allow the callback to be set via the exp manager

Signed-off-by: SeanNaren &lt;snarenthiran@nvidia.com&gt;

* Actually run validation for testing

Signed-off-by: SeanNaren &lt;snarenthiran@nvidia.com&gt;

* Run isort

Signed-off-by: SeanNaren &lt;snarenthiran@nvidia.com&gt;

* Add test for saving state/fix saving state

Signed-off-by: SeanNaren &lt;snarenthiran@nvidia.com&gt;

* Use dummy model

Signed-off-by: SeanNaren &lt;snarenthiran@nvidia.com&gt;

* Fix test

Signed-off-by: SeanNaren &lt;snarenthiran@nvidia.com&gt;

* Add copyright

Signed-off-by: SeanNaren &lt;snarenthiran@nvidia.com&gt;

* Support saving separate EMA weight module

Signed-off-by: SeanNaren &lt;snarenthiran@nvidia.com&gt;

* Add standalone functionality/logging

Signed-off-by: SeanNaren &lt;snarenthiran@nvidia.com&gt;

* Expose more parameters

Signed-off-by: SeanNaren &lt;snarenthiran@nvidia.com&gt;

* Modify to allow option to replace validation

Signed-off-by: SeanNaren &lt;snarenthiran@nvidia.com&gt;

* Add jenkins test, formatting

Signed-off-by: SeanNaren &lt;snarenthiran@nvidia.com&gt;

* Pin Transformers version to fix CI (#4955)

* Pin transformers version in CI to prevent offline tokenizer loading error

Signed-off-by: SeanNaren &lt;snarenthiran@nvidia.com&gt;

* Drop version

Signed-off-by: SeanNaren &lt;snarenthiran@nvidia.com&gt;

* Disable offline temporarily

Signed-off-by: SeanNaren &lt;snarenthiran@nvidia.com&gt;

* Disable offline temporarily

Signed-off-by: SeanNaren &lt;snarenthiran@nvidia.com&gt;

* Enable offline

Signed-off-by: SeanNaren &lt;snarenthiran@nvidia.com&gt;

Signed-off-by: SeanNaren &lt;snarenthiran@nvidia.com&gt;

* Add cherry-pick action (#4958) (#4961)

* add cherry-pick action

Signed-off-by: ericharper &lt;complex451@gmail.com&gt;

* Pin Transformers version to fix CI (#4955)

* Pin transformers version in CI to prevent offline tokenizer loading error

Signed-off-by: SeanNaren &lt;snarenthiran@nvidia.com&gt;

* Drop version

Signed-off-by: SeanNaren &lt;snarenthiran@nvidia.com&gt;

* Disable offline temporarily

Signed-off-by: SeanNaren &lt;snarenthiran@nvidia.com&gt;

* Disable offline temporarily

Signed-off-by: SeanNaren &lt;snarenthiran@nvidia.com&gt;

* Enable offline

Signed-off-by: SeanNaren &lt;snarenthiran@nvidia.com&gt;

Signed-off-by: SeanNaren &lt;snarenthiran@nvidia.com&gt;

Signed-off-by: ericharper &lt;complex451@gmail.com&gt;
Signed-off-by: SeanNaren &lt;snarenthiran@nvidia.com&gt;
Co-authored-by: Sean Naren &lt;snarenthiran@nvidia.com&gt;

Signed-off-by: ericharper &lt;complex451@gmail.com&gt;
Signed-off-by: SeanNaren &lt;snarenthiran@nvidia.com&gt;
Co-authored-by: Eric Harper &lt;complex451@gmail.com&gt;
Co-authored-by: Sean Naren &lt;snarenthiran@nvidia.com&gt;
Signed-off-by: SeanNaren &lt;snarenthiran@nvidia.com&gt;

* Fix changelog builder (#4962) (#4963)

Signed-off-by: smajumdar &lt;smajumdar@nvidia.com&gt;

Signed-off-by: smajumdar &lt;smajumdar@nvidia.com&gt;

Signed-off-by: smajumdar &lt;smajumdar@nvidia.com&gt;
Signed-off-by: SeanNaren &lt;snarenthiran@nvidia.com&gt;

* fix cherry pick workflow (#4964) (#4965)

Signed-off-by: ericharper &lt;complex451@gmail.com&gt;

Signed-off-by: ericharper &lt;complex451@gmail.com&gt;

Signed-off-by: ericharper &lt;complex451@gmail.com&gt;
Co-authored-by: Eric Harper &lt;complex451@gmail.com&gt;
Signed-off-by: SeanNaren &lt;snarenthiran@nvidia.com&gt;

* reorder model check (#4959) (#4967)

Signed-off-by: nithinraok &lt;nithinrao.koluguri@gmail.com&gt;

Signed-off-by: nithinraok &lt;nithinrao.koluguri@gmail.com&gt;

Signed-off-by: nithinraok &lt;nithinrao.koluguri@gmail.com&gt;
Co-authored-by: Nithin Rao &lt;nithinrao.koluguri@gmail.com&gt;
Signed-off-by: SeanNaren &lt;snarenthiran@nvidia.com&gt;

* check for active conda environment (#4970) (#4971)

Signed-off-by: SeanNaren &lt;snarenthiran@nvidia.com&gt;

* [TTS] fix broken tutorial for MixerTTS. (#4949) (#4976)

Signed-off-by: Xuesong Yang &lt;1646669+XuesongYang@users.noreply.github.com&gt;

Signed-off-by: Xuesong Yang &lt;1646669+XuesongYang@users.noreply.github.com&gt;

Signed-off-by: Xuesong Yang &lt;1646669+XuesongYang@users.noreply.github.com&gt;
Co-authored-by: Xuesong Yang &lt;1646669+XuesongYang@users.noreply.github.com&gt;
Signed-off-by: SeanNaren &lt;snarenthiran@nvidia.com&gt;

* Checkpoint averaging class fix (#4946)

* 1. Added args.class_path to provide it externally.

Signed-off-by: Micha Livne &lt;mlivne@cs.toronto.edu&gt;

* 1. Fixed style.

Signed-off-by: Micha Livne &lt;mlivne@cs.toronto.edu&gt;

Signed-off-by: Micha Livne &lt;mlivne@cs.toronto.edu&gt;
Signed-off-by: SeanNaren &lt;snarenthiran@nvidia.com&gt;

* Add ability to give seperate datasets for test, train and validation (#4798)

* Add ability to give seperate datasets for test, train and validation

* Addressed Sandeeps comments

* Addressed Sandeeps comments

* Add ability to give seperate datasets for test, train and validation

* Add ability to give seperate datasets for test, train and validation

* Addressed review comments

* Bug fix for common dataset utils

* Add CI tests

Signed-off-by: shanmugamr1992 &lt;shanmugamr1992@gmail.com&gt;

* Reformat code

Signed-off-by: shanmugamr1992 &lt;shanmugamr1992@gmail.com&gt;

* Bug fix

Signed-off-by: shanmugamr1992 &lt;shanmugamr1992@gmail.com&gt;

* Bug fix

* Bug Fix

* Bug Fix

* Update Jenkinsfile

* Addressed comments

* Addressed Eriks comments.

* Addressed Sandeep

* Update Jenkinsfile

* Update Jenkinsfile

* Update dataset_utils.py

* Update Jenkinsfile

* Update Jenkinsfile

* Use GPT CI config

Signed-off-by: MaximumEntropy &lt;sandeep.subramanian.1@umontreal.ca&gt;

Signed-off-by: shanmugamr1992 &lt;shanmugamr1992@gmail.com&gt;
Signed-off-by: MaximumEntropy &lt;sandeep.subramanian.1@umontreal.ca&gt;
Co-authored-by: MaximumEntropy &lt;sandeep.subramanian.1@umontreal.ca&gt;
Signed-off-by: SeanNaren &lt;snarenthiran@nvidia.com&gt;

* fix label models restoring issue from wrighted cross entropy (#4968) (#4975)

Signed-off-by: nithinraok &lt;nithinrao.koluguri@gmail.com&gt;

Signed-off-by: nithinraok &lt;nithinrao.koluguri@gmail.com&gt;

Signed-off-by: nithinraok &lt;nithinrao.koluguri@gmail.com&gt;
Co-authored-by: Nithin Rao &lt;nithinrao.koluguri@gmail.com&gt;
Signed-off-by: SeanNaren &lt;snarenthiran@nvidia.com&gt;

* Add simple pre-commit file (#4983)

* Add simple pre-commit file

Signed-off-by: SeanNaren &lt;snarenthiran@nvidia.com&gt;

* Exclude docs folder

Signed-off-by: SeanNaren &lt;snarenthiran@nvidia.com&gt;

* [pre-commit.ci] auto fixes from pre-commit.com hooks

for more information, see https://pre-commit.ci

Signed-off-by: SeanNaren &lt;snarenthiran@nvidia.com&gt;

* Revert "[pre-commit.ci] auto fixes from pre-commit.com hooks"

This reverts commit 053bd5ba579537a5f311b431871c21f3381b43eb.

Signed-off-by: SeanNaren &lt;snarenthiran@nvidia.com&gt;

* [pre-commit.ci] auto fixes from pre-commit.com hooks

for more information, see https://pre-commit.ci

Signed-off-by: SeanNaren &lt;snarenthiran@nvidia.com&gt;
Co-authored-by: pre-commit-ci[bot] &lt;66853113+pre-commit-ci[bot]@users.noreply.github.com&gt;
Signed-off-by: SeanNaren &lt;snarenthiran@nvidia.com&gt;

* Import pycuda.autoprimaryctx or pycuda.autoinit to init pycuda execution environment (#4951)

Signed-off-by: Jin Li &lt;liji@nvidia.com&gt;

Signed-off-by: Jin Li &lt;liji@nvidia.com&gt;
Co-authored-by: Somshubra Majumdar &lt;titu1994@gmail.com&gt;
Signed-off-by: SeanNaren &lt;snarenthiran@nvidia.com&gt;

* Adding speaker embedding conditioning in fastpitch (#4986)

Signed-off-by: subhankar-ghosh &lt;subhankar2321@gmail.com&gt;

Signed-off-by: subhankar-ghosh &lt;subhankar2321@gmail.com&gt;
Signed-off-by: SeanNaren &lt;snarenthiran@nvidia.com&gt;

* Fix ASR issues (#4984) (#4991)

* Fix ASR issues

Signed-off-by: smajumdar &lt;smajumdar@nvidia.com&gt;

* Revert fix

Signed-off-by: smajumdar &lt;smajumdar@nvidia.com&gt;

Signed-off-by: smajumdar &lt;smajumdar@nvidia.com&gt;

Signed-off-by: smajumdar &lt;smajumdar@nvidia.com&gt;
Co-authored-by: Somshubra Majumdar &lt;titu1994@gmail.com&gt;
Signed-off-by: SeanNaren &lt;snarenthiran@nvidia.com&gt;

* Fix current tests

Signed-off-by: SeanNaren &lt;snarenthiran@nvidia.com&gt;

* More test coverage

Signed-off-by: SeanNaren &lt;snarenthiran@nvidia.com&gt;

* Address reviews

Signed-off-by: SeanNaren &lt;snarenthiran@nvidia.com&gt;

* [pre-commit.ci] auto fixes from pre-commit.com hooks

for more information, see https://pre-commit.ci

* Address review

Signed-off-by: SeanNaren &lt;snarenthiran@nvidia.com&gt;

* Drop bf16 test

Signed-off-by: SeanNaren &lt;snarenthiran@nvidia.com&gt;

* Address review

Signed-off-by: SeanNaren &lt;snarenthiran@nvidia.com&gt;

* remove print

Signed-off-by: SeanNaren &lt;snarenthiran@nvidia.com&gt;

* Add bf16

Signed-off-by: SeanNaren &lt;snarenthiran@nvidia.com&gt;

Signed-off-by: SeanNaren &lt;snarenthiran@nvidia.com&gt;
Signed-off-by: ericharper &lt;complex451@gmail.com&gt;
Signed-off-by: smajumdar &lt;smajumdar@nvidia.com&gt;
Signed-off-by: nithinraok &lt;nithinrao.koluguri@gmail.com&gt;
Signed-off-by: Xuesong Yang &lt;1646669+XuesongYang@users.noreply.github.com&gt;
Signed-off-by: Micha Livne &lt;mlivne@cs.toronto.edu&gt;
Signed-off-by: shanmugamr1992 &lt;shanmugamr1992@gmail.com&gt;
Signed-off-by: MaximumEntropy &lt;sandeep.subramanian.1@umontreal.ca&gt;
Signed-off-by: Jin Li &lt;liji@nvidia.com&gt;
Signed-off-by: subhankar-ghosh &lt;subhankar2321@gmail.com&gt;
Co-authored-by: github-actions[bot] &lt;41898282+github-actions[bot]@users.noreply.github.com&gt;
Co-authored-by: Eric Harper &lt;complex451@gmail.com&gt;
Co-authored-by: Somshubra Majumdar &lt;titu1994@gmail.com&gt;
Co-authored-by: Nithin Rao &lt;nithinrao.koluguri@gmail.com&gt;
Co-authored-by: Xuesong Yang &lt;1646669+XuesongYang@users.noreply.github.com&gt;
Co-authored-by: Micha Livne &lt;michalivne@users.noreply.github.com&gt;
Co-authored-by: shanmugamr1992 &lt;111910568+shanmugamr1992@users.noreply.github.com&gt;
Co-authored-by: MaximumEntropy &lt;sandeep.subramanian.1@umontreal.ca&gt;
Co-authored-by: pre-commit-ci[bot] &lt;66853113+pre-commit-ci[bot]@users.noreply.github.com&gt;
Co-authored-by: liji-nv &lt;59594262+liji-nv@users.noreply.github.com&gt;
Co-authored-by: Subhankar Ghosh &lt;subhankar2321@gmail.com&gt;
Signed-off-by: Hainan Xu &lt;hainanx@nvidia.com&gt;

* Fix BF16 test (#5162)

Signed-off-by: SeanNaren &lt;snarenthiran@nvidia.com&gt;

Signed-off-by: SeanNaren &lt;snarenthiran@nvidia.com&gt;
Signed-off-by: Hainan Xu &lt;hainanx@nvidia.com&gt;

* Fix errors in speaker diarization nemo docs (#5153)

* fix docs and docstrings for MSDD

Signed-off-by: Taejin Park &lt;tango4j@gmail.com&gt;

* fix nemo docs errors

Signed-off-by: Taejin Park &lt;tango4j@gmail.com&gt;

* reflected review comments

Signed-off-by: Taejin Park &lt;tango4j@gmail.com&gt;

Signed-off-by: Taejin Park &lt;tango4j@gmail.com&gt;
Signed-off-by: Hainan Xu &lt;hainanx@nvidia.com&gt;

* Add interleaved pipeline schedule to GPT (#5025)

* add virtual pipeline size to config

Signed-off-by: ericharper &lt;complex451@gmail.com&gt;

* convert model to list of modules

Signed-off-by: ericharper &lt;complex451@gmail.com&gt;

* convert model to list of modules

Signed-off-by: ericharper &lt;complex451@gmail.com&gt;

* convert model to list of modules

Signed-off-by: ericharper &lt;complex451@gmail.com&gt;

* update for list of modules

Signed-off-by: ericharper &lt;complex451@gmail.com&gt;

* add virtual to init

Signed-off-by: ericharper &lt;complex451@gmail.com&gt;

* update first last stage embedding all reduce

Signed-off-by: ericharper &lt;complex451@gmail.com&gt;

* update sequence parallel all reduce for virtual models

Signed-off-by: ericharper &lt;complex451@gmail.com&gt;

* runs but we get an error

Signed-off-by: ericharper &lt;complex451@gmail.com&gt;

* set virtual rank 0 after looping

Signed-off-by: ericharper &lt;complex451@gmail.com&gt;

* account for virtual when determinining first and last pipeline stages

Signed-off-by: ericharper &lt;complex451@gmail.com&gt;

* checkpointing for virtual models in progress

Signed-off-by: ericharper &lt;complex451@gmail.com&gt;

* add checkpoint hooks

Signed-off-by: ericharper &lt;complex451@gmail.com&gt;

* working on validation when resuming

Signed-off-by: ericharper &lt;complex451@gmail.com&gt;

* skip sanity val steps by default in config

Signed-off-by: ericharper &lt;complex451@gmail.com&gt;

* remove comment

Signed-off-by: ericharper &lt;complex451@gmail.com&gt;

* log number of params

Signed-off-by: ericharper &lt;complex451@gmail.com&gt;

* [pre-commit.ci] auto fixes from pre-commit.com hooks

for more information, see https://pre-commit.ci

* style

Signed-off-by: ericharper &lt;complex451@gmail.com&gt;

* check if self.model is a list

Signed-off-by: ericharper &lt;complex451@gmail.com&gt;

* make virtual pipeline default size None on init

Signed-off-by: ericharper &lt;complex451@gmail.com&gt;

* make virtual pipeline default to None in config

Signed-off-by: ericharper &lt;complex451@gmail.com&gt;

* remove ensure_divisibility call

Signed-off-by: ericharper &lt;complex451@gmail.com&gt;

* fix lgtm alerts

Signed-off-by: ericharper &lt;complex451@gmail.com&gt;

* remove num_sanity_val_steps from config

Signed-off-by: ericharper &lt;complex451@gmail.com&gt;

* default virtual pipeline size to none

Signed-off-by: ericharper &lt;complex451@gmail.com&gt;

* check for list

Signed-off-by: ericharper &lt;complex451@gmail.com&gt;

* update assert to make sure we are only doing virtual for gpt

Signed-off-by: ericharper &lt;complex451@gmail.com&gt;

* revert change to get_params_for_weight_decay

Signed-off-by: ericharper &lt;complex451@gmail.com&gt;

* [pre-commit.ci] auto fixes from pre-commit.com hooks

for more information, see https://pre-commit.ci

* init var

Signed-off-by: ericharper &lt;complex451@gmail.com&gt;

* add import guard for set virtual model parallel world size

Signed-off-by: ericharper &lt;complex451@gmail.com&gt;

* use import guard

Signed-off-by: ericharper &lt;complex451@gmail.com&gt;

* update calls to fake init in eval scripts

Signed-off-by: ericharper &lt;complex451@gmail.com&gt;

* add _get_fwd_bwd_function

Signed-off-by: ericharper &lt;complex451@gmail.com&gt;

* log all total model parameters

Signed-off-by: ericharper &lt;complex451@gmail.com&gt;

* remove unused import

Signed-off-by: ericharper &lt;complex451@gmail.com&gt;

Signed-off-by: ericharper &lt;complex451@gmail.com&gt;
Co-authored-by: pre-commit-ci[bot] &lt;66853113+pre-commit-ci[bot]@users.noreply.github.com&gt;
Signed-off-by: Hainan Xu &lt;hainanx@nvidia.com&gt;

* reduced to 14 inactive days to be stale for PRs. (#5165)

Signed-off-by: Xuesong Yang &lt;1646669+XuesongYang@users.noreply.github.com&gt;

Signed-off-by: Xuesong Yang &lt;1646669+XuesongYang@users.noreply.github.com&gt;
Signed-off-by: Hainan Xu &lt;hainanx@nvidia.com&gt;

* refactor TTS documentation organization and add new contents. (#5137)

* refactor TTS documentation organization and add new contents.
* fix asr api bug.
* fix broken links.
* fix unexpected indentation errors.
* fixed unexpected indentation.
* fixed broken paper reference.
* fixed cross-reference and typos.
* fixed toctree errors.
* revert to 'Augmentors'
* reordered TTS tutorial list in starthere.
* ordered api classes alphabetically for each Section.
* fixed underscore typo for fastpitch checkpoint.

Signed-off-by: Xuesong Yang &lt;1646669+XuesongYang@users.noreply.github.com&gt;

* upcase 'Tuning'

Signed-off-by: Xuesong Yang &lt;1646669+XuesongYang@users.noreply.github.com&gt;

* fixed typo for RAD-TTS Aligner

Signed-off-by: Xuesong Yang &lt;1646669+XuesongYang@users.noreply.github.com&gt;

* reorder aligner section after mel-gen and vocoders in models.rst.

Signed-off-by: Xuesong Yang &lt;1646669+XuesongYang@users.noreply.github.com&gt;

* clarify Mixer-TTS-X and reorder model descriptions alphabetically.

Signed-off-by: Xuesong Yang &lt;1646669+XuesongYang@users.noreply.github.com&gt;

* fixed some typos and formats.

Signed-off-by: Xuesong Yang &lt;1646669+XuesongYang@users.noreply.github.com&gt;

* removed old megatron.rst.

Signed-off-by: Xuesong Yang &lt;1646669+XuesongYang@users.noreply.github.com&gt;

* fixed block quote ends without a blank line warnings.

Signed-off-by: Xuesong Yang &lt;1646669+XuesongYang@users.noreply.github.com&gt;

* remove duplicate reference; fixed missing key nlp-megatron-shoeybi2019megatron

Signed-off-by: Xuesong Yang &lt;1646669+XuesongYang@users.noreply.github.com&gt;

* Revert "removed old megatron.rst."

This reverts commit c5ea1dc3f23272eecfe8040e3abfa54fa122cf73.

Signed-off-by: Xuesong Yang &lt;1646669+XuesongYang@users.noreply.github.com&gt;

* removed Russian, a hyphen, and add a note about G2P in tts/…
diff --git a/nemo/collections/asr/losses/rnnt.py b/nemo/collections/asr/losses/rnnt.py
@@ -38,9 +38,10 @@
 from nemo.collections.asr.losses.rnnt_pytorch import MultiblankRNNTLossPytorch, RNNTLossPytorch, TDTLossPytorch
 from nemo.core.classes import Loss, typecheck
 from nemo.core.neural_types import LabelsType, LengthsType, LogprobsType, LossType, NeuralType
+from nemo.core.utils import numba_utils
 from nemo.core.utils.k2_utils import K2_INSTALLATION_MESSAGE
 from nemo.core.utils.numba_utils import NUMBA_INSTALLATION_MESSAGE
-from nemo.utils import logging, model_utils
+from nemo.utils import logging, logging_mode, model_utils
 
 try:
     import warprnnt_pytorch as warprnnt
@@ -98,7 +99,7 @@ class RNNTLossConfig:
         min_version='0.53.0',
         is_available=NUMBA_RNNT_AVAILABLE,
         installation_msg=NUMBA_INSTALLATION_MESSAGE,
-        force_float32=True,
+        force_float32=not numba_utils.NUMBA_FP16_SUPPORTED,
     ),
     "pytorch": RNNTLossConfig(
         loss_name="pytorch",
@@ -387,7 +388,7 @@ def __init__(self, num_classes, reduction: str = 'mean_batch', loss_name: str =
                 for the standard "blank" symbol. In particular, say V is the number of non-blank tokens in
                 the vocabulary, then in the case of,
                 standard RNNT: num_classes = V
-                multiblank RNNT: num_classes = V + number-big-blanks (since we store big-blanks before 
+                multiblank RNNT: num_classes = V + number-big-blanks (since we store big-blanks before
                                  standard blank, and the standard blank is the last symbol in the vocab)
                 TDT: num_classes = V. Note, V here does not include any of the "duration outputs".
 
@@ -413,6 +414,7 @@ def __init__(self, num_classes, reduction: str = 'mean_batch', loss_name: str =
         self.reduction = reduction
         self._loss = resolve_rnnt_loss(loss_name, blank_idx=self._blank, loss_kwargs=loss_kwargs)
         self._force_float32 = RNNT_LOSS_RESOLVER[loss_name].force_float32
+        self._fp16_compat_checked = False
 
     def reduce(self, losses, target_lengths):
 
@@ -442,8 +444,22 @@ def forward(self, log_probs, targets, input_lengths, target_lengths):
         max_targets_len = target_lengths.max()
 
         # Force cast joint to float32
-        # TODO: Remove once Numba supports FP16
-        if self._force_float32 and log_probs.dtype != torch.float32:
+        if not self._force_float32 and numba_utils.NUMBA_FP16_SUPPORTED:
+            # Execute the kernel in fp16
+            pass
+        elif self._force_float32 and log_probs.dtype != torch.float32:
+            # Log just once if fp16 tensor was passed and fp16 Numba CUDA loss could not be used.
+            if log_probs.dtype == torch.float16 and not self._fp16_compat_checked:
+                _, reason = numba_utils.is_numba_cuda_fp16_supported(return_reason=True)
+                logging.warning(
+                    f"Provided RNNT Joint tensor is of dtype {log_probs.dtype}, but RNNT loss could not be calculated "
+                    f"in fp16 due to following reason stated below. Loss will be calculated in fp32. \n\n"
+                    f"{reason}",
+                    mode=logging_mode.ONCE,
+                )
+                self._fp16_compat_checked = True
+
+            # Upcast the activation tensor and compute loss and grads in fp32
             logits_orig = log_probs
             log_probs = log_probs.float()
             del logits_orig  # save memory *before* computing the loss
diff --git a/nemo/collections/asr/losses/rnnt_pytorch.py b/nemo/collections/asr/losses/rnnt_pytorch.py
@@ -47,7 +47,12 @@ def __init__(self, blank, reduction):
         self.reduction = reduction
 
     def forward(self, acts, labels, act_lens, label_lens):
+        # CPU patch for FP16
+        if not acts.is_cuda and acts.dtype == torch.float16:
+            acts = acts.float()
+
         acts = torch.log_softmax(acts, -1)
+
         forward_logprob = self.compute_forward_prob(acts, labels, act_lens, label_lens)
         losses = -forward_logprob
         if self.reduction == 'mean_batch':
diff --git a/nemo/collections/asr/parts/numba/rnnt_loss/rnnt.py b/nemo/collections/asr/parts/numba/rnnt_loss/rnnt.py
@@ -186,7 +186,7 @@ def rnnt_loss_gpu(
 
     # Select GPU index
     cuda.select_device(acts.device.index)
-    gpu_workspace = torch.zeros(gpu_size, device=acts.device, dtype=acts.dtype, requires_grad=False)
+    gpu_workspace = torch.zeros(gpu_size, device=acts.device, dtype=torch.float32, requires_grad=False)
 
     ### VIEW TENSORS AS VECTORS FOR POINTER INDEXING ###
     acts, acts_shape = rnnt_helper.flatten_tensor(acts)
diff --git a/nemo/collections/asr/parts/numba/rnnt_loss/rnnt_numpy.py b/nemo/collections/asr/parts/numba/rnnt_loss/rnnt_numpy.py
@@ -344,10 +344,15 @@ def forward(self, acts, labels, act_lens, label_lens):
         _assert_no_grad(label_lens)
         certify_inputs(acts, labels, act_lens, label_lens)
 
+        # CPU Patch for fp16 - force cast to fp32
+        if not acts.is_cuda and acts.dtype == torch.float16:
+            acts = acts.float()
+
         if self.clamp > 0.0:
             acts = LogSoftmaxGradModification.apply(acts, self.clamp)
 
         acts = torch.nn.functional.log_softmax(acts, -1)
+
         return self.rnnt(acts, labels, act_lens, label_lens, self.blank, self.fastemit_lambda)
 
 
diff --git a/nemo/collections/asr/parts/numba/rnnt_loss/rnnt_pytorch.py b/nemo/collections/asr/parts/numba/rnnt_loss/rnnt_pytorch.py
@@ -57,7 +57,7 @@ def forward(ctx, acts, labels, act_lens, label_lens, blank, reduction, fastemit_
         loss_func = rnnt.rnnt_loss_gpu if is_cuda else rnnt.rnnt_loss_cpu
         grads = torch.zeros_like(acts) if acts.requires_grad else None
         minibatch_size = acts.size(0)
-        costs = torch.zeros(minibatch_size, device=acts.device, dtype=acts.dtype)
+        costs = torch.zeros(minibatch_size, device=acts.device, dtype=torch.float32)
 
         loss_func(
             acts,
@@ -119,7 +119,6 @@ def forward(
         label_lens: Tensor of (batch) containing label length of each example
         fastemit_lambda: Float scaling factor for FastEmit regularization. Refer to
             FastEmit: Low-latency Streaming ASR with Sequence-level Emission Regularization.
-
         durations: list of durations for TDT model, must include 0 and 1, e.g.
             [0, 1, 2, 3, 4].
         sigma: hyper-parameter for logit under-normalization method for training
@@ -417,6 +416,10 @@ def forward(self, acts, labels, act_lens, label_lens):
         label_lens: Tensor of (batch) containing label length of each example
         """
         if not acts.is_cuda:
+            # Force FP32 until log_softmax() is implemented for fp16 on CPU
+            if acts.dtype == torch.float16:
+                acts = acts.float()
+
             # Since CPU requires log_softmax to be computed explicitly, we need to perform grad clipping
             # *after* we have obtained the gradients of loss(logsoftmax()).
             # This is highly wasteful since it requires a copy of the entire joint tensor which is expensive.
diff --git a/nemo/collections/asr/parts/numba/rnnt_loss/utils/cpu_utils/cpu_rnnt.py b/nemo/collections/asr/parts/numba/rnnt_loss/utils/cpu_utils/cpu_rnnt.py
@@ -231,8 +231,8 @@ def cost_and_grad_kernel(
         )
 
         # Scale llForward by FastEmit lambda
-        llForward *= 1.0 + self.fastemit_lambda_
-        llBackward *= 1.0 + self.fastemit_lambda_
+        llForward += llForward * self.fastemit_lambda_
+        llBackward += llBackward * self.fastemit_lambda_
 
         diff = (llForward - llBackward).abs()
         if diff > 0.1:
@@ -300,6 +300,10 @@ def compute_betas_and_grads(
         Returns:
             Loglikelihood of the forward variable and inplace updates the grad tensor.
         """
+        # Patch for CPU + fp16
+        if log_probs.dtype == torch.float16 and not log_probs.is_cuda:
+            log_probs = log_probs.float()
+
         idx = CpuRNNT_index(U, self.maxU_, self.minibatch_, self.alphabet_size_, self.batch_first)
         betas[idx(T - 1, U - 1)] = log_probs[idx(T - 1, U - 1) * 2]
 
diff --git a/nemo/collections/asr/parts/numba/rnnt_loss/utils/rnnt_helper.py b/nemo/collections/asr/parts/numba/rnnt_loss/utils/rnnt_helper.py
@@ -30,6 +30,7 @@
 import math
 from typing import Optional, Tuple
 
+import numba
 import torch
 from numba import cuda
 
@@ -112,7 +113,7 @@ def compute_costs_data(source: torch.Tensor, dest: torch.Tensor, fastemit_lambda
     if idx < length:
         copy_data_1d(source, dest, idx)
         dest[idx] *= -1.0
-        dest[idx] *= 1.0 + fastemit_lambda
+        dest[idx] *= numba.float32(1.0 + fastemit_lambda)
 
 
 def get_workspace_size(
diff --git a/nemo/core/utils/numba_utils.py b/nemo/core/utils/numba_utils.py
@@ -17,6 +17,8 @@
 import operator
 import os
 
+from typing import Tuple, Union
+
 from nemo.utils import model_utils
 
 # Prevent Numba CUDA logs from showing at info level
@@ -26,6 +28,11 @@
 __NUMBA_DEFAULT_MINIMUM_VERSION__ = "0.53.0"
 __NUMBA_MINIMUM_VERSION__ = os.environ.get("NEMO_NUMBA_MINVER", __NUMBA_DEFAULT_MINIMUM_VERSION__)
 
+__NUMBA_MINIMUM_VERSION_FP16_SUPPORTED__ = "0.57.0"
+NUMBA_FP16_SUPPORTED = model_utils.check_lib_version(
+    'numba', __NUMBA_MINIMUM_VERSION_FP16_SUPPORTED__, operator=operator.ge
+)[0]
+
 
 NUMBA_INSTALLATION_MESSAGE = (
     "Could not import `numba`.\n"
@@ -148,6 +155,35 @@ def numba_cuda_is_supported(min_version: str) -> bool:
         return False
 
 
+def is_numba_cuda_fp16_supported(return_reason: bool = False) -> Union[bool, Tuple[bool, str]]:
+    """
+    Utility method that returns a bool, stating if FP16 is supported for numba cuda kernels or not.
+
+    Returns:
+        bool, whether Numba CUDA will support fp16 or not.
+    """
+    reason = ""
+    use_nvidia_binding = os.environ.get('NUMBA_CUDA_USE_NVIDIA_BINDING', None)
+    if use_nvidia_binding is not None:
+        use_nvidia_binding = use_nvidia_binding.lower() == "1"
+        reason += "Env variable `NUMBA_CUDA_USE_NVIDIA_BINDING` is available and set to `1`. "
+    else:
+        use_nvidia_binding = False
+        reason += "Env variable `NUMBA_CUDA_USE_NVIDIA_BINDING` is not available or has not set to `1`."
+
+    if NUMBA_FP16_SUPPORTED:
+        reason += f"Numba CUDA FP16 is supported in installed numba version."
+    else:
+        reason += f"Numba CUDA FP16 is not supported in installed numba version."
+
+    result = use_nvidia_binding and NUMBA_FP16_SUPPORTED
+
+    if return_reason:
+        return result, reason
+    else:
+        return result
+
+
 def skip_numba_cuda_test_if_unsupported(min_version: str):
     """
     Helper method to skip pytest test case if numba cuda is not supported.
diff --git a/tests/collections/asr/numba/rnnt_loss/test_rnnt_pytorch.py b/tests/collections/asr/numba/rnnt_loss/test_rnnt_pytorch.py
diff --git a/tests/collections/asr/numba/rnnt_loss/utils/test_gpu_rnnt_kernel.py b/tests/collections/asr/numba/rnnt_loss/utils/test_gpu_rnnt_kernel.py
diff --git a/tests/collections/asr/numba/rnnt_loss/utils/test_reduce.py b/tests/collections/asr/numba/rnnt_loss/utils/test_reduce.py
diff --git a/tests/collections/asr/numba/rnnt_loss/utils/test_rnnt_helper.py b/tests/collections/asr/numba/rnnt_loss/utils/test_rnnt_helper.py