NVIDIA · ericharper · Aug 10, 2023 · Aug 9, 2023 · Aug 9, 2023
diff --git a/nemo/collections/nlp/models/language_modeling/megatron_gpt_model.py b/nemo/collections/nlp/models/language_modeling/megatron_gpt_model.py
@@ -662,7 +662,9 @@ def _append_sequence_parallel_module_grads(self, module, grads):
         """ Helper method for allreduce_sequence_parallel_gradients"""
 
         for param in module.parameters():
-            sequence_parallel_param = getattr(param, 'sequence_parallel', False)
+            sequence_parallel_param = getattr(param, 'sequence_parallel', False) or getattr(
+                param, 'sequence_parallel_enabled', False
+            )
             # (@adithyare) adapter training now extends MegatronGPTModel
             # so we have to add this check here to ensure we do not
             # perform all_reduce when grad is None.

diff --git a/nemo/collections/nlp/modules/common/megatron/fused_layer_norm.py b/nemo/collections/nlp/modules/common/megatron/fused_layer_norm.py
@@ -15,8 +15,7 @@
 
 
 try:
-    from apex.normalization.fused_layer_norm import MixedFusedLayerNorm
-    from apex.transformer.layers.layer_norm import FastLayerNorm
+    from apex.transformer.layers.layer_norm import FastLayerNorm, MixedFusedLayerNorm
 
     HAVE_APEX = True
 except (ImportError, ModuleNotFoundError):
@@ -59,4 +58,4 @@ def get_layer_norm(hidden_size, eps=1e-5, persist_layer_norm=False, sequence_par
     if persist_layer_norm:
         return FastLayerNorm(hidden_size, eps, sequence_parallel_enabled=sequence_parallel)
     else:
-        return MixedFusedLayerNorm(hidden_size, eps, sequence_parallel_enbaled=sequence_parallel)
+        return MixedFusedLayerNorm(hidden_size, eps, sequence_parallel_enabled=sequence_parallel)