NVIDIA-NeMo · ko3n1g · Feb 25, 2026 · Feb 24, 2026 · Feb 24, 2026
diff --git a/3rdparty/Megatron-LM b/3rdparty/Megatron-LM
diff --git a/src/megatron/bridge/models/deepseek/deepseek_v2_bridge.py b/src/megatron/bridge/models/deepseek/deepseek_v2_bridge.py
@@ -69,7 +69,6 @@ def provider_bridge(self, hf_pretrained: PreTrainedCausalLM) -> MLAModelProvider
         provider.cross_entropy_loss_fusion = True
         provider.masked_softmax_fusion = True
         provider.persist_layer_norm = True
-        provider.async_tensor_model_parallel_allreduce = True
         provider.gradient_accumulation_fusion = True
 
         provider.hidden_dropout = 0.0

diff --git a/src/megatron/bridge/models/deepseek/deepseek_v3_bridge.py b/src/megatron/bridge/models/deepseek/deepseek_v3_bridge.py
@@ -74,7 +74,6 @@ def provider_bridge(self, hf_pretrained: PreTrainedCausalLM) -> MLAModelProvider
         provider.cross_entropy_loss_fusion = True
         provider.masked_softmax_fusion = True
         provider.persist_layer_norm = True
-        provider.async_tensor_model_parallel_allreduce = True
         provider.gradient_accumulation_fusion = True
 
         provider.hidden_dropout = 0.0

diff --git a/src/megatron/bridge/models/kimi/kimi_provider.py b/src/megatron/bridge/models/kimi/kimi_provider.py
@@ -109,7 +109,6 @@ class KimiK2Provider(MLATransformerConfig, GPTModelProvider):
     layernorm_epsilon: float = 1e-6
     bf16: bool = True
     params_dtype: torch.dtype = torch.bfloat16
-    async_tensor_model_parallel_allreduce: bool = True
     attention_softmax_in_fp32: bool = False
     persist_layer_norm: bool = True
     num_layers_in_first_pipeline_stage: Optional[int] = None

diff --git a/src/megatron/bridge/models/model_provider.py b/src/megatron/bridge/models/model_provider.py
@@ -466,7 +466,6 @@ class ModelParallelKwargs(TypedDict, total=False):
     context_parallel_size: int
     expert_model_parallel_size: int
     expert_tensor_parallel_size: int
-    moe_extended_tp: bool
     sequence_parallel: bool
     virtual_pipeline_model_parallel_size: int | None
     hierarchical_context_parallel_sizes: list[int] | None

diff --git a/src/megatron/bridge/models/qwen_vl/qwen3_vl_provider.py b/src/megatron/bridge/models/qwen_vl/qwen3_vl_provider.py
@@ -244,7 +244,6 @@ class Qwen3VLMoEModelProvider(GPTModelProvider):
     bias_dropout_fusion: bool = True
     masked_softmax_fusion: bool = False  # Don't fuse masked softmax (Qwen specific)
     deallocate_pipeline_outputs: bool = True
-    async_tensor_model_parallel_allreduce: bool = True
     distribute_saved_activations: bool = False
     cp_comm_type: str = "p2p"
 

diff --git a/src/megatron/bridge/recipes/nemotronh/nemotron_3_nano.py b/src/megatron/bridge/recipes/nemotronh/nemotron_3_nano.py
@@ -160,7 +160,6 @@ def nemotron_3_nano_pretrain_config() -> ConfigContainer:
 
     cfg.model.init_method_std = 0.0173
     cfg.model.apply_rope_fusion = False
-    cfg.model.async_tensor_model_parallel_allreduce = True
     cfg.model.gradient_accumulation_fusion = True
     cfg.model.use_fused_weighted_squared_relu = True
 
@@ -331,7 +330,6 @@ def _nemotron_3_nano_finetune_common(
         expert_tensor_parallel_size=expert_tensor_parallelism,
         expert_model_parallel_size=expert_model_parallelism,
         apply_rope_fusion=False,
-        async_tensor_model_parallel_allreduce=True,
         attention_backend="fused",
         gradient_accumulation_fusion=True,
         init_method_std=0.0173,

diff --git a/src/megatron/bridge/training/model_load_save.py b/src/megatron/bridge/training/model_load_save.py
@@ -382,7 +382,6 @@ def load_megatron_model(
     model_cfg.context_parallel_size = 1
     model_cfg.expert_model_parallel_size = 1
     model_cfg.expert_tensor_parallel_size = 1
-    model_cfg.moe_extended_tp = False
     model_cfg.sequence_parallel = False
     model_cfg.perform_initialization = False
     model_cfg.virtual_pipeline_model_parallel_size = None

diff --git a/tests/unit_tests/peft/test_utils.py b/tests/unit_tests/peft/test_utils.py
@@ -62,7 +62,6 @@ def __init__(self):
         self.perform_initialization = True
         self.use_cpu_initialization = False
         self.gradient_accumulation_fusion = False
-        self.async_tensor_model_parallel_allreduce = False
 
 
 class MockColumnParallelLinear(ColumnParallelLinear):

diff --git a/tests/unit_tests/training/test_model_load_save.py b/tests/unit_tests/training/test_model_load_save.py
@@ -525,7 +525,6 @@ def test_load_megatron_model_resets_defaults(self, mock_load_model_config, mock_
         cfg.context_parallel_size = 2
         cfg.expert_model_parallel_size = 2
         cfg.expert_tensor_parallel_size = 2
-        cfg.moe_extended_tp = True
         cfg.sequence_parallel = True
         cfg.virtual_pipeline_model_parallel_size = 2
         cfg.hierarchical_context_parallel_sizes = [2, 2]
@@ -545,7 +544,6 @@ def test_load_megatron_model_resets_defaults(self, mock_load_model_config, mock_
         assert cfg.context_parallel_size == 1
         assert cfg.expert_model_parallel_size == 1
         assert cfg.expert_tensor_parallel_size == 1
-        assert cfg.moe_extended_tp is False
         assert cfg.sequence_parallel is False
         assert cfg.virtual_pipeline_model_parallel_size is None
         assert cfg.hierarchical_context_parallel_sizes is None
@@ -561,7 +559,6 @@ def test_load_megatron_model_applies_overrides(self, mock_load_model_config, moc
         cfg.context_parallel_size = 1
         cfg.expert_model_parallel_size = 1
         cfg.expert_tensor_parallel_size = 1
-        cfg.moe_extended_tp = False
         cfg.sequence_parallel = False
         cfg.virtual_pipeline_model_parallel_size = None
         cfg.hierarchical_context_parallel_sizes = None
+1 −1		.github/copy-pr-bot.yaml
+0 −1		examples/gpt3/gpt_config.yaml
+0 −20		examples/multimodal/energon_util.py
+25 −1		megatron/core/inference/batch_dimensions_utils.py
+0 −8		megatron/core/model_parallel_config.py
+1 −9		megatron/core/models/bert/bert_model.py
+6 −5		megatron/core/models/multimodal/llava_model.py
+14 −2		megatron/core/optimizer/distrib_optimizer.py
+0 −32		megatron/core/ssm/mamba_mixer.py
+0 −22		megatron/core/tensor_parallel/layers.py
+8 −1		megatron/training/arguments.py
+0 −9		megatron/training/yaml_arguments.py
+2 −1		tests/unit_tests/inference/engines/test_dynamic_engine.py
+0 −3		tests/unit_tests/models/test_mamba_moe_model.py
+0 −2		tests/unit_tests/ssm/test_mamba_context_parallel.py
+1 −1		tests/unit_tests/ssm/test_mamba_mixer.py
+130 −0		tests/unit_tests/test_optimizer.py
+0 −1		tests/unit_tests/transformer/moe/test_upcycling.py
+0 −2		tests/unit_tests/transformer/test_multi_token_prediction.py
+1 −2		tools/checkpoint/saver_base.py
+1 −2		tools/checkpoint/saver_legacy.py
+1 −2		tools/checkpoint/saver_llava.py