NVIDIA-NeMo · ahmadki · Oct 14, 2025 · Oct 16, 2025 · Oct 24, 2025 · Oct 23, 2025
@@ -46,3 +46,7 @@ code_snapshots*/
 # Runtime env
 *runtime_env.yaml
 !default_runtime_env.yaml
+
+# Local environment variables
+.env
+.envrc
@@ -1,6 +1,6 @@
 [submodule "3rdparty/Megatron-LM"]
 	path = 3rdparty/Megatron-LM-workspace/Megatron-LM
-	url = https://github.com/terrykong/Megatron-LM.git
+	url = https://github.com/ahmadki/Megatron-LM.git
 	branch = yuya/nemo-rl-use-dev
 	shallow = true
 [submodule "3rdparty/Megatron-Bridge"]

@@ -37,11 +37,12 @@
     "pyyaml>=6.0.2",
     "tqdm>=4.67.1",
     "hydra-core>1.3,<=1.3.2",
-    "megatron-core[dev,mlm]>=0.15.0a0,<0.16.0",
+    "megatron-core[dev,mlm]>=0.15.0a0,<0.17.0",
     "qwen-vl-utils",
     "transformer-engine[pytorch]>=2.9.0a0,<2.10.0",
     "mamba-ssm",
     "nvidia-resiliency-ext",
+    "transformers>=4.57.1",
     "causal-conv1d",
 ]
 

@@ -157,6 +157,7 @@ policy:
       overlap_param_gather: true
       use_custom_fsdp: false
       data_parallel_sharding_strategy: "optim_grads_params"
+      average_in_collective: true
 
     fp8_cfg: null
 

@@ -1,6 +1,6 @@
 defaults:
-  - ../../grpo_math_1B.yaml
-  - grpo-deepscaler-1.5b-8K.yaml
+- ../../grpo_math_1B.yaml
+- grpo-deepscaler-1.5b-8K.yaml
 loss_fn:
   reference_policy_kl_penalty: 0.001
   ratio_clip_max: 0.28

@@ -1,6 +1,6 @@
 defaults:
-  - ../../grpo_math_1B.yaml
-  - grpo-deepscaler-1.5b-8K.yaml
+- ../../grpo_math_1B.yaml
+- grpo-deepscaler-1.5b-8K.yaml
 loss_fn:
   reference_policy_kl_penalty: 0.0001
   ratio_clip_max: 0.28

@@ -0,0 +1,47 @@
+defaults: ../../grpo_math_1B.yaml
+grpo:
+  num_prompts_per_step: 64
+  num_generations_per_prompt: 32
+checkpointing:
+  checkpoint_dir: results/grpo-qwen3-next-80ba3b-8n8g-megatron
+policy:
+  model_name: Qwen/Qwen3-Next-80B-A3B-Instruct
+  train_micro_batch_size: 1
+  max_total_sequence_length: 4096
+  dtensor_cfg:
+    enabled: false
+  optimizer: null
+  scheduler: null
+  sequence_packing:
+    enabled: false
+    algorithm: modified_ffd
+  make_sequence_length_divisible_by: ${policy.megatron_cfg.tensor_model_parallel_size}
+  megatron_cfg:
+    enabled: true
+    converter_type: Qwen3NextForCausalLM
+    tensor_model_parallel_size: 2
+    pipeline_model_parallel_size: 4
+    expert_model_parallel_size: 4
+    sequence_parallel: true
+    optimizer:
+      lr: 3.0e-07
+      min_lr: 3.0e-08
+    scheduler:
+      lr_warmup_iters: 50
+      lr_warmup_init: 3.0e-08
+    env_vars:
+      PYTORCH_CUDA_ALLOC_CONF: expandable_segments:False
+  generation:
+    vllm_cfg:
+      tensor_parallel_size: 4
+      gpu_memory_utilization: 0.7
+logger:
+  log_dir: logs/grpo-qwen3-next-80ba3b-8n8g-megatron
+  wandb_enabled: true
+  tensorboard_enabled: true
+  wandb:
+    project: nemo-rl
+    name: grpo-qwen3-next-80ba3b-8n8g-megatron
+cluster:
+  gpus_per_node: 8
+  num_nodes: 8
@@ -0,0 +1,47 @@
+defaults: ../../sft.yaml
+sft:
+  max_num_steps: 1000000
+  val_period: 50
+checkpointing:
+  checkpoint_dir: results/sft-qwen3-next-80ba3b-instruct-8n8g-megatron
+  save_period: 50
+policy:
+  model_name: Qwen/Qwen3-Next-80B-A3B-Instruct
+  tokenizer:
+    name: Qwen/Qwen3-Next-80B-A3B-Instruct
+    chat_template: default
+  train_global_batch_size: 512
+  max_total_sequence_length: 4096
+  dtensor_cfg:
+    enabled: false
+  make_sequence_length_divisible_by: ${policy.megatron_cfg.tensor_model_parallel_size}
+  optimizer: null
+  megatron_cfg:
+    enabled: true
+    converter_type: Qwen3NextForCausalLM
+    pipeline_model_parallel_size: 2
+    expert_model_parallel_size: 8
+    optimizer:
+      lr: 2.0e-05
+      min_lr: 1.99999e-05
+      weight_decay: 0.01
+      bf16: true
+    scheduler:
+      lr_warmup_init: 1.9999e-65
+data:
+  dataset_name: openmathinstruct2
+  prompt_file: examples/prompts/math.txt
+  split: train_1M
+  add_generation_prompt: true
+  output_key: generated_solution
+  seed: 42
+logger:
+  log_dir: logs/sft-qwen3-next-80ba3b-instruct-8n8g-megatron
+  wandb:
+    project: nemo-rl
+    name: sft-qwen3-next-80ba3b-instruct-8n8g-megatron
+  tensorboard:
+    log_dir: tb_logs-sft-dev-openmathinstruct2
+cluster:
+  num_nodes: 8
+  gpus_per_node: 8
@@ -15,7 +15,7 @@ sft:
 checkpointing:
   enabled: true
   checkpoint_dir: "results/sft"
-  metric_name: "val:val_loss" # one of "val:" or "train:" followed by the metric name
+  metric_name: "val:val_loss" ## set to null to save most recent k checkpoints
   higher_is_better: false
   keep_top_k: 3
   save_period: 10
@@ -37,7 +37,6 @@ policy:
 
   dtensor_cfg:
     enabled: true
-    env_vars: {}
     cpu_offload: False
     sequence_parallel: false
     activation_checkpointing: false
@@ -76,7 +75,6 @@ policy:
   ## ignored since enabled=false, but needed for testing purposes
   megatron_cfg:
     enabled: false
-    env_vars: {}
     empty_unused_memory_level: 1
     activation_checkpointing: false
     tensor_model_parallel_size: 1
@@ -97,7 +95,7 @@ policy:
     apply_rope_fusion: True
     # gives ~25% training perf speedup with sequence packing and apply_rope_fusion
     bias_activation_fusion: True
-    defer_fp32_logits: False
+    defer_fp32_logits: null
 
     optimizer:
       optimizer: "adam"
@@ -139,6 +137,7 @@ policy:
       grad_reduce_in_fp32: false
       overlap_grad_reduce: true
       overlap_param_gather: true
+      average_in_collective: true
       data_parallel_sharding_strategy: "optim_grads_params"
       use_custom_fsdp: false
 

@@ -33,11 +33,6 @@ grpo:
 
 loss_fn:
   reference_policy_kl_penalty: 0.01
-  # Can be set to k1, k2, k3
-  # For more details, see http://joschu.net/blog/kl-approx.html
-  reference_policy_kl_type: "k3"
-  kl_input_clamp_value: 20.0
-  kl_output_clamp_value: 10.0
   ratio_clip_min: 0.2
   ratio_clip_max: 0.2
   ratio_clip_c: null
@@ -50,7 +45,7 @@ loss_fn:
 checkpointing:
   enabled: true
   checkpoint_dir: "results/clevr_grpo_${policy.model_name}"
-  metric_name: "val:accuracy" # one of "val:" or "train:" followed by the metric name
+  metric_name: "val_reward"
   higher_is_better: true
   keep_top_k: 3
   save_period: 10
@@ -101,7 +96,7 @@ policy:
     apply_rope_fusion: True
     # gives ~25% training perf speedup with sequence packing and apply_rope_fusion
     bias_activation_fusion: True
-    defer_fp32_logits: False
+    defer_fp32_logits: null
 
     optimizer:
       optimizer: "adam"
@@ -143,6 +138,7 @@ policy:
       grad_reduce_in_fp32: false
       overlap_grad_reduce: true
       overlap_param_gather: true
+      average_in_collective: true
       use_custom_fsdp: false
       data_parallel_sharding_strategy: "optim_grads_params"
 

@@ -30,11 +30,6 @@ grpo:
     max_trajectory_age_steps: 1
 loss_fn:
   reference_policy_kl_penalty: 0.01
-  # Can be set to k1, k2, k3
-  # For more details, see http://joschu.net/blog/kl-approx.html
-  reference_policy_kl_type: "k3"
-  kl_input_clamp_value: 20.0
-  kl_output_clamp_value: 10.0
   ratio_clip_min: 0.2
   ratio_clip_max: 0.2
   ratio_clip_c: null
@@ -45,7 +40,7 @@ loss_fn:
 checkpointing:
   enabled: true
   checkpoint_dir: results/clevr_grpo_${policy.model_name}
-  metric_name: val:accuracy # one of "val:" or "train:" followed by the metric name
+  metric_name: val_reward
   higher_is_better: true
   keep_top_k: 3
   save_period: 10
@@ -83,6 +78,7 @@ policy:
     logprob_mb_tokens: ${mul:${policy.max_total_sequence_length}, ${policy.logprob_batch_size}}
     algorithm: modified_first_fit_decreasing
     sequence_length_round: 64
+  optimizer: null
   scheduler:
   - name: torch.optim.lr_scheduler.LinearLR
     kwargs:
@@ -142,7 +138,7 @@ policy:
     apply_rope_fusion: true
     # gives ~25% training perf speedup with sequence packing and apply_rope_fusion
     bias_activation_fusion: True
-    defer_fp32_logits: False
+    defer_fp32_logits: null
     optimizer:
       optimizer: adam
       lr: 2.0e-07
@@ -173,6 +169,7 @@ policy:
       grad_reduce_in_fp32: false
       overlap_grad_reduce: false
       overlap_param_gather: true
+      average_in_collective: true
       use_custom_fsdp: false
       data_parallel_sharding_strategy: optim_grads_params
 data:
+1 −0		megatron/core/model_parallel_config.py
+1 −1		megatron/core/pipeline_parallel/schedules.py
+16 −1		tools/checkpoint/checkpoint_inspector.py