NVIDIA-NeMo
diff --git a/‎examples/configs/recipes/llm/performance/grpo-deepseek-v3-32n8g.yaml‎
Lines changed: 57 additions & 0 deletions b/‎examples/configs/recipes/llm/performance/grpo-deepseek-v3-32n8g.yaml‎
Lines changed: 57 additions & 0 deletions
diff --git a/‎examples/configs/recipes/llm/performance/grpo-deepseek-v3-64n8g-async-1off.yaml‎
Lines changed: 33 additions & 0 deletions b/‎examples/configs/recipes/llm/performance/grpo-deepseek-v3-64n8g-async-1off.yaml‎
Lines changed: 33 additions & 0 deletions
diff --git a/‎examples/configs/recipes/llm/performance/grpo-llama3.1-8b-instruct-2n8g-async-1off.yaml‎
Lines changed: 27 additions & 0 deletions b/‎examples/configs/recipes/llm/performance/grpo-llama3.1-8b-instruct-2n8g-async-1off.yaml‎
Lines changed: 27 additions & 0 deletions
diff --git a/‎examples/configs/recipes/llm/performance/grpo-llama3.1-8b-instruct-2n8g.yaml‎
Lines changed: 54 additions & 0 deletions b/‎examples/configs/recipes/llm/performance/grpo-llama3.1-8b-instruct-2n8g.yaml‎
Lines changed: 54 additions & 0 deletions
diff --git a/‎examples/configs/recipes/llm/performance/grpo-qwen3-235b-16n8g.yaml‎
Lines changed: 59 additions & 0 deletions b/‎examples/configs/recipes/llm/performance/grpo-qwen3-235b-16n8g.yaml‎
Lines changed: 59 additions & 0 deletions
diff --git a/‎examples/configs/recipes/llm/performance/grpo-qwen3-235b-32n8g-async-1off.yaml‎
Lines changed: 35 additions & 0 deletions b/‎examples/configs/recipes/llm/performance/grpo-qwen3-235b-32n8g-async-1off.yaml‎
Lines changed: 35 additions & 0 deletions
diff --git a/‎examples/configs/recipes/llm/performance/grpo-qwen3-30ba3b-4n8g-async-1off.yaml‎
Lines changed: 33 additions & 0 deletions b/‎examples/configs/recipes/llm/performance/grpo-qwen3-30ba3b-4n8g-async-1off.yaml‎
Lines changed: 33 additions & 0 deletions
diff --git a/‎examples/configs/recipes/llm/performance/grpo-qwen3-30ba3b-4n8g.yaml‎
Lines changed: 44 additions & 0 deletions b/‎examples/configs/recipes/llm/performance/grpo-qwen3-30ba3b-4n8g.yaml‎
Lines changed: 44 additions & 0 deletions
diff --git a/‎examples/configs/recipes/llm/performance/grpo-qwen3-32b-4n8g.yaml‎
Lines changed: 41 additions & 0 deletions b/‎examples/configs/recipes/llm/performance/grpo-qwen3-32b-4n8g.yaml‎
Lines changed: 41 additions & 0 deletions
@@ -0,0 +1,57 @@
+defaults: ../../../grpo_math_1B.yaml
+grpo:
+  num_prompts_per_step: 32
+  num_generations_per_prompt: 16
+  max_num_steps: 500
+  val_batch_size: 5
+  max_val_samples: 16
+loss_fn:
+  use_importance_sampling_correction: true
+checkpointing:
+  checkpoint_dir: results/grpo-deepseek-v3-32n8g
+policy:
+  model_name: unsloth/DeepSeek-V3-0324-BF16
+  tokenizer:
+    name: unsloth/DeepSeek-V3-0324-BF16
+  train_micro_batch_size: 1
+  logprob_batch_size: 1
+  max_total_sequence_length: 1536
+  make_sequence_length_divisible_by: 1
+  dtensor_cfg:
+    enabled: false
+  megatron_cfg:
+    enabled: true
+    empty_unused_memory_level: 1
+    converter_type: LlamaForCausalLM
+    pipeline_model_parallel_size: 16
+    expert_model_parallel_size: 16
+    activation_checkpointing: true
+    num_layers_in_first_pipeline_stage: 3
+    num_layers_in_last_pipeline_stage: 2
+    apply_rope_fusion: false
+    moe_permute_fusion: true
+    defer_fp32_logits: true
+    optimizer:
+      lr: 5.0e-07
+      min_lr: 5.0e-08
+      weight_decay: 0.0
+      use_precision_aware_optimizer: true
+    scheduler:
+      lr_warmup_iters: 2
+      lr_warmup_init: 5.0e-08
+    fp8_cfg:
+      enabled: false
+  generation:
+    vllm_cfg:
+      tensor_parallel_size: 32
+      async_engine: true
+logger:
+  log_dir: logs/grpo-deepseek-v3-32n8g
+  wandb_enabled: true
+  tensorboard_enabled: true
+  wandb:
+    project: nemo-rl
+    name: grpo-deepseek-v3-32n8g
+cluster:
+  gpus_per_node: 8
+  num_nodes: 32
@@ -0,0 +1,33 @@
+defaults: ./grpo-deepseek-v3-32n8g.yaml
+grpo:
+  async_grpo:
+    enabled: true
+    max_trajectory_age_steps: 1
+    in_flight_weight_updates: true
+loss_fn:
+  use_importance_sampling_correction: true
+checkpointing:
+  checkpoint_dir: results/grpo-deepseek-v3-64n8g-async-1off
+policy:
+  logprob_batch_size: 2
+  megatron_cfg:
+    tensor_model_parallel_size: 1
+    pipeline_model_parallel_size: 16
+    expert_model_parallel_size: 16
+  generation:
+    colocated:
+      enabled: false
+      resources:
+        num_nodes: 32
+        gpus_per_node: 8
+    vllm_cfg:
+      tensor_parallel_size: 32
+      gpu_memory_utilization: 0.8
+      async_engine: true
+logger:
+  log_dir: logs/grpo-deepseek-v3-64n8g-async-32T32G-1off
+  wandb:
+    name: grpo-deepseek-v3-64n8g-async-32T32G-1off
+cluster:
+  gpus_per_node: 8
+  num_nodes: 64
@@ -0,0 +1,27 @@
+defaults: ./grpo-llama3.1-8b-instruct-2n8g.yaml
+grpo:
+  async_grpo:
+    enabled: true
+    max_trajectory_age_steps: 1
+    in_flight_weight_updates: true
+loss_fn:
+  use_importance_sampling_correction: true
+checkpointing:
+  checkpoint_dir: results/grpo-llama3.1-8b-instruct-2n8g-async-1off
+policy:
+  generation:
+    colocated:
+      enabled: false
+      resources:
+        num_nodes: 1
+        gpus_per_node: 8
+    vllm_cfg:
+      async_engine: true
+      gpu_memory_utilization: 0.8
+logger:
+  log_dir: logs/grpo-llama3.1-8b-instruct-2n8g-1T1G-async-1off
+  wandb:
+    name: grpo-llama3.1-8b-instruct-2n8g-1T1G-async-1off
+cluster:
+  gpus_per_node: 8
+  num_nodes: 2
@@ -0,0 +1,54 @@
+defaults: ../../../grpo_math_1B.yaml
+grpo:
+  num_prompts_per_step: 64
+  num_generations_per_prompt: 32
+  max_num_steps: 500
+loss_fn:
+  use_importance_sampling_correction: true
+checkpointing:
+  checkpoint_dir: results/grpo-llama3.1-8b-instruct-2n8g
+policy:
+  model_name: meta-llama/Llama-3.1-8B-Instruct
+  tokenizer:
+    name: meta-llama/Llama-3.1-8B-Instruct
+  train_micro_batch_size: 1
+  logprob_batch_size: 2
+  max_total_sequence_length: 4096
+  make_sequence_length_divisible_by: 1
+  dtensor_cfg:
+    enabled: false
+  megatron_cfg:
+    enabled: true
+    empty_unused_memory_level: 1
+    converter_type: LlamaForCausalLM
+    pipeline_model_parallel_size: 2
+    activation_checkpointing: true
+    defer_fp32_logits: true
+    optimizer:
+      lr: 5.0e-07
+      min_lr: 5.0e-08
+      weight_decay: 0.0
+      use_precision_aware_optimizer: true
+    scheduler:
+      lr_warmup_iters: 2
+      lr_warmup_init: 5.0e-08
+    fp8_cfg:
+      enabled: false
+  generation:
+    max_new_tokens: 4096
+    stop_token_ids:
+    - 128009
+    vllm_cfg:
+      max_model_len: 4096
+data:
+  max_input_seq_length: 4096
+logger:
+  log_dir: logs/grpo-llama3.1-8b-instruct-2n8g
+  wandb_enabled: true
+  tensorboard_enabled: true
+  wandb:
+    project: nemo-rl
+    name: grpo-llama3.1-8b-instruct-2n8g
+cluster:
+  gpus_per_node: 8
+  num_nodes: 2
@@ -0,0 +1,59 @@
+defaults: ../../../grpo_math_1B.yaml
+grpo:
+  num_prompts_per_step: 16
+  num_generations_per_prompt: 32
+  max_num_steps: 500
+  val_batch_size: 5
+  max_val_samples: 16
+loss_fn:
+  use_importance_sampling_correction: true
+checkpointing:
+  checkpoint_dir: results/grpo-qwen3-235b-16n8g
+policy:
+  model_name: Qwen/Qwen3-235B-A22B
+  tokenizer:
+    name: Qwen/Qwen3-235B-A22B
+  train_micro_batch_size: 1
+  logprob_batch_size: 1
+  max_total_sequence_length: 8192
+  make_sequence_length_divisible_by: 1
+  dtensor_cfg:
+    enabled: false
+  megatron_cfg:
+    enabled: true
+    empty_unused_memory_level: 1
+    converter_type: LlamaForCausalLM
+    tensor_model_parallel_size: 2
+    sequence_parallel: true
+    pipeline_model_parallel_size: 8
+    context_parallel_size: 2
+    expert_model_parallel_size: 16
+    activation_checkpointing: true
+    num_layers_in_first_pipeline_stage: 11
+    num_layers_in_last_pipeline_stage: 11
+    moe_permute_fusion: true
+    defer_fp32_logits: true
+    optimizer:
+      lr: 5.0e-07
+      min_lr: 5.0e-08
+      weight_decay: 0.0
+      use_precision_aware_optimizer: true
+    scheduler:
+      lr_warmup_iters: 2
+      lr_warmup_init: 5.0e-08
+    fp8_cfg:
+      enabled: false
+  generation:
+    vllm_cfg:
+      tensor_parallel_size: 16
+      async_engine: true
+logger:
+  log_dir: logs/grpo-qwen3-235b-16n8g
+  wandb_enabled: true
+  tensorboard_enabled: false # to avoid a bug
+  wandb:
+    project: nemo-rl
+    name: grpo-qwen3-235b-16n8g
+cluster:
+  gpus_per_node: 8
+  num_nodes: 16
@@ -0,0 +1,35 @@
+defaults: ./grpo-qwen3-235b-16n8g.yaml
+grpo:
+  async_grpo:
+    enabled: true
+    max_trajectory_age_steps: 1
+    in_flight_weight_updates: true
+loss_fn:
+  use_importance_sampling_correction: true
+checkpointing:
+  checkpoint_dir: results/grpo-qwen3-235b-32n8g-async-1off
+policy:
+  megatron_cfg:
+    tensor_model_parallel_size: 4
+    sequence_parallel: true
+    context_parallel_size: 1
+    pipeline_model_parallel_size: 8
+    expert_model_parallel_size: 16
+    defer_fp32_logits: false
+  generation:
+    colocated:
+      enabled: false
+      resources:
+        num_nodes: 16
+        gpus_per_node: 8
+    vllm_cfg:
+      tensor_parallel_size: 8
+      gpu_memory_utilization: 0.8
+      async_engine: true
+logger:
+  log_dir: logs/grpo-qwen3-235b-32n8g-16T16G-async-1off
+  wandb:
+    name: grpo-qwen3-235b-32n8g-16T16G-async-1off
+cluster:
+  gpus_per_node: 8
+  num_nodes: 32
@@ -0,0 +1,33 @@
+defaults: ./grpo-qwen3-30ba3b-4n8g.yaml
+grpo:
+  async_grpo:
+    enabled: true
+    max_trajectory_age_steps: 1
+    in_flight_weight_updates: true
+loss_fn:
+  use_importance_sampling_correction: true
+checkpointing:
+  checkpoint_dir: results/grpo-qwen3-30ba3b-4n8g-async-1off
+policy:
+  megatron_cfg:
+    tensor_model_parallel_size: 2
+    pipeline_model_parallel_size: 1
+    expert_model_parallel_size: 8
+    sequence_parallel: true
+  generation:
+    colocated:
+      enabled: false
+      resources:
+        num_nodes: 2
+        gpus_per_node: 8
+    vllm_cfg:
+      async_engine: true
+      tensor_parallel_size: 4
+      gpu_memory_utilization: 0.8
+logger:
+  log_dir: logs/grpo-qwen3-30ba3b-4n8g-2T2G-async-1off
+  wandb:
+    name: grpo-qwen3-30ba3b-4n8g-2T2G-async-1off
+cluster:
+  gpus_per_node: 8
+  num_nodes: 4
@@ -0,0 +1,44 @@
+defaults: ../../../grpo_math_1B.yaml
+grpo:
+  num_prompts_per_step: 64
+  num_generations_per_prompt: 32
+checkpointing:
+  enabled: false
+  checkpoint_dir: results/grpo-qwen3-30ba3b-4n8g
+policy:
+  model_name: Qwen/Qwen3-30B-A3B
+  train_micro_batch_size: 1
+  max_total_sequence_length: 4096
+  dtensor_cfg:
+    enabled: false
+  optimizer: null
+  scheduler: null
+  make_sequence_length_divisible_by: ${policy.megatron_cfg.tensor_model_parallel_size}
+  megatron_cfg:
+    enabled: true
+    empty_unused_memory_level: 1
+    tensor_model_parallel_size: 2
+    pipeline_model_parallel_size: 1
+    expert_model_parallel_size: 8
+    sequence_parallel: true
+    optimizer:
+      lr: 3.0e-07
+      min_lr: 3.0e-08
+    scheduler:
+      lr_warmup_iters: 50
+      lr_warmup_init: 3.0e-08
+    env_vars:
+      PYTORCH_CUDA_ALLOC_CONF: expandable_segments:False
+  generation:
+    vllm_cfg:
+      tensor_parallel_size: 4
+logger:
+  log_dir: logs/grpo-qwen3-30ba3b-4n8g
+  wandb_enabled: true
+  tensorboard_enabled: true
+  wandb:
+    project: nemo-rl
+    name: grpo-qwen3-30ba3b-4n8g
+cluster:
+  gpus_per_node: 8
+  num_nodes: 4
@@ -0,0 +1,41 @@
+defaults: ../../../grpo_math_1B.yaml
+grpo:
+  num_prompts_per_step: 64
+  num_generations_per_prompt: 32
+checkpointing:
+  enabled: false
+  checkpoint_dir: results/grpo-qwen3-32b-4n8g
+policy:
+  model_name: Qwen/Qwen3-32B
+  train_micro_batch_size: 1
+  max_total_sequence_length: 4096
+  dtensor_cfg:
+    enabled: false
+  optimizer: null
+  scheduler: null
+  make_sequence_length_divisible_by: ${policy.megatron_cfg.tensor_model_parallel_size}
+  megatron_cfg:
+    enabled: true
+    empty_unused_memory_level: 1
+    tensor_model_parallel_size: 4
+    pipeline_model_parallel_size: 4
+    sequence_parallel: true
+    optimizer:
+      lr: 3.0e-07
+      min_lr: 3.0e-08
+    scheduler:
+      lr_warmup_iters: 2
+      lr_warmup_init: 3.0e-08
+  generation:
+    vllm_cfg:
+      tensor_parallel_size: 4
+logger:
+  log_dir: logs/grpo-qwen3-32b-4n8g
+  wandb_enabled: true
+  tensorboard_enabled: true
+  wandb:
+    project: nemo-rl
+    name: grpo-qwen3-32b-4n8g
+cluster:
+  gpus_per_node: 8
+  num_nodes: 4