NVIDIA-NeMo · yaoyu-33 · Feb 5, 2026 · Feb 3, 2026 · Feb 3, 2026 · Feb 5, 2026
diff --git a/examples/quantization/pretrain_quantized_llama3_8b.py b/examples/quantization/pretrain_quantized_llama3_8b.py
@@ -152,14 +152,17 @@ def main() -> None:
     logger.info("------------------------------------------------------------------")
 
     # Load base configuration from the recipe as a Python dataclass
-    # If --hf-path is provided, pass it to the recipe function
-    recipe_kwargs = {}
+    # Pretrain configs use parameterless API
+    cfg: ConfigContainer = pretrain_config()
+    logger.info("Loaded base configuration")
+
+    # If --hf-path is provided, override the model's HuggingFace path
     if args.hf_path:
         logger.info(f"Using custom HuggingFace path: {args.hf_path}")
-        recipe_kwargs["hf_path"] = args.hf_path
+        # Import AutoBridge to create a new model provider with the custom HF path
+        from megatron.bridge.models import AutoBridge
 
-    cfg: ConfigContainer = pretrain_config(**recipe_kwargs)
-    logger.info("Loaded base configuration")
+        cfg.model = AutoBridge.from_hf_pretrained(args.hf_path).to_megatron_provider(load_weights=False)
 
     # Print configuration on rank 0
     if get_rank_safe() == 0:

diff --git a/scripts/performance/configs/deepseek/deepseek_llm_pretrain.py b/scripts/performance/configs/deepseek/deepseek_llm_pretrain.py
@@ -18,7 +18,12 @@
 from utils.precision import get_precision_config
 from utils.utils import get_workload_base_config
 
-from megatron.bridge.recipes.deepseek.deepseek_v3 import deepseek_v3_pretrain_config as pretrain_config
+from megatron.bridge.recipes.deepseek.deepseek_v3 import (
+    deepseek_v3_pretrain_config as pretrain_config,
+)
+from megatron.bridge.recipes.deepseek.deepseek_v3 import (
+    set_deepseek_v3_pipeline_model_parallel_layout,
+)
 from megatron.bridge.training.config import ConfigContainer
 
 
@@ -54,14 +59,19 @@ def deepseek_v3_pretrain_config_gb300(
     )
     precision_config = get_precision_config(precision)
 
-    cfg = pretrain_config(
-        mock=mock,
-        precision_config=precision_config,
-        pipeline_model_parallel_size=base_cfg.pipeline_model_parallel_size,
-        virtual_pipeline_model_parallel_size=base_cfg.virtual_pipeline_model_parallel_size,
-        moe_flex_dispatcher_backend=base_cfg.moe_flex_dispatcher_backend,
-        layout=base_cfg.pp_layout,
-    )
+    cfg = pretrain_config()
+    cfg.mixed_precision = precision_config
+
+    # Apply model-specific settings that were previously passed as constructor args
+    cfg.model.pipeline_model_parallel_size = base_cfg.pipeline_model_parallel_size
+    cfg.model.virtual_pipeline_model_parallel_size = base_cfg.virtual_pipeline_model_parallel_size
+    cfg.model.moe_flex_dispatcher_backend = base_cfg.moe_flex_dispatcher_backend
+    if base_cfg.pp_layout:
+        cfg.model.pipeline_model_parallel_layout = base_cfg.pp_layout
+    else:
+        # Recompute layout based on updated PP/VP sizes
+        set_deepseek_v3_pipeline_model_parallel_layout(cfg.model)
+
     set_deepseek_v3_common_configs(cfg)
     set_workload_base_configs(cfg, base_cfg)
 
@@ -89,14 +99,19 @@ def deepseek_v3_pretrain_config_gb200(
     )
     precision_config = get_precision_config(precision)
 
-    cfg = pretrain_config(
-        mock=mock,
-        precision_config=precision_config,
-        pipeline_model_parallel_size=base_cfg.pipeline_model_parallel_size,
-        virtual_pipeline_model_parallel_size=base_cfg.virtual_pipeline_model_parallel_size,
-        moe_flex_dispatcher_backend=base_cfg.moe_flex_dispatcher_backend,
-        layout=base_cfg.pp_layout,
-    )
+    cfg = pretrain_config()
+    cfg.mixed_precision = precision_config
+
+    # Apply model-specific settings that were previously passed as constructor args
+    cfg.model.pipeline_model_parallel_size = base_cfg.pipeline_model_parallel_size
+    cfg.model.virtual_pipeline_model_parallel_size = base_cfg.virtual_pipeline_model_parallel_size
+    cfg.model.moe_flex_dispatcher_backend = base_cfg.moe_flex_dispatcher_backend
+    if base_cfg.pp_layout:
+        cfg.model.pipeline_model_parallel_layout = base_cfg.pp_layout
+    else:
+        # Recompute layout based on updated PP/VP sizes
+        set_deepseek_v3_pipeline_model_parallel_layout(cfg.model)
+
     set_deepseek_v3_common_configs(cfg)
     set_workload_base_configs(cfg, base_cfg)
 
@@ -124,14 +139,16 @@ def deepseek_v3_pretrain_config_b300(
     )
     precision_config = get_precision_config(precision)
 
-    cfg = pretrain_config(
-        mock=mock,
-        precision_config=precision_config,
-        pipeline_model_parallel_size=base_cfg.pipeline_model_parallel_size,
-        virtual_pipeline_model_parallel_size=base_cfg.virtual_pipeline_model_parallel_size,
-        moe_flex_dispatcher_backend=base_cfg.moe_flex_dispatcher_backend,
-        layout=None,
-    )
+    cfg = pretrain_config()
+    cfg.mixed_precision = precision_config
+
+    # Apply model-specific settings that were previously passed as constructor args
+    cfg.model.pipeline_model_parallel_size = base_cfg.pipeline_model_parallel_size
+    cfg.model.virtual_pipeline_model_parallel_size = base_cfg.virtual_pipeline_model_parallel_size
+    cfg.model.moe_flex_dispatcher_backend = base_cfg.moe_flex_dispatcher_backend
+    # Recompute layout based on updated PP/VP sizes
+    set_deepseek_v3_pipeline_model_parallel_layout(cfg.model)
+
     set_deepseek_v3_common_configs(cfg)
     set_workload_base_configs(cfg, base_cfg)
 
@@ -154,14 +171,16 @@ def deepseek_v3_pretrain_config_b200(
     )
     precision_config = get_precision_config(precision)
 
-    cfg = pretrain_config(
-        mock=mock,
-        precision_config=precision_config,
-        pipeline_model_parallel_size=base_cfg.pipeline_model_parallel_size,
-        virtual_pipeline_model_parallel_size=base_cfg.virtual_pipeline_model_parallel_size,
-        moe_flex_dispatcher_backend=base_cfg.moe_flex_dispatcher_backend,
-        layout=None,
-    )
+    cfg = pretrain_config()
+    cfg.mixed_precision = precision_config
+
+    # Apply model-specific settings that were previously passed as constructor args
+    cfg.model.pipeline_model_parallel_size = base_cfg.pipeline_model_parallel_size
+    cfg.model.virtual_pipeline_model_parallel_size = base_cfg.virtual_pipeline_model_parallel_size
+    cfg.model.moe_flex_dispatcher_backend = base_cfg.moe_flex_dispatcher_backend
+    # Recompute layout based on updated PP/VP sizes
+    set_deepseek_v3_pipeline_model_parallel_layout(cfg.model)
+
     set_deepseek_v3_common_configs(cfg)
     set_workload_base_configs(cfg, base_cfg)
 
@@ -184,14 +203,15 @@ def deepseek_v3_pretrain_config_h100(
     )
     precision_config = get_precision_config(precision)
 
-    cfg = pretrain_config(
-        mock=mock,
-        precision_config=precision_config,
-        pipeline_model_parallel_size=base_cfg.pipeline_model_parallel_size,
-        virtual_pipeline_model_parallel_size=base_cfg.virtual_pipeline_model_parallel_size,
-        moe_flex_dispatcher_backend=base_cfg.moe_flex_dispatcher_backend,
-        layout="Et|(tt|)*30mL",
-    )
+    cfg = pretrain_config()
+    cfg.mixed_precision = precision_config
+
+    # Apply model-specific settings that were previously passed as constructor args
+    cfg.model.pipeline_model_parallel_size = base_cfg.pipeline_model_parallel_size
+    cfg.model.virtual_pipeline_model_parallel_size = base_cfg.virtual_pipeline_model_parallel_size
+    cfg.model.moe_flex_dispatcher_backend = base_cfg.moe_flex_dispatcher_backend
+    cfg.model.pipeline_model_parallel_layout = "Et|(tt|)*30mL"
+
     set_deepseek_v3_common_configs(cfg)
     set_workload_base_configs(cfg, base_cfg)
 

diff --git a/scripts/performance/configs/gpt_oss/gpt_oss_llm_pretrain.py b/scripts/performance/configs/gpt_oss/gpt_oss_llm_pretrain.py
@@ -49,10 +49,8 @@ def gpt_oss_120b_pretrain_config_gb300(
     )
     precision_config = get_precision_config(precision)
 
-    cfg = gpt_oss_120b_pretrain_config(
-        mock=mock,
-        precision_config=precision_config,
-    )
+    cfg = gpt_oss_120b_pretrain_config()
+    cfg.mixed_precision = precision_config
     set_gpt_oss_common_configs(cfg)
     set_workload_base_configs(cfg, base_cfg)
 
@@ -73,10 +71,8 @@ def gpt_oss_120b_pretrain_config_gb200(
     )
     precision_config = get_precision_config(precision)
 
-    cfg = gpt_oss_120b_pretrain_config(
-        mock=mock,
-        precision_config=precision_config,
-    )
+    cfg = gpt_oss_120b_pretrain_config()
+    cfg.mixed_precision = precision_config
     set_gpt_oss_common_configs(cfg)
     set_workload_base_configs(cfg, base_cfg)
 
@@ -97,10 +93,8 @@ def gpt_oss_120b_pretrain_config_b300(
     )
     precision_config = get_precision_config(precision)
 
-    cfg = gpt_oss_120b_pretrain_config(
-        mock=mock,
-        precision_config=precision_config,
-    )
+    cfg = gpt_oss_120b_pretrain_config()
+    cfg.mixed_precision = precision_config
     set_gpt_oss_common_configs(cfg)
     set_workload_base_configs(cfg, base_cfg)
 
@@ -121,10 +115,8 @@ def gpt_oss_120b_pretrain_config_b200(
     )
     precision_config = get_precision_config(precision)
 
-    cfg = gpt_oss_120b_pretrain_config(
-        mock=mock,
-        precision_config=precision_config,
-    )
+    cfg = gpt_oss_120b_pretrain_config()
+    cfg.mixed_precision = precision_config
     set_gpt_oss_common_configs(cfg)
     set_workload_base_configs(cfg, base_cfg)
 
@@ -145,10 +137,8 @@ def gpt_oss_120b_pretrain_config_h100(
     )
     precision_config = get_precision_config(precision)
 
-    cfg = gpt_oss_120b_pretrain_config(
-        mock=mock,
-        precision_config=precision_config,
-    )
+    cfg = gpt_oss_120b_pretrain_config()
+    cfg.mixed_precision = precision_config
     set_gpt_oss_common_configs(cfg)
     set_workload_base_configs(cfg, base_cfg)
 

diff --git a/scripts/performance/configs/llama/llama31_llm_pretrain.py b/scripts/performance/configs/llama/llama31_llm_pretrain.py
@@ -62,7 +62,8 @@ def llama31_405b_pretrain_config_gb300(
     else:
         comm_overlap_cfg = userbuffers_fp8_b200_h16384_tp4_cp2_mbs1_seqlen8192
 
-    cfg = llama31_405b_pretrain_config(mock=mock, precision_config=precision_config)
+    cfg = llama31_405b_pretrain_config()
+    cfg.mixed_precision = precision_config
     set_llama31_common_configs(cfg)
     set_workload_base_configs(cfg, base_cfg)
 
@@ -95,7 +96,8 @@ def llama31_405b_pretrain_config_gb200(
     else:
         comm_overlap_cfg = userbuffers_fp8_b200_h16384_tp4_cp2_mbs1_seqlen8192
 
-    cfg = llama31_405b_pretrain_config(mock=mock, precision_config=precision_config)
+    cfg = llama31_405b_pretrain_config()
+    cfg.mixed_precision = precision_config
     set_llama31_common_configs(cfg)
     set_workload_base_configs(cfg, base_cfg)
 
@@ -129,7 +131,8 @@ def llama31_405b_pretrain_config_b300(
     else:
         comm_overlap_cfg = userbuffers_fp8_b200_h16384_tp4_cp2_mbs1_seqlen8192
 
-    cfg = llama31_405b_pretrain_config(mock=mock, precision_config=precision_config)
+    cfg = llama31_405b_pretrain_config()
+    cfg.mixed_precision = precision_config
     set_llama31_common_configs(cfg)
     set_workload_base_configs(cfg, base_cfg)
 
@@ -158,7 +161,8 @@ def llama31_405b_pretrain_config_b200(
     else:
         comm_overlap_cfg = userbuffers_fp8_b200_h16384_tp4_cp2_mbs1_seqlen8192
 
-    cfg = llama31_405b_pretrain_config(mock=mock, precision_config=precision_config)
+    cfg = llama31_405b_pretrain_config()
+    cfg.mixed_precision = precision_config
     set_llama31_common_configs(cfg)
     set_workload_base_configs(cfg, base_cfg)
 
@@ -187,7 +191,8 @@ def llama31_405b_pretrain_config_h100(
     else:
         comm_overlap_cfg = userbuffers_fp8_h100_h16384_tp8_cp2_mbs1_seqlen8192
 
-    cfg = llama31_405b_pretrain_config(mock=mock, precision_config=precision_config)
+    cfg = llama31_405b_pretrain_config()
+    cfg.mixed_precision = precision_config
     set_llama31_common_configs(cfg)
     set_workload_base_configs(cfg, base_cfg)
 

diff --git a/scripts/performance/configs/llama/llama3_llm_pretrain.py b/scripts/performance/configs/llama/llama3_llm_pretrain.py
@@ -66,7 +66,8 @@ def llama3_70b_pretrain_config_gb300(
     else:
         comm_overlap_cfg = userbuffers_fp8_b200_h8192_tp2_mbs1_seqlen8192
 
-    cfg = llama3_70b_pretrain_config(mock=mock, precision_config=precision_config)
+    cfg = llama3_70b_pretrain_config()
+    cfg.mixed_precision = precision_config
     set_llama3_common_configs(cfg)
     set_workload_base_configs(cfg, base_cfg)
 
@@ -100,7 +101,8 @@ def llama3_70b_pretrain_config_gb200(
     else:
         comm_overlap_cfg = userbuffers_fp8_b200_h8192_tp2_mbs1_seqlen8192
 
-    cfg = llama3_70b_pretrain_config(mock=mock, precision_config=precision_config)
+    cfg = llama3_70b_pretrain_config()
+    cfg.mixed_precision = precision_config
     set_llama3_common_configs(cfg)
     set_workload_base_configs(cfg, base_cfg)
 
@@ -134,7 +136,8 @@ def llama3_70b_pretrain_config_b300(
     else:
         comm_overlap_cfg = userbuffers_fp8_b200_h8192_tp2_mbs1_seqlen8192
 
-    cfg = llama3_70b_pretrain_config(mock=mock, precision_config=precision_config)
+    cfg = llama3_70b_pretrain_config()
+    cfg.mixed_precision = precision_config
     set_llama3_common_configs(cfg)
     set_workload_base_configs(cfg, base_cfg)
 
@@ -168,7 +171,8 @@ def llama3_70b_pretrain_config_b200(
     else:
         comm_overlap_cfg = userbuffers_fp8_b200_h8192_tp2_mbs1_seqlen8192
 
-    cfg = llama3_70b_pretrain_config(mock=mock, precision_config=precision_config)
+    cfg = llama3_70b_pretrain_config()
+    cfg.mixed_precision = precision_config
     set_llama3_common_configs(cfg)
     set_workload_base_configs(cfg, base_cfg)
 
@@ -202,7 +206,8 @@ def llama3_70b_pretrain_config_h100(
     else:
         comm_overlap_cfg = userbuffers_fp8_h100_h8192_tp4_mbs1_seqlen8192
 
-    cfg = llama3_70b_pretrain_config(mock=mock, precision_config=precision_config)
+    cfg = llama3_70b_pretrain_config()
+    cfg.mixed_precision = precision_config
     set_llama3_common_configs(cfg)
     set_workload_base_configs(cfg, base_cfg)
 
@@ -228,7 +233,8 @@ def llama3_8b_pretrain_config_gb300(
     )
     precision_config = get_precision_config(precision)
 
-    cfg = llama3_8b_pretrain_config(mock=mock, precision_config=precision_config)
+    cfg = llama3_8b_pretrain_config()
+    cfg.mixed_precision = precision_config
     set_llama3_common_configs(cfg)
     set_workload_base_configs(cfg, base_cfg)
 
@@ -252,7 +258,8 @@ def llama3_8b_pretrain_config_gb200(
     )
     precision_config = get_precision_config(precision)
 
-    cfg = llama3_8b_pretrain_config(mock=mock, precision_config=precision_config)
+    cfg = llama3_8b_pretrain_config()
+    cfg.mixed_precision = precision_config
     set_llama3_common_configs(cfg)
     set_workload_base_configs(cfg, base_cfg)
 
@@ -276,7 +283,8 @@ def llama3_8b_pretrain_config_b300(
     )
     precision_config = get_precision_config(precision)
 
-    cfg = llama3_8b_pretrain_config(mock=mock, precision_config=precision_config)
+    cfg = llama3_8b_pretrain_config()
+    cfg.mixed_precision = precision_config
     set_llama3_common_configs(cfg)
     set_workload_base_configs(cfg, base_cfg)
 
@@ -300,7 +308,8 @@ def llama3_8b_pretrain_config_b200(
     )
     precision_config = get_precision_config(precision)
 
-    cfg = llama3_8b_pretrain_config(mock=mock, precision_config=precision_config)
+    cfg = llama3_8b_pretrain_config()
+    cfg.mixed_precision = precision_config
     set_llama3_common_configs(cfg)
     set_workload_base_configs(cfg, base_cfg)
 
@@ -324,7 +333,8 @@ def llama3_8b_pretrain_config_h100(
     )
     precision_config = get_precision_config(precision)
 
-    cfg = llama3_8b_pretrain_config(mock=mock, precision_config=precision_config)
+    cfg = llama3_8b_pretrain_config()
+    cfg.mixed_precision = precision_config
     set_llama3_common_configs(cfg)
     set_workload_base_configs(cfg, base_cfg)