NVIDIA-NeMo · smahdavi4 · Dec 9, 2025 · Jan 13, 2026 · Jan 13, 2026 · Jan 14, 2026
@@ -191,6 +191,9 @@ def __init__(
         self.cpu_offload = self.cfg["dtensor_cfg"]["cpu_offload"]
         self.offload_optimizer_for_logprob = self.cfg["offload_optimizer_for_logprob"]
         self.max_grad_norm = self.cfg["max_grad_norm"]
+        # allow zero grad norm for consistency with megatron
+        if self.max_grad_norm == 0.0:
+            self.max_grad_norm = None
 
         if self.cfg["precision"] == "float32":
             self.dtype = torch.float32

@@ -235,6 +235,9 @@ def __init__(
         self.cpu_offload = self.cfg["dtensor_cfg"]["cpu_offload"]
         self.offload_optimizer_for_logprob = self.cfg["offload_optimizer_for_logprob"]
         self.max_grad_norm = self.cfg["max_grad_norm"]
+        # allow zero grad norm for consistency with megatron
+        if self.max_grad_norm == 0.0:
+            self.max_grad_norm = None
 
         try:
             self.dtype = STRING_TO_DTYPE[self.cfg["precision"]]