NVIDIA-NeMo · jiemingz · Jun 10, 2025 · terrykong · Jun 10, 2025 · StrongerXi
@@ -48,6 +48,7 @@ policy:
   dtensor_cfg:
     enabled: true
     cpu_offload: False
+    torch_compile: False
     sequence_parallel: false
     activation_checkpointing: false
     tensor_parallel_size: 1

@@ -46,6 +46,7 @@ policy:
   dtensor_cfg:
     enabled: true
     cpu_offload: False
+    torch_compile: False
     sequence_parallel: false
     activation_checkpointing: false
     tensor_parallel_size: 1

@@ -46,6 +46,7 @@ policy:
   dtensor_cfg:
     enabled: true
     cpu_offload: False
+    torch_compile: False
     sequence_parallel: false
     activation_checkpointing: false
     tensor_parallel_size: 1

@@ -35,6 +35,7 @@ policy:
   dtensor_cfg:
     enabled: true
     cpu_offload: False
+    torch_compile: False
     sequence_parallel: false
     activation_checkpointing: false
     tensor_parallel_size: 1

@@ -31,6 +31,7 @@ policy:
   dtensor_cfg:
     enabled: true
     cpu_offload: False
+    torch_compile: False
     sequence_parallel: false
     activation_checkpointing: false
     tensor_parallel_size: 4

@@ -133,6 +133,7 @@ def __init__(
         model_name = self.cfg["model_name"]
 
         self.cpu_offload = self.cfg["dtensor_cfg"]["cpu_offload"]
+        self.torch_compile = self.cfg["dtensor_cfg"]["torch_compile"]
         self.max_grad_norm = self.cfg["max_grad_norm"]
 
         if self.cfg["precision"] == "float32":
@@ -195,6 +196,9 @@ def __init__(
             custom_parallel_plan=self.cfg["dtensor_cfg"]["custom_parallel_plan"],
         )
 
+        if self.torch_compile:
+            self.model = torch.compile(model)
+
         if self.cpu_offload:
             self.model = self.move_buffer_to_device(self.model, "cpu")
 
@@ -736,6 +740,9 @@ def get_weights_ipc_handles(self, keys: Iterable[str]) -> dict[str, Any]:
                 full_tensor = tensor.full_tensor()
             else:
                 full_tensor = tensor
+            #torch.compile wraps the model as "_orig_mod", so remove the prefix here
+            if self.torch_compile and key.startswith("_orig_mod."):
+                key = key.removeprefix("_orig_mod.")
             # Convert parameters to the configured dtype
             converted_params[key] = full_tensor.to(self.dtype, non_blocking=True)