vllm-project · brian-dellabetta · Sep 24, 2025 · Sep 23, 2025 · Sep 23, 2025 · Sep 23, 2025
diff --git a/setup.py b/setup.py
@@ -133,7 +133,11 @@ def localversion_func(version: ScmVersion) -> str:
             if BUILD_TYPE == "release"
             else "accelerate>=1.6.0"
         ),
-        ("pynvml>=11.5.3,<=13.0.1" if BUILD_TYPE == "release" else "pynvml>=11.5.3"),
+        (
+            "nvidia-ml-py>=12.560.30,<=13.580.82"
+            if BUILD_TYPE == "release"
+            else "nvidia-ml-py>=12.560.30"
+        ),
         ("pillow>=10.4.0,<=11.3.0" if BUILD_TYPE == "release" else "pillow>=10.4.0"),
         (
             "compressed-tensors==0.11.0"

diff --git a/src/llmcompressor/modifiers/pruning/magnitude/base.py b/src/llmcompressor/modifiers/pruning/magnitude/base.py
@@ -40,10 +40,12 @@ class MagnitudePruningModifier(Modifier, LayerParamMasking):
 
     @field_validator("leave_enabled")
     def validate_leave_enabled(value: bool) -> bool:
-        warnings.warn(
-            "MagnitudePruningModifier.leave_enable has been deprecated",
-            DeprecationWarning,
-        )
+        if value:
+            warnings.warn(
+                "MagnitudePruningModifier.leave_enabled has been deprecated "
+                "and will be set to False.",
+                DeprecationWarning,
+            )
         return False
 
     def on_initialize(self, state: State, **kwargs) -> bool:

diff --git a/src/llmcompressor/observers/base.py b/src/llmcompressor/observers/base.py
@@ -10,7 +10,6 @@
 )
 from compressed_tensors.quantization.utils import is_fp4
 from compressed_tensors.registry.registry import RegistryMixin
-from compressed_tensors.utils import safe_permute
 from loguru import logger
 from torch import FloatTensor, IntTensor, Tensor
 
@@ -169,7 +168,7 @@ def get_qparams(
                     group_sizes = group_sizes[torch.argsort(group_indices)]
 
                     perm = torch.argsort(g_idx)
-                    observed = safe_permute(observed, perm, dim=1)
+                    observed = observed.index_select(dim=1, index=perm)
 
                 # TODO: experiment with vectorizing for loop for performance
                 end = 0