[Bugfix] Fix lora loading for Compressed Tensors in vllm-project#9120 (vllm-project#9179)

fahadh4ilyas · sumitd2 · commit 3727a1dc1be1 · 2024-11-14T10:35:13.000-05:00
Signed-off-by: Sumit Dubey &lt;sumit.dubey2@ibm.com&gt;
diff --git a/vllm/lora/layers.py b/vllm/lora/layers.py
@@ -39,6 +39,9 @@ def _get_lora_device(base_layer: nn.Module) -> torch.device:
     # unquantizedLinear
     if hasattr(base_layer, "weight"):
         return base_layer.weight.device
+    # Compressed Tensor
+    elif hasattr(base_layer, "weight_packed"):
+        return base_layer.weight_packed.device
     # GPTQ/AWQ
     elif hasattr(base_layer, "qweight"):
         return base_layer.qweight.device