vllm-project · EliasOenal · Feb 19, 2026 · Copilot · Feb 19, 2026 · Copilot
@@ -1093,6 +1093,14 @@ def process_weights_after_loading(self, layer: torch.nn.Module) -> None:
         layer._v_scale = layer.v_scale
         layer._q_scale = layer.q_scale
 
+        # Also set float scales used by FlashInfer for attention/cache paths.
+        if layer.k_scale.numel() == 1:
+            layer._k_scale_float = layer.k_scale.item()
+        if layer.v_scale.numel() == 1:
+            layer._v_scale_float = layer.v_scale.item()
+        if layer.q_scale.numel() == 1:
+            layer._q_scale_float = layer.q_scale.item()
+
         # Discard all placeholders.
         del layer.k_scale
         del layer.v_scale

@@ -111,7 +111,7 @@ def process_weights_after_loading(self, layer: torch.nn.Module) -> None:
         size_k_first = True
         # TODO(rob): refactor block quant into separate class.
         if self.strategy == QuantizationStrategy.BLOCK:
-            assert self.is_static_input_scheme is False
+            assert not self.is_static_input_scheme
             size_k_first = False
             weight, weight_scale = process_fp8_weight_block_strategy(
                 weight, weight_scale