default unit test kv cache dtype

NickLucche · NickLucche · commit 3045ede00c12 · 2025-10-17T12:32:11.000Z
Signed-off-by: NickLucche &lt;nlucches@redhat.com&gt;
diff --git a/vllm/attention/layer.py b/vllm/attention/layer.py
@@ -174,7 +174,7 @@ def __init__(
             calculate_kv_scales = False
         self.block_size = block_size
         self.kv_cache_torch_dtype = kv_cache_dtype_str_to_dtype(
-            kv_cache_dtype, vllm_config.model_config.dtype
+            kv_cache_dtype, vllm_config.model_config
         )
         if num_kv_heads is None:
             num_kv_heads = num_heads
diff --git a/vllm/utils/__init__.py b/vllm/utils/__init__.py
@@ -157,9 +157,12 @@ def set_default_torch_num_threads(num_threads: int):
     torch.set_num_threads(old_num_threads)
 
 
-def kv_cache_dtype_str_to_dtype(kv_cache_dtype: str, model_dtype: str) -> torch.dtype:
+def kv_cache_dtype_str_to_dtype(
+    kv_cache_dtype: str, model_config: ModelConfig
+) -> torch.dtype:
     if kv_cache_dtype == "auto":
-        return model_dtype
+        # Model config may not be specified for unit tests, default to float16
+        return model_config.dtype if model_config else torch.half
     return STR_DTYPE_TO_TORCH_DTYPE[kv_cache_dtype]
 
 
diff --git a/vllm/v1/worker/gpu_model_runner.py b/vllm/v1/worker/gpu_model_runner.py
@@ -235,7 +235,7 @@ def __init__(
         self.pin_memory = is_pin_memory_available()
         self.dtype = self.model_config.dtype
         self.kv_cache_dtype = kv_cache_dtype_str_to_dtype(
-            cache_config.cache_dtype, self.dtype
+            cache_config.cache_dtype, self.model_config
         )
 
         self.is_pooling_model = model_config.runner_type == "pooling"

Original file line number	Diff line number	Diff line change
`@@ -174,7 +174,7 @@ def __init__(`
`174`	`174`	`calculate_kv_scales = False`
`175`	`175`	`self.block_size = block_size`
`176`	`176`	`self.kv_cache_torch_dtype = kv_cache_dtype_str_to_dtype(`
`177`		`- kv_cache_dtype, vllm_config.model_config.dtype`
	`177`	`+ kv_cache_dtype, vllm_config.model_config`
`178`	`178`	`)`
`179`	`179`	`if num_kv_heads is None:`
`180`	`180`	`num_kv_heads = num_heads`
Original file line number	Diff line number	Diff line change
`@@ -235,7 +235,7 @@ def __init__(`
`235`	`235`	`self.pin_memory = is_pin_memory_available()`
`236`	`236`	`self.dtype = self.model_config.dtype`
`237`	`237`	`self.kv_cache_dtype = kv_cache_dtype_str_to_dtype(`
`238`		`- cache_config.cache_dtype, self.dtype`
	`238`	`+ cache_config.cache_dtype, self.model_config`
`239`	`239`	`)`
`240`	`240`
`241`	`241`	`self.is_pooling_model = model_config.runner_type == "pooling"`