fix MLATokenToKVPoolHost get_size_per_token bug (#5161)

huangtingwei9988 · AniZpZ · web-flow · commit 5fbafbb8f8bc · 2025-04-13T12:37:26.000-07:00
Co-authored-by: AniZpZ &lt;zhuangsen.zp@antgroup.com&gt;
diff --git a/python/sglang/srt/mem_cache/memory_pool.py b/python/sglang/srt/mem_cache/memory_pool.py
@@ -879,7 +879,12 @@ def get_size_per_token(self):
         self.qk_rope_head_dim = self.device_pool.qk_rope_head_dim
         self.layer_num = self.device_pool.layer_num
 
-        return (self.kv_lora_rank + self.qk_rope_head_dim) * 1 * self.dtype.itemsize
+        return (
+            (self.kv_lora_rank + self.qk_rope_head_dim)
+            * 1
+            * self.dtype.itemsize
+            * self.layer_num
+        )
 
     def init_kv_buffer(self):
         return torch.empty(