harsh-nod · Hardcode84 · May 13, 2025 · May 13, 2025 · May 13, 2025 · May 13, 2025
diff --git a/python/sglang/srt/layers/attention/wave_backend.py b/python/sglang/srt/layers/attention/wave_backend.py
@@ -326,12 +326,14 @@ def init_cuda_graph_state(
         self, max_bs: int, kv_indices_buf: Optional[torch.Tensor] = None
     ):
         self.cuda_graph_attn_logits = torch.zeros(
-            (max_bs, self.num_head, self.max_kv_splits, self.v_head_dim),
+            (self.max_kv_splits, max_bs, self.v_head_dim, self.num_head),
+            # (max_bs, self.num_head, self.max_kv_splits, self.v_head_dim),
             dtype=torch.float32,
             device=self.device,
         )
         self.cuda_graph_attn_lse = torch.zeros(
-            (max_bs, self.num_head, self.max_kv_splits),
+            (self.max_kv_splits, max_bs, self.num_head),
+            # (max_bs, self.num_head, self.max_kv_splits),
             dtype=torch.float32,
             device=self.device,
         )

diff --git a/python/sglang/srt/layers/attention/wave_ops/decode_attention.py b/python/sglang/srt/layers/attention/wave_ops/decode_attention.py
@@ -643,6 +643,11 @@ def decode_attention_fwd_grouped(
     _decode_softmax_reducev_fwd(attn_logits, q, o, v_buffer, b_seq_len, num_kv_splits)
 
 
+def view_trunc(tensor, shape):
+    size = math.prod(shape)
+    return tensor.view(-1)[:size].view(shape)
+
+
 def decode_attention_wave(
     q,
     k_buffer,
@@ -673,8 +678,8 @@ def decode_attention_wave(
         seq_len,
     )
 
-    k_buffer = k_buffer.view(num_seqs, seq_len, num_kv_heads, head_size)
-    v_buffer = v_buffer.view(num_seqs, seq_len, num_kv_heads, head_size_kv)
+    k_buffer = view_trunc(k_buffer, (num_seqs, seq_len, num_kv_heads, head_size))
+    v_buffer = view_trunc(v_buffer, (num_seqs, seq_len, num_kv_heads, head_size_kv))
 
     # Get the kernels (either compile or load from cache).
     if mha:
@@ -765,7 +770,7 @@ def decode_attention_fwd(
     sm_scale,
     logit_cap=0.0,
 ):
-    assert max_kv_splits == attn_logits.shape[2]
+    # assert max_kv_splits == attn_logits.shape[2]
     decode_attention_wave(
         q,
         k_buffer,