vllm-project · Potabk · Dec 27, 2025 · gemini-code-assist · Dec 27, 2025 · Isotr0py
diff --git a/vllm/model_executor/models/hunyuan_vision.py b/vllm/model_executor/models/hunyuan_vision.py
@@ -247,6 +247,12 @@ def forward(
         qkv, _ = self.qkv(x)
         q, k, v = qkv.chunk(3, dim=-1)
         out = self.attn(q, k, v)
+        out = out.view(
+            x.size(0),
+            -1,
+            self.num_attention_heads_per_partition
+            * self.hidden_size_per_attention_head,
+        )
 is_reshaped = query.dim() != 4 
 query, key, value = self.maybe_reshape_qkv_to_4d( 
     query, key, value, bsz, q_len, kv_len 
 ) 
 output = vit_flash_attn_wrapper( 
     q=query, 
     k=key, 
     v=value, 
     cu_seqlens=cu_seqlens, 
     max_seqlen=max_seqlen, 
     batch_size=bsz, 
     is_rocm_aiter=(self.attn_backend == AttentionBackendEnum.ROCM_AITER_FA), 
     fa_version=self._fa_version, 
 ) 
 if is_reshaped: 
     output = output.reshape(bsz, q_len, -1) 
 is_reshaped = query.dim() != 4 
  
 query, key, value = self.maybe_reshape_qkv_to_4d( 
     query, key, value, bsz, q_len, kv_len 
 ) 
  
 output = vit_flash_attn_wrapper( 
     q=query, 
     k=key, 
     v=value, 
     cu_seqlens=cu_seqlens, 
     max_seqlen=max_seqlen, 
     batch_size=bsz, 
     is_rocm_aiter=(self.attn_backend == AttentionBackendEnum.ROCM_AITER_FA), 
     fa_version=self._fa_version, 
 ) 
 if is_reshaped: 
     output = output.reshape(bsz, q_len, -1) 
         output, _ = self.o_proj(out)
         return output