vllm-project · wangxiyuan · Mar 10, 2026 · Mar 9, 2026 · Mar 9, 2026
@@ -169,8 +169,6 @@ def test_compute_prefill_context(self, mock_npu_attention):
         attn_metadata.prefill.chunked_context = MagicMock()
         local_context_lens_allranks = torch.tensor([[[256, 256], [256, 256]]])
         attn_metadata.prefill.chunked_context.local_context_lens_allranks = local_context_lens_allranks
-        attn_metadata.prefill.chunked_context.batch_chunk_seq_mask = torch.randint(
-            0, 2, (1024, ), dtype=torch.bool)
         attn_metadata.prefill.chunked_context.local_total_toks = local_context_lens_allranks[:,
                                                                                              0,
                                                                                              0].sum(

@@ -142,7 +142,7 @@ def build(
         assert num_computed_tokens_of_pcp_dcp is not None
         chunked_context_metadata = None
         if num_prefills > 0:
-            query_lens = query_lens[num_decode_tokens:]
+            query_lens = query_lens[num_decodes:]
             context_lens_cpu = num_computed_tokens_cpu[num_decodes:num_reqs]
             max_context_len_cpu = context_lens_cpu.max().item()
             pcp_size = get_pcp_group().world_size
@@ -172,10 +172,6 @@ def build(
                     kv_inverse_idx_for_chunk = None
                     cp_kv_recover_idx_for_chunk = None
 
-                batch_chunk_seq_mask = local_context_lens_allranks[:, self.pcp_rank, self.dcp_rank] == 0
-                batch_chunk_seq_mask = torch.repeat_interleave(
-                    batch_chunk_seq_mask, repeats=(query_lens * self.pcp_size).to(self.device)
-                )
                 chunk_seq_mask_filtered_indices = filter_chunked_req_indices(query_lens, chunked_req_mask).to(
                     self.device
                 )
@@ -187,7 +183,6 @@ def build(
                     local_context_lens_allranks=local_context_lens_allranks,
                     cp_kv_recover_idx_for_chunk=cp_kv_recover_idx_for_chunk,
                     kv_inverse_idx_for_chunk=kv_inverse_idx_for_chunk,
-                    batch_chunk_seq_mask=batch_chunk_seq_mask,
                     chunk_seq_mask_filtered_indices=chunk_seq_mask_filtered_indices,
                     local_total_toks=local_total_toks.item(),
                 )

@@ -1016,7 +1016,7 @@ def propose_draft_token_ids(
                     target_positions = self._get_positions(num_scheduled_tokens)
                     target_hidden_states = hidden_states
                     if self.use_aux_hidden_state_outputs:
-                        target_hidden_states = torch.cat([h[:num_scheduled_tokens] for h in aux_hidden_states], dim=-1)
+                        target_hidden_states = torch.cat([h for h in aux_hidden_states], dim=-1)
                 else:
                     token_indices_to_sample = None
                     # input_ids can be None for multimodal models.