NVIDIA · pcastonguay · Jul 17, 2025 · Jul 14, 2025
@@ -958,21 +958,16 @@ def _executor_loop(self):
                         self._prepare_disagg_gen_transmission_complete(
                             scheduled_batch)
 
+                        # Return the first token to the client
+                        self._handle_first_token_response(scheduled_batch)
+
                     self.resource_manager.prepare_resources(scheduled_batch)
                     if self.draft_model_engine is not None:
                         self._prepare_draft_tokens(scheduled_batch)
 
                     if self.drafter is not None:
                         self.drafter.prepare_draft_tokens(scheduled_batch)
 
-                    if self.kv_cache_transceiver:
-                        # For generation requests which have completed KV cache transfer
-                        self._prepare_disagg_gen_transmission_complete(
-                            scheduled_batch)
-
-                        # Return the first token to the client
-                        self._handle_first_token_response(scheduled_batch)
-
                     batch_outputs = self._forward_step(scheduled_batch)
 
                     sample_state = self._sample_async(scheduled_batch,