vllm-project · robertgshaw2-redhat · Sep 29, 2025 · Sep 26, 2025 · Sep 27, 2025 · Sep 27, 2025
@@ -474,8 +474,11 @@ def __init__(self, vllm_config: VllmConfig, engine_id: str):
                 "backends", ["UCX"])
         # Agent.
         non_ucx_backends = [b for b in self.nixl_backends if b != "UCX"]
-        config = nixl_agent_config(backends=self.nixl_backends) if len(
-            non_ucx_backends) > 0 and nixl_agent_config is not None else None
+        if nixl_agent_config is None:
+            config = None
+        else:
+            config = nixl_agent_config(backends=self.nixl_backends) if len(
+                non_ucx_backends) > 0 else nixl_agent_config(num_threads=8)
 
         self.nixl_wrapper = NixlWrapper(str(uuid.uuid4()), config)
         # Map of engine_id -> {rank0: agent_name0, rank1: agent_name1..}.

@@ -1290,4 +1290,9 @@ def _update_from_kv_xfer_finished(self,
             self.finished_recving_kv_req_ids.add(req_id)
         for req_id in (kv_connector_output.finished_sending or ()):
             logger.debug("Finished sending KV transfer for request %s", req_id)
-            self._free_blocks(self.requests[req_id])
+            if req_id not in self.requests:
+                logger.warning(
+                    "Got finished sending KV transfer for request %s,"
+                    "but the request is already freed.", req_id)
 request = self.requests.get(req_id) 
 if request is None: 
     # The request is already finished. This can happen if the 
     # request is aborted while the model is executing it (e.g., 
     # in pipeline parallelism). 
     continue 
 request = self.requests.get(req_id) 
 if request is None: 
     # The request is already finished. This can happen if the 
     # request is aborted while the model is executing it (e.g., 
     # in pipeline parallelism). 
     continue 
+            else:
+                self._free_blocks(self.requests[req_id])