Dont call request_finished unless request has already been scheduled

jthomson04 · jthomson04 · commit a383d03bf83b · 2025-08-21T14:26:18.000-07:00
Signed-off-by: jthomson04 &lt;jwillthomson19@gmail.com&gt;
diff --git a/tensorrt_llm/_torch/pyexecutor/py_executor.py b/tensorrt_llm/_torch/pyexecutor/py_executor.py
@@ -1664,11 +1664,16 @@ def _terminate_request(self, request: LlmRequest):
         if self.kv_connector_manager is None:
             self.resource_manager.free_resources(request)
         else:
-            cache_block_ids = self.kv_cache_manager.get_cache_indices(request)
-
-            if not self.kv_connector_manager.request_finished(
-                    request, cache_block_ids):
-                self.resource_manager.free_resources(request)
+            # Only call request_finished on the connector if the request has already been added to the kv cache manager.
+            try:
+                cache_block_ids = self.kv_cache_manager.get_cache_indices(
+                    request)
+            except IndexError:
+                pass
+            else:
+                if not self.kv_connector_manager.request_finished(
+                        request, cache_block_ids):
+                    self.resource_manager.free_resources(request)
 
     @nvtx_range("_handle_canceled_requests")
     def _handle_canceled_requests(self):