vllm-project · zzzzwwjj · Jan 20, 2026 · Jan 20, 2026 · gemini-code-assist · Jan 20, 2026
diff --git a/vllm_ascend/distributed/kvpool/ascend_store_connector.py b/vllm_ascend/distributed/kvpool/ascend_store_connector.py
@@ -137,7 +137,7 @@ def get_finished(self,
         """Get the finished recving and sending requests."""
         assert self.connector_worker is not None
         done_sending, done_recving = self.connector_worker.get_finished(
-            finished_req_ids)
+            finished_req_ids, self._get_connector_metadata())
         return done_sending, done_recving
 
 

diff --git a/vllm_ascend/distributed/kvpool/config_data.py b/vllm_ascend/distributed/kvpool/config_data.py
@@ -379,9 +379,10 @@ def from_request_tracker(
 
 class AscendConnectorMetadata(KVConnectorMetadata):
 
-    def __init__(self, unfinished_request_ids):
+    def __init__(self, unfinished_request_ids, preempted_req_ids):
         self.requests = []
         self.unfinished_request_ids = unfinished_request_ids
+        self.preempted_req_ids = preempted_req_ids
 
     def add_request(self, req_meta: ReqMeta) -> None:
         """Add a request to the metadata.

diff --git a/vllm_ascend/distributed/kvpool/kv_transfer.py b/vllm_ascend/distributed/kvpool/kv_transfer.py
@@ -116,6 +116,11 @@ def add_stored_request(self, req_id: str):
         with self.done_task_lock:
             self.stored_requests[req_id] += 1
 
+    def dec_stored_request(self, req_id: str):
+        with self.done_task_lock:
+            if req_id in self.stored_requests:
+                self.stored_requests[req_id] -= 1
+
     def delete_finished_stored_request(self, req_id: str):
         with self.done_task_lock:
             if req_id in self.stored_requests:
@@ -129,6 +134,10 @@ def _handle_request(self, req_meta: ReqMeta):
         starts = []
         ends = []
         keys = []
+        if req_id not in self.stored_requests:
+            self.request_queue.task_done()
+            return
-        if req_id not in self.stored_requests:
-            self.request_queue.task_done()
-            return
+        if self.stored_requests.get(req_id, 0) <= 0:
+            self.request_queue.task_done()
+            return
-        if req_id not in self.stored_requests:
-            self.request_queue.task_done()
-            return
+        if self.stored_requests.get(req_id, 0) <= 0:
+            self.request_queue.task_done()
+            return
+
         for start, end, key in self.token_database.process_tokens(
                 token_len, req_meta.block_hashes):
             starts.append(start)
@@ -141,15 +150,13 @@ def _handle_request(self, req_meta: ReqMeta):
             keys = keys[self.tp_rank % self.put_step::self.put_step]
 
         if not keys:
-            with self.done_task_lock:
-                self.stored_requests[req_id] -= 1
+            self.dec_stored_request(req_id)
             return
 
         skip_block_num = self.lookup(keys)
 
         if skip_block_num == len(keys):
-            with self.done_task_lock:
-                self.stored_requests[req_id] -= 1
+            self.dec_stored_request(req_id)
             return
 
         starts = starts[skip_block_num:]
@@ -188,8 +195,7 @@ def _handle_request(self, req_meta: ReqMeta):
                 current_event.synchronize()
             self.m_store.put(keys, addrs, sizes)
 
-        with self.done_task_lock:
-            self.stored_requests[req_id] -= 1
+        self.dec_stored_request(req_id)
         self.request_queue.task_done()
 
 

diff --git a/vllm_ascend/distributed/kvpool/pool_scheduler.py b/vllm_ascend/distributed/kvpool/pool_scheduler.py
@@ -162,7 +162,7 @@ def build_connector_meta(
             self._unfinished_requests.pop(finished_req_id, None)
             self._unfinished_request_ids.discard(finished_req_id)
 
-        meta = AscendConnectorMetadata(self._unfinished_request_ids)
+        meta = AscendConnectorMetadata(self._unfinished_request_ids, scheduler_output.preempted_req_ids)
 
         for request in scheduler_output.scheduled_new_reqs:
             # Right now, we only load KV for new requests

diff --git a/vllm_ascend/distributed/kvpool/pool_worker.py b/vllm_ascend/distributed/kvpool/pool_worker.py
@@ -462,10 +462,10 @@ def store_layer(
                 yield
 
     def get_finished(self,
-                     finished_req_ids: set[str]) -> tuple[set[str], set[str]]:
+                     finished_req_ids: set[str], meta:AscendConnectorMetadata) -> tuple[set[str], set[str]]:
         done_sending = (
             self.get_and_clear_finished_requests(
-                finished_req_ids  # type: ignore[union-attr]
+                finished_req_ids, meta  # type: ignore[union-attr]
             ) if self.kv_role in ['kv_producer', 'kv_both']
             or self.consumer_is_to_put else set())
 
@@ -480,8 +480,11 @@ def get_finished(self,
             self.tp_rank)
         return done_sending, done_recving
 
-    def get_and_clear_finished_requests(self, finished_req_ids) -> set[str]:
+    def get_and_clear_finished_requests(self, finished_req_ids, meta:AscendConnectorMetadata) -> set[str]:
         finished_sending = set()
+        for req_id in meta.preempted_req_ids:
+            self.kv_send_thread.delete_finished_stored_request(  # type: ignore[union-attr]
+                req_id)
         for req_id in self.kv_send_thread.stored_requests.copy(  # type: ignore[union-attr]
         ):
             if self.kv_send_thread.stored_requests[  # type: ignore[union-attr]