sgl-project · Qiaolin-Yu · May 10, 2026 · Apr 22, 2026 · Apr 29, 2026 · May 5, 2026
@@ -389,11 +389,21 @@ def _resolve_spec_overlap_token_ids(
         stride = self.draft_worker.speculative_num_draft_tokens
 
         for i, req in enumerate(batch.reqs):
-            # -1 because prepare_for_decode pre-claimed the bonus slot.
-            req.kv_committed_len += accept_lens[i] - 1
             predict_tokens.append(
                 next_token_ids[i * stride : i * stride + accept_lens[i]]
             )
+
+            if req.is_retracted:
+                # reset_for_retract() already zeroes committed/allocated KV.
+                continue
-            if req.is_retracted:
-                # reset_for_retract() already zeroes committed/allocated KV.
-                continue
+            if req.is_retracted:
+                # reset_for_retract() already zeroes committed/allocated KV.
+                result.num_accepted_tokens -= result.accept_length_per_req_cpu[i]
+                continue
-            if req.is_retracted:
-                # reset_for_retract() already zeroes committed/allocated KV.
-                continue
+            if req.is_retracted:
+                # reset_for_retract() already zeroes committed/allocated KV.
+                result.num_accepted_tokens -= result.accept_length_per_req_cpu[i]
+                continue
+
+            if req.finished():
+                # -1 because prepare_for_decode pre-claimed the bonus slot.
+                req.kv_committed_len -= 1
+                continue
-            if req.finished():
-                # -1 because prepare_for_decode pre-claimed the bonus slot.
-                req.kv_committed_len -= 1
-                continue
+            if req.finished():
+                # -1 because prepare_for_decode pre-claimed the bonus slot.
+                req.kv_committed_len -= 1
+                result.num_accepted_tokens -= result.accept_length_per_req_cpu[i]
+                continue
-            if req.finished():
-                # -1 because prepare_for_decode pre-claimed the bonus slot.
-                req.kv_committed_len -= 1
-                continue
+            if req.finished():
+                # -1 because prepare_for_decode pre-claimed the bonus slot.
+                req.kv_committed_len -= 1
+                result.num_accepted_tokens -= result.accept_length_per_req_cpu[i]
+                continue
+
+            # -1 because prepare_for_decode pre-claimed the bonus slot.
+            req.kv_committed_len += accept_lens[i] - 1
             req.spec_verify_ct += 1
 
             accepted_draft_tokens = result.num_accepted_drafts_per_req_cpu[i]