fix

masahi · masahi · commit ccbfb6eea25a · 2024-01-11T00:49:59.000Z
diff --git a/examples/python/run_llama_batched_vllm.py b/examples/python/run_llama_batched_vllm.py
@@ -277,7 +277,7 @@ def _prepare_eval_queries(
         if sliding_window:
             seq_lens.append(min(num_past_tokens + num_queries, sliding_window))
             num_past = min(num_past_tokens, sliding_window)
-            past_slot_mapping += all_slot_mappings[request_id][num_past:]
+            past_slot_mapping += all_slot_mappings[request_id][:num_past]
             slot_mapping += all_slot_mappings[request_id][num_past: num_past + num_queries]
         else:
             seq_lens.append(num_past_tokens + num_queries)