[Bugfix] Disable prefix caching by default for benchmark (#18771)

cascade812 · web-flow · commit 51e98e4ffd69 · 2025-05-28T08:18:09.000+08:00
Signed-off-by: cascade812 &lt;cascade812@outlook.com&gt;
diff --git a/vllm/benchmarks/latency.py b/vllm/benchmarks/latency.py
@@ -82,7 +82,7 @@ def add_cli_args(parser: argparse.ArgumentParser):
     parser = EngineArgs.add_cli_args(parser)
     # V1 enables prefix caching by default which skews the latency
     # numbers. We need to disable prefix caching by default.
-    parser.set_defaults(enable_prefix_caching=True)
+    parser.set_defaults(enable_prefix_caching=False)
 
 
 def main(args: argparse.Namespace):