vllm-project · tdoublep · Feb 26, 2026 · robertgshaw2-redhat · Feb 26, 2026 · tdoublep
@@ -0,0 +1,9 @@
+model_name: "Qwen/Qwen3-Next-80B-A3B-Instruct-FP8"
+accuracy_threshold: 0.85
+num_questions: 1319
+num_fewshot: 5
+server_args: >-
+  --max-model-len 4096
+  --tensor-parallel-size 4
+  --speculative-config '{"method":"qwen3_next_mtp","num_speculative_tokens":2}'
+  --enable-prefix-caching
@@ -0,0 +1,8 @@
+model_name: "Qwen/Qwen3-Next-80B-A3B-Instruct-FP8"
+accuracy_threshold: 0.85
+num_questions: 1319
+num_fewshot: 5
+server_args: >-
+  --max-model-len 4096
+  --tensor-parallel-size 4
+  --speculative-config '{"method":"qwen3_next_mtp","num_speculative_tokens":2}'
@@ -0,0 +1,7 @@
+model_name: "Qwen/Qwen3-Next-80B-A3B-Instruct-FP8"
+accuracy_threshold: 0.85
+num_questions: 1319
+num_fewshot: 5
+server_args: >-
+  --max-model-len 4096
+  --tensor-parallel-size 4
@@ -0,0 +1,3 @@
+Qwen3-Next-FP8-TP4.yaml
+Qwen3-Next-FP8-TP4-MTP.yaml
+Qwen3-Next-FP8-TP4-MTP-Align.yaml