add fp8 per tensor bench

IwakuraRein · IwakuraRein · commit 99eb4ec7bbcd · 2025-11-03T11:05:08.000-08:00
Signed-off-by: Siyuan Fu &lt;siyuanf@nvidia.com&gt;
diff --git a/benchmarks/bench_trtllm_gen_fused_moe_autotuner.py b/benchmarks/bench_trtllm_gen_fused_moe_autotuner.py
@@ -284,14 +284,27 @@ def bench(do_autotune):
         "--iterations", type=int, default=100, help="Number of benchmark iterations"
     )
     args = parser.parse_args()
-    bench_trtllm_gen_fused_moe_autotuner(
-        args.tune_max_num_tokens,
-        args.quant_mode,
-        args.num_tokens,
-        args.num_experts,
-        args.hidden_size,
-        args.intermediate_size,
-        args.top_k,
-        args.warmups,
-        args.iterations,
-    )
+    if args.quant_mode == "Fp8-Per-Tensor":
+        bench_trtllm_gen_fused_moe_autotuner_fp8(
+            args.tune_max_num_tokens,
+            args.quant_mode,
+            args.num_tokens,
+            args.num_experts,
+            args.hidden_size,
+            args.intermediate_size,
+            args.top_k,
+            args.warmups,
+            args.iterations,
+        )
+    else:
+        bench_trtllm_gen_fused_moe_autotuner_fp4(
+            args.tune_max_num_tokens,
+            args.quant_mode,
+            args.num_tokens,
+            args.num_experts,
+            args.hidden_size,
+            args.intermediate_size,
+            args.top_k,
+            args.warmups,
+            args.iterations,
+        )