vllm-project · danisereb · Jan 8, 2026 · Jan 8, 2026 · mgoin · Jan 14, 2026
@@ -0,0 +1,5 @@
+model_name: "nvidia/NVIDIA-Nemotron-3-Nano-30B-A3B-BF16"
+accuracy_threshold: 0.85
+num_questions: 1319
+num_fewshot: 10
+server_args: "--enforce-eager --max-model-len 8192 --tensor-parallel-size 2"
@@ -11,3 +11,4 @@ Qwen3-30B-A3B-NvFp4-ModelOpt-marlin.yaml
 Qwen3-30B-A3B-NvFp4-ModelOpt-fi-trtllm.yaml
 Qwen3-30B-A3B-NvFp4-ModelOpt-fi-cutlass.yaml
 Qwen3-30B-A3B-NvFp4-ModelOpt-fi-cutlass-dp-ep.yaml
+NVIDIA-Nemotron-3-Nano-30B-A3B-BF16-triton.yaml
@@ -733,6 +733,7 @@ def __init__(
             block_quant=False,
             tp_size=moe_config.moe_parallel_config.tp_size,
             with_lora_support=self.moe.is_lora_enabled,
+            is_act_and_mul=self.moe.is_act_and_mul,
         )
         self.kernel: mk.FusedMoEModularKernel | None = None