NVIDIA-NeMo · yuki-97 · Mar 24, 2026 · Mar 23, 2026 · Mar 23, 2026
diff --git a/docs/adding-new-models.md b/docs/adding-new-models.md
@@ -148,7 +148,7 @@ Test that vLLM yields near-identical token log-probabilities when comparing deco
 
 ```sh
 # Run that is expected to pass
-uv run --extra vllm tools/model_diagnostics/2.long_generation_decode_vs_prefill.py Qwen/Qwen2.5-1.5B
+uv run --extra vllm tools/model_diagnostics/2.long_generation_decode_vs_prefill.py --model Qwen/Qwen2.5-1.5B
 # ...
 # [Qwen/Qwen2.5-1.5B] ALL GOOD!
 ```

diff --git a/tests/functional/L1_Functional_Tests_GPU.sh b/tests/functional/L1_Functional_Tests_GPU.sh
@@ -73,6 +73,7 @@ run_test      uv run --no-sync bash ./tests/functional/sft_megatron_lora.sh
 run_test      uv run --no-sync bash ./tests/functional/sft_resume_diamond.sh
 run_test      uv run --no-sync bash ./tests/functional/test_automodel_extra_installed_correctly.sh
 run_test fast uv run --no-sync bash ./tests/functional/test_converters.sh
+run_test      uv run --no-sync bash ./tests/functional/test_decode_vs_prefill.sh
 run_test      uv run --no-sync bash ./tests/functional/test_mcore_extra_installed_correctly.sh
 run_test      uv run --no-sync bash ./tests/functional/vlm_grpo.sh
 

diff --git a/tests/functional/test_decode_vs_prefill.sh b/tests/functional/test_decode_vs_prefill.sh
@@ -0,0 +1,6 @@
+uv run --extra vllm python tools/model_diagnostics/2.long_generation_decode_vs_prefill.py \
+    --model nvidia/NVIDIA-Nemotron-3-Nano-30B-A3B-Base-BF16 \
+    --prompts arc \
+    --max-tokens 8192 \
+    --num-batches 4 \
+    --tensor-parallel-size 2 \