vllm-project · robellliu-dev · Mar 4, 2026 · Mar 4, 2026 · Mar 4, 2026 · Mar 9, 2026
diff --git a/tests/test_config.py b/tests/test_config.py
@@ -26,6 +26,7 @@
 from vllm.config.vllm import (
     OPTIMIZATION_LEVEL_TO_CONFIG,
     OptimizationLevel,
+    enable_allreduce_rms_fusion,
 )
 from vllm.platforms import current_platform
 
@@ -58,6 +59,26 @@ def test_async_scheduling_with_pipeline_parallelism_is_allowed():
     assert cfg.scheduler_config.async_scheduling is True
 
 
+def test_enable_allreduce_rms_fusion_disabled_for_pp():
+    cfg = VllmConfig(
+        parallel_config=ParallelConfig(
+            tensor_parallel_size=2,
+            pipeline_parallel_size=1,
+            data_parallel_size=1,
+        )
+    )
+
+    with (
+        patch("vllm.utils.flashinfer.has_flashinfer", return_value=True),
+        patch.object(current_platform, "is_cuda", return_value=True),
+        patch.object(current_platform, "is_device_capability", return_value=True),
+    ):
+        assert enable_allreduce_rms_fusion(cfg)
+
+        cfg.parallel_config.pipeline_parallel_size = 2
+        assert not enable_allreduce_rms_fusion(cfg)
+
+
 @dataclass
 class _TestConfigFields:
     a: int