vllm-project · ZJY0516 · Mar 5, 2026 · Mar 6, 2026 · Mar 9, 2026 · Mar 9, 2026
diff --git a/vllm/engine/arg_utils.py b/vllm/engine/arg_utils.py
@@ -612,6 +612,7 @@ class EngineArgs:
     )
 
     fail_on_environ_validation: bool = False
+    gdn_decode_backend: Literal["triton", "cutedsl"] | None = None
 
     def __post_init__(self):
         # support `EngineArgs(compilation_config={...})`
@@ -1308,6 +1309,13 @@ def add_cli_args(parser: FlexibleArgumentParser) -> FlexibleArgumentParser:
             default=False,
             action=argparse.BooleanOptionalAction,
         )
+        parser.add_argument(
+            "--gdn-decode-backend",
+            dest="gdn_decode_backend",
+            choices=["triton", "cutedsl"],
+            default=None,
+            help="Select GDN decode backend for Qwen3Next.",
+        )
         return parser
 
     @classmethod
@@ -1893,6 +1901,9 @@ def create_engine_config(
             ),
         )
 
+        if self.gdn_decode_backend is not None:
+            self.additional_config["gdn_decode_backend"] = self.gdn_decode_backend
+
         config = VllmConfig(
             model_config=model_config,
             cache_config=cache_config,

diff --git a/vllm/envs.py b/vllm/envs.py
@@ -16,6 +16,7 @@
     VLLM_PORT: int | None = None
     VLLM_RPC_BASE_PATH: str = tempfile.gettempdir()
     VLLM_USE_MODELSCOPE: bool = False
+    VLLM_GDN_DECODE_BACKEND: Literal["triton", "cutedsl"] = "triton"
     VLLM_RINGBUFFER_WARNING_INTERVAL: int = 60
     VLLM_NCCL_SO_PATH: str | None = None
     LD_LIBRARY_PATH: str | None = None
@@ -559,6 +560,13 @@ def _get_or_set_default() -> str:
         "VLLM_USE_MODELSCOPE", "False"
     ).lower()
     == "true",
+    # Selects decode backend for Qwen3Next GDN.
+    "VLLM_GDN_DECODE_BACKEND": env_with_choices(
+        "VLLM_GDN_DECODE_BACKEND",
+        "triton",
+        ["triton", "cutedsl"],
+        case_sensitive=False,
+    ),
     # Interval in seconds to log a warning message when the ring buffer is full
     "VLLM_RINGBUFFER_WARNING_INTERVAL": lambda: int(
         os.environ.get("VLLM_RINGBUFFER_WARNING_INTERVAL", "60")