ROCm · dllehr-amd · Oct 17, 2025 · Oct 14, 2025 · Oct 14, 2025 · Oct 15, 2025
diff --git a/vllm/attention/backends/rocm_aiter_mla.py b/vllm/attention/backends/rocm_aiter_mla.py
@@ -25,7 +25,8 @@
 
 def is_aiter_mla_enabled() -> bool:
     return envs.VLLM_ROCM_USE_AITER \
-        and envs.VLLM_ROCM_USE_AITER_MLA
+        and (envs.VLLM_ROCM_USE_AITER_MLA 
+        or envs.VLLM_ROCM_USE_AITER_TRITON_MLA)
 
 
 class AiterMLABackend(MLACommonBackend):
@@ -362,21 +363,31 @@ def __init__(
                 "Aiter MLA does not support one of the following: "
                 "alibi_slopes, sliding_window, logits_soft_cap")
 
-        from aiter import flash_attn_varlen_func
+        if envs.VLLM_ROCM_USE_AITER_TRITON_MLA:
+            from aiter.ops.triton.MHA import flash_attn_varlen_func
+        else:
+            from aiter import flash_attn_varlen_func
+
         self.flash_attn_varlen_func = flash_attn_varlen_func
 
     def _flash_attn_varlen_diff_headdims(
             self, q: torch.Tensor, k: torch.Tensor, v: torch.Tensor,
             softmax_scale: float, return_softmax_lse: bool,
             **kwargs) -> Union[tuple[torch.Tensor, ...], torch.Tensor]:
-        output = self.flash_attn_varlen_func(
+        result = self.flash_attn_varlen_func(
             q,
             k,
             v,
             **kwargs,
         )
-
-        return output
+        # Transpose the LSE if Triton MHA is used:
+        # (q.shape[0], num_q_heads) to (num_q_heads, q.shape[0])
+        if (envs.VLLM_ROCM_USE_AITER_TRITON_MLA 
+            and type(result) is tuple and return_softmax_lse):
+            output, lse = result
+            lse = lse.T.contiguous()
+            return (output, lse)
+        return result
 
     def _forward_decode(
         self,

diff --git a/vllm/envs.py b/vllm/envs.py
@@ -183,6 +183,7 @@
     VLLM_ROCM_USE_AITER_TRITON_BF16_GEMM: bool = True
     ROCM_TRITON_MOE_PRESHUFFLE_SCALES: bool = True
     VLLM_ROCM_USE_AITER_FUSED_MOE_A16W4: bool = False
+    VLLM_ROCM_USE_AITER_TRITON_MLA: bool = False
 
 def get_default_cache_root():
     return os.getenv(
@@ -1237,15 +1238,15 @@
    # Use AITER Triton fused RMSNORM + Quantization
    "VLLM_ROCM_USE_AITER_TRITON_FUSED_RMSNORM_FP8_QUANT":
    lambda: bool(int(os.getenv("VLLM_ROCM_USE_AITER_TRITON_FUSED_RMSNORM_FP8_QUANT", "1"))),

    # Use AITER Triton fused elementwise multiply + elementwise addtion
    "VLLM_ROCM_USE_AITER_TRITON_FUSED_MUL_ADD":
    lambda: bool(int(os.getenv("VLLM_ROCM_USE_AITER_TRITON_FUSED_MUL_ADD", "1"))),

    # Use AITER Triton fused rope + zeros + reshape_and_cache
    "VLLM_ROCM_USE_AITER_TRITON_FUSED_ROPE_ZEROS_KV_CACHE":
    lambda: bool(int(os.getenv("VLLM_ROCM_USE_AITER_TRITON_FUSED_ROPE_ZEROS_KV_CACHE", "1"))),

    # Use AITER Triton fused FP8 per-token group quant + FP8 batched GEMM
    "VLLM_ROCM_USE_AITER_TRITON_FP8_BMM":
    lambda: bool(int(os.getenv("VLLM_ROCM_USE_AITER_TRITON_FP8_BMM", "1"))),
@@ -1271,6 +1272,10 @@
     # Apply preshuffling for mxfp4 scales for ROCm backend
     "ROCM_TRITON_MOE_PRESHUFFLE_SCALES":
     lambda: bool(int(os.getenv("ROCM_TRITON_MOE_PRESHUFFLE_SCALES", "1"))),
+
+    # Use AITER Triton MLA
+    "VLLM_ROCM_USE_AITER_TRITON_MLA":
+    lambda: bool(int(os.getenv("VLLM_ROCM_USE_AITER_TRITON_MLA", "0"))),
 }
 
 # --8<-- [end:env-vars-definition]

@@ -26,7 +26,8 @@
 
 def is_aiter_mla_enabled() -> bool:
     return envs.VLLM_ROCM_USE_AITER \
-        and envs.VLLM_ROCM_USE_AITER_MLA
+        and (envs.VLLM_ROCM_USE_AITER_MLA 
+        or envs.VLLM_ROCM_USE_AITER_TRITON_MLA)
 
 
 class AiterMLABackend(MLACommonBackend):
@@ -195,7 +196,10 @@ def __init__(
                 "Aiter MLA does not support one of the following: "
                 "alibi_slopes, sliding_window, logits_soft_cap")
 
-        from aiter import flash_attn_varlen_func
+        if envs.VLLM_ROCM_USE_AITER_TRITON_MLA:
+            from aiter.ops.triton.mha import flash_attn_varlen_func
+        else:
+            from aiter import flash_attn_varlen_func
         self.flash_attn_varlen_func = flash_attn_varlen_func
 
     def _flash_attn_varlen_diff_headdims(self,
@@ -205,16 +209,22 @@ def _flash_attn_varlen_diff_headdims(self,
                                          return_softmax_lse=False,
                                          softmax_scale=None,
                                          **kwargs):
-        output = self.flash_attn_varlen_func(
+        result = self.flash_attn_varlen_func(
             q=q,
             k=k,
             v=v,
             softmax_scale=softmax_scale,
             return_lse=return_softmax_lse,
             **kwargs,
         )
-
-        return output
+        # Transpose the LSE if Triton MHA is used:
+        # (q.shape[0], num_q_heads) to (num_q_heads, q.shape[0])
+        if (envs.VLLM_ROCM_USE_AITER_TRITON_MLA 
+            and type(result) is tuple and return_softmax_lse):
+            output, lse = result
+            lse = lse.T.contiguous()
+            return (output, lse)
+        return result
 
     def _forward_decode(
         self,