From 146c67f72ed3d4afcefe3d33cc5411819f837688 Mon Sep 17 00:00:00 2001
From: khalil2ji3mp6 <khalilzhk@gmail.com>
Date: Fri, 3 Apr 2026 16:58:28 +0800
Subject: [PATCH] BugFix for MLAPO for Deepseek eagle3 on Ascend

---
 .../srt/hardware_backend/npu/attention/ascend_backend.py      | 4 ++--
 1 file changed, 2 insertions(+), 2 deletions(-)

diff --git a/python/sglang/srt/hardware_backend/npu/attention/ascend_backend.py b/python/sglang/srt/hardware_backend/npu/attention/ascend_backend.py
index e6e7dd5ccbad..f22474468e1a 100644
--- a/python/sglang/srt/hardware_backend/npu/attention/ascend_backend.py
+++ b/python/sglang/srt/hardware_backend/npu/attention/ascend_backend.py
@@ -840,7 +840,7 @@ def forward_extend(
         sinks: Optional[torch.Tensor] = None,
         slopes: Optional[torch.Tensor] = None,
     ):
-        if is_mla_preprocess_enabled():
+        if is_mla_preprocess_enabled() and self.use_mla:
             # MLAPO and MLAPROLOG do save kv_cache
             save_kv_cache = False
         if self.is_dllm_model:
@@ -1748,7 +1748,7 @@ def forward_decode(
         sinks: Optional[torch.Tensor] = None,
         slopes: Optional[torch.Tensor] = None,
     ):
-        if is_mla_preprocess_enabled():
+        if is_mla_preprocess_enabled() and self.use_mla:
             # MLAPO does saving kv_cache
             save_kv_cache = False
         if topk_indices is not None: