Rename triton_fused_moe -> fused_moe_triton

sgl-project · Nov 24, 2024 · d751006 · d751006
1 parent fe5d3e8
commit d751006
Show file tree

Hide file tree

Showing 76 changed files with 19 additions and 19 deletions.
diff --git a/python/sglang/srt/layers/fused_moe/__init__.py b/python/sglang/srt/layers/fused_moe/__init__.py
diff --git a/python/sglang/srt/layers/fused_moe_grok/__init__.py b/python/sglang/srt/layers/fused_moe_grok/__init__.py
@@ -0,0 +1 @@
+from sglang.srt.layers.fused_moe_grok.layer import FusedMoE, FusedMoEMethodBase
diff --git a/...ame=AMD_Instinct_MI300X,dtype=float8.json → ...ame=AMD_Instinct_MI300X,dtype=float8.json b/...ame=AMD_Instinct_MI300X,dtype=float8.json → ...ame=AMD_Instinct_MI300X,dtype=float8.json
diff --git a/...ame=AMD_Instinct_MI300X,dtype=float8.json → ...ame=AMD_Instinct_MI300X,dtype=float8.json b/...ame=AMD_Instinct_MI300X,dtype=float8.json → ...ame=AMD_Instinct_MI300X,dtype=float8.json
diff --git a/.../sglang/srt/layers/fused_moe/fused_moe.py → ...ng/srt/layers/fused_moe_grok/fused_moe.py b/.../sglang/srt/layers/fused_moe/fused_moe.py → ...ng/srt/layers/fused_moe_grok/fused_moe.py
diff --git a/python/sglang/srt/layers/fused_moe/layer.py → ...sglang/srt/layers/fused_moe_grok/layer.py b/python/sglang/srt/layers/fused_moe/layer.py → ...sglang/srt/layers/fused_moe_grok/layer.py
@@ -20,7 +20,7 @@
 from vllm.model_executor.layers.quantization.fp8 import Fp8Config
 from vllm.model_executor.utils import set_weight_attrs
 
-from sglang.srt.layers.fused_moe.fused_moe import padding_size
+from sglang.srt.layers.fused_moe_grok.fused_moe import padding_size
 from sglang.srt.utils import is_hip
 
 logger = init_logger(__name__)
@@ -123,7 +123,7 @@ def forward_cuda(
         num_expert_group: Optional[int],
         topk_group: Optional[int],
     ) -> torch.Tensor:
-        from sglang.srt.layers.fused_moe.fused_moe import fused_moe
+        from sglang.srt.layers.fused_moe_grok.fused_moe import fused_moe
 
         return fused_moe(
             x,
@@ -609,7 +609,7 @@ def apply(
         topk_group: Optional[int] = None,
     ) -> torch.Tensor:
 
-        from sglang.srt.layers.fused_moe.fused_moe import fused_moe
+        from sglang.srt.layers.fused_moe_grok.fused_moe import fused_moe
 
         return fused_moe(
             x,

diff --git a/...g/srt/layers/triton_fused_moe/__init__.py → ...g/srt/layers/fused_moe_triton/__init__.py b/...g/srt/layers/triton_fused_moe/__init__.py → ...g/srt/layers/fused_moe_triton/__init__.py
@@ -1,14 +1,14 @@
 from contextlib import contextmanager
 from typing import Any, Dict, Optional
 
-import sglang.srt.layers.triton_fused_moe.fused_moe  # noqa
-from sglang.srt.layers.triton_fused_moe.fused_moe import (
+import sglang.srt.layers.fused_moe_triton.fused_moe  # noqa
+from sglang.srt.layers.fused_moe_triton.fused_moe import (
     fused_experts,
     fused_topk,
     get_config_file_name,
     grouped_topk,
 )
-from sglang.srt.layers.triton_fused_moe.layer import (
+from sglang.srt.layers.fused_moe_triton.layer import (
     FusedMoE,
     FusedMoEMethodBase,
     FusedMoeWeightScaleSupported,

diff --git a/...IDIA_A100-SXM4-80GB,dtype=int8_w8a16.json → ...IDIA_A100-SXM4-80GB,dtype=int8_w8a16.json b/...IDIA_A100-SXM4-80GB,dtype=int8_w8a16.json → ...IDIA_A100-SXM4-80GB,dtype=int8_w8a16.json
diff --git a/...36,device_name=NVIDIA_A100-SXM4-80GB.json → ...36,device_name=NVIDIA_A100-SXM4-80GB.json b/...36,device_name=NVIDIA_A100-SXM4-80GB.json → ...36,device_name=NVIDIA_A100-SXM4-80GB.json
diff --git a/...IDIA_A100-SXM4-80GB,dtype=int8_w8a16.json → ...IDIA_A100-SXM4-80GB,dtype=int8_w8a16.json b/...IDIA_A100-SXM4-80GB,dtype=int8_w8a16.json → ...IDIA_A100-SXM4-80GB,dtype=int8_w8a16.json
diff --git a/...92,device_name=NVIDIA_A100-SXM4-80GB.json → ...92,device_name=NVIDIA_A100-SXM4-80GB.json b/...92,device_name=NVIDIA_A100-SXM4-80GB.json → ...92,device_name=NVIDIA_A100-SXM4-80GB.json
diff --git a/...IDIA_A100-SXM4-80GB,dtype=int8_w8a16.json → ...IDIA_A100-SXM4-80GB,dtype=int8_w8a16.json b/...IDIA_A100-SXM4-80GB,dtype=int8_w8a16.json → ...IDIA_A100-SXM4-80GB,dtype=int8_w8a16.json
diff --git a/...IDIA_H100_80GB_HBM3,dtype=int8_w8a16.json → ...IDIA_H100_80GB_HBM3,dtype=int8_w8a16.json b/...IDIA_H100_80GB_HBM3,dtype=int8_w8a16.json → ...IDIA_H100_80GB_HBM3,dtype=int8_w8a16.json
diff --git a/...72,device_name=NVIDIA_H100_80GB_HBM3.json → ...72,device_name=NVIDIA_H100_80GB_HBM3.json b/...72,device_name=NVIDIA_H100_80GB_HBM3.json → ...72,device_name=NVIDIA_H100_80GB_HBM3.json
diff --git a/...IDIA_A100-SXM4-80GB,dtype=int8_w8a16.json → ...IDIA_A100-SXM4-80GB,dtype=int8_w8a16.json b/...IDIA_A100-SXM4-80GB,dtype=int8_w8a16.json → ...IDIA_A100-SXM4-80GB,dtype=int8_w8a16.json
diff --git a/...84,device_name=NVIDIA_A100-SXM4-80GB.json → ...84,device_name=NVIDIA_A100-SXM4-80GB.json b/...84,device_name=NVIDIA_A100-SXM4-80GB.json → ...84,device_name=NVIDIA_A100-SXM4-80GB.json
diff --git a/...IDIA_A100-SXM4-80GB,dtype=int8_w8a16.json → ...IDIA_A100-SXM4-80GB,dtype=int8_w8a16.json b/...IDIA_A100-SXM4-80GB,dtype=int8_w8a16.json → ...IDIA_A100-SXM4-80GB,dtype=int8_w8a16.json
diff --git a/...68,device_name=NVIDIA_A100-SXM4-80GB.json → ...68,device_name=NVIDIA_A100-SXM4-80GB.json b/...68,device_name=NVIDIA_A100-SXM4-80GB.json → ...68,device_name=NVIDIA_A100-SXM4-80GB.json
diff --git a/...44,device_name=NVIDIA_A100-SXM4-40GB.json → ...44,device_name=NVIDIA_A100-SXM4-40GB.json b/...44,device_name=NVIDIA_A100-SXM4-40GB.json → ...44,device_name=NVIDIA_A100-SXM4-40GB.json
diff --git a/...44,device_name=NVIDIA_A100-SXM4-80GB.json → ...44,device_name=NVIDIA_A100-SXM4-80GB.json b/...44,device_name=NVIDIA_A100-SXM4-80GB.json → ...44,device_name=NVIDIA_A100-SXM4-80GB.json
diff --git a/...44,device_name=NVIDIA_H100_80GB_HBM3.json → ...44,device_name=NVIDIA_H100_80GB_HBM3.json b/...44,device_name=NVIDIA_H100_80GB_HBM3.json → ...44,device_name=NVIDIA_H100_80GB_HBM3.json
diff --git a/...IDIA_A100-SXM4-80GB,dtype=int8_w8a16.json → ...IDIA_A100-SXM4-80GB,dtype=int8_w8a16.json b/...IDIA_A100-SXM4-80GB,dtype=int8_w8a16.json → ...IDIA_A100-SXM4-80GB,dtype=int8_w8a16.json
diff --git a/...36,device_name=NVIDIA_A100-SXM4-80GB.json → ...36,device_name=NVIDIA_A100-SXM4-80GB.json b/...36,device_name=NVIDIA_A100-SXM4-80GB.json → ...36,device_name=NVIDIA_A100-SXM4-80GB.json
diff --git a/...IDIA_A100-SXM4-80GB,dtype=int8_w8a16.json → ...IDIA_A100-SXM4-80GB,dtype=int8_w8a16.json b/...IDIA_A100-SXM4-80GB,dtype=int8_w8a16.json → ...IDIA_A100-SXM4-80GB,dtype=int8_w8a16.json
diff --git a/...92,device_name=NVIDIA_A100-SXM4-80GB.json → ...92,device_name=NVIDIA_A100-SXM4-80GB.json b/...92,device_name=NVIDIA_A100-SXM4-80GB.json → ...92,device_name=NVIDIA_A100-SXM4-80GB.json
diff --git a/...88,device_name=NVIDIA_A100-SXM4-80GB.json → ...88,device_name=NVIDIA_A100-SXM4-80GB.json b/...88,device_name=NVIDIA_A100-SXM4-80GB.json → ...88,device_name=NVIDIA_A100-SXM4-80GB.json
diff --git a/...88,device_name=NVIDIA_H100_80GB_HBM3.json → ...88,device_name=NVIDIA_H100_80GB_HBM3.json b/...88,device_name=NVIDIA_H100_80GB_HBM3.json → ...88,device_name=NVIDIA_H100_80GB_HBM3.json
diff --git a/...IDIA_A100-SXM4-80GB,dtype=int8_w8a16.json → ...IDIA_A100-SXM4-80GB,dtype=int8_w8a16.json b/...IDIA_A100-SXM4-80GB,dtype=int8_w8a16.json → ...IDIA_A100-SXM4-80GB,dtype=int8_w8a16.json
diff --git a/...IDIA_H100_80GB_HBM3,dtype=int8_w8a16.json → ...IDIA_H100_80GB_HBM3,dtype=int8_w8a16.json b/...IDIA_H100_80GB_HBM3,dtype=int8_w8a16.json → ...IDIA_H100_80GB_HBM3,dtype=int8_w8a16.json
diff --git a/...NVIDIA_H100_80GB_HBM3,dtype=fp8_w8a8.json → ...NVIDIA_H100_80GB_HBM3,dtype=fp8_w8a8.json b/...NVIDIA_H100_80GB_HBM3,dtype=fp8_w8a8.json → ...NVIDIA_H100_80GB_HBM3,dtype=fp8_w8a8.json
diff --git a/...IDIA_A100-SXM4-80GB,dtype=int8_w8a16.json → ...IDIA_A100-SXM4-80GB,dtype=int8_w8a16.json b/...IDIA_A100-SXM4-80GB,dtype=int8_w8a16.json → ...IDIA_A100-SXM4-80GB,dtype=int8_w8a16.json
diff --git a/...84,device_name=NVIDIA_A100-SXM4-80GB.json → ...84,device_name=NVIDIA_A100-SXM4-80GB.json b/...84,device_name=NVIDIA_A100-SXM4-80GB.json → ...84,device_name=NVIDIA_A100-SXM4-80GB.json
diff --git a/...NVIDIA_H100_80GB_HBM3,dtype=fp8_w8a8.json → ...NVIDIA_H100_80GB_HBM3,dtype=fp8_w8a8.json b/...NVIDIA_H100_80GB_HBM3,dtype=fp8_w8a8.json → ...NVIDIA_H100_80GB_HBM3,dtype=fp8_w8a8.json
diff --git a/...IDIA_A100-SXM4-80GB,dtype=int8_w8a16.json → ...IDIA_A100-SXM4-80GB,dtype=int8_w8a16.json b/...IDIA_A100-SXM4-80GB,dtype=int8_w8a16.json → ...IDIA_A100-SXM4-80GB,dtype=int8_w8a16.json
diff --git a/...68,device_name=NVIDIA_A100-SXM4-80GB.json → ...68,device_name=NVIDIA_A100-SXM4-80GB.json b/...68,device_name=NVIDIA_A100-SXM4-80GB.json → ...68,device_name=NVIDIA_A100-SXM4-80GB.json
diff --git a/...IDIA_H100_80GB_HBM3,dtype=int8_w8a16.json → ...IDIA_H100_80GB_HBM3,dtype=int8_w8a16.json b/...IDIA_H100_80GB_HBM3,dtype=int8_w8a16.json → ...IDIA_H100_80GB_HBM3,dtype=int8_w8a16.json
diff --git a/...NVIDIA_H100_80GB_HBM3,dtype=fp8_w8a8.json → ...NVIDIA_H100_80GB_HBM3,dtype=fp8_w8a8.json b/...NVIDIA_H100_80GB_HBM3,dtype=fp8_w8a8.json → ...NVIDIA_H100_80GB_HBM3,dtype=fp8_w8a8.json
diff --git a/...80,device_name=NVIDIA_A100-SXM4-80GB.json → ...80,device_name=NVIDIA_A100-SXM4-80GB.json b/...80,device_name=NVIDIA_A100-SXM4-80GB.json → ...80,device_name=NVIDIA_A100-SXM4-80GB.json
diff --git a/...80,device_name=NVIDIA_H100_80GB_HBM3.json → ...80,device_name=NVIDIA_H100_80GB_HBM3.json b/...80,device_name=NVIDIA_H100_80GB_HBM3.json → ...80,device_name=NVIDIA_H100_80GB_HBM3.json
diff --git a/...40,device_name=NVIDIA_A100-SXM4-80GB.json → ...40,device_name=NVIDIA_A100-SXM4-80GB.json b/...40,device_name=NVIDIA_A100-SXM4-80GB.json → ...40,device_name=NVIDIA_A100-SXM4-80GB.json
diff --git a/...40,device_name=NVIDIA_H100_80GB_HBM3.json → ...40,device_name=NVIDIA_H100_80GB_HBM3.json b/...40,device_name=NVIDIA_H100_80GB_HBM3.json → ...40,device_name=NVIDIA_H100_80GB_HBM3.json
diff --git a/...4336,device_name=AMD_Instinct_MI300X.json → ...4336,device_name=AMD_Instinct_MI300X.json b/...4336,device_name=AMD_Instinct_MI300X.json → ...4336,device_name=AMD_Instinct_MI300X.json
diff --git a/...NVIDIA_H100_80GB_HBM3,dtype=fp8_w8a8.json → ...NVIDIA_H100_80GB_HBM3,dtype=fp8_w8a8.json b/...NVIDIA_H100_80GB_HBM3,dtype=fp8_w8a8.json → ...NVIDIA_H100_80GB_HBM3,dtype=fp8_w8a8.json
diff --git a/...1792,device_name=AMD_Instinct_MI300X.json → ...1792,device_name=AMD_Instinct_MI300X.json b/...1792,device_name=AMD_Instinct_MI300X.json → ...1792,device_name=AMD_Instinct_MI300X.json
diff --git a/...92,device_name=NVIDIA_A100-SXM4-40GB.json → ...92,device_name=NVIDIA_A100-SXM4-40GB.json b/...92,device_name=NVIDIA_A100-SXM4-40GB.json → ...92,device_name=NVIDIA_A100-SXM4-40GB.json
diff --git a/...92,device_name=NVIDIA_A100-SXM4-80GB.json → ...92,device_name=NVIDIA_A100-SXM4-80GB.json b/...92,device_name=NVIDIA_A100-SXM4-80GB.json → ...92,device_name=NVIDIA_A100-SXM4-80GB.json
diff --git a/...92,device_name=NVIDIA_H100_80GB_HBM3.json → ...92,device_name=NVIDIA_H100_80GB_HBM3.json b/...92,device_name=NVIDIA_H100_80GB_HBM3.json → ...92,device_name=NVIDIA_H100_80GB_HBM3.json
diff --git a/...48,device_name=NVIDIA_A100-SXM4-80GB.json → ...48,device_name=NVIDIA_A100-SXM4-80GB.json b/...48,device_name=NVIDIA_A100-SXM4-80GB.json → ...48,device_name=NVIDIA_A100-SXM4-80GB.json
diff --git a/...NVIDIA_H100_80GB_HBM3,dtype=fp8_w8a8.json → ...NVIDIA_H100_80GB_HBM3,dtype=fp8_w8a8.json b/...NVIDIA_H100_80GB_HBM3,dtype=fp8_w8a8.json → ...NVIDIA_H100_80GB_HBM3,dtype=fp8_w8a8.json
diff --git a/...48,device_name=NVIDIA_H100_80GB_HBM3.json → ...48,device_name=NVIDIA_H100_80GB_HBM3.json b/...48,device_name=NVIDIA_H100_80GB_HBM3.json → ...48,device_name=NVIDIA_H100_80GB_HBM3.json
diff --git a/...3584,device_name=AMD_Instinct_MI300X.json → ...3584,device_name=AMD_Instinct_MI300X.json b/...3584,device_name=AMD_Instinct_MI300X.json → ...3584,device_name=AMD_Instinct_MI300X.json
diff --git a/...84,device_name=NVIDIA_A100-SXM4-40GB.json → ...84,device_name=NVIDIA_A100-SXM4-40GB.json b/...84,device_name=NVIDIA_A100-SXM4-40GB.json → ...84,device_name=NVIDIA_A100-SXM4-40GB.json
diff --git a/...84,device_name=NVIDIA_A100-SXM4-80GB.json → ...84,device_name=NVIDIA_A100-SXM4-80GB.json b/...84,device_name=NVIDIA_A100-SXM4-80GB.json → ...84,device_name=NVIDIA_A100-SXM4-80GB.json
diff --git a/...NVIDIA_H100_80GB_HBM3,dtype=fp8_w8a8.json → ...NVIDIA_H100_80GB_HBM3,dtype=fp8_w8a8.json b/...NVIDIA_H100_80GB_HBM3,dtype=fp8_w8a8.json → ...NVIDIA_H100_80GB_HBM3,dtype=fp8_w8a8.json
diff --git a/...84,device_name=NVIDIA_H100_80GB_HBM3.json → ...84,device_name=NVIDIA_H100_80GB_HBM3.json b/...84,device_name=NVIDIA_H100_80GB_HBM3.json → ...84,device_name=NVIDIA_H100_80GB_HBM3.json
diff --git a/...s/E=8,N=3584,device_name=NVIDIA_L40S.json → ...s/E=8,N=3584,device_name=NVIDIA_L40S.json b/...s/E=8,N=3584,device_name=NVIDIA_L40S.json → ...s/E=8,N=3584,device_name=NVIDIA_L40S.json
diff --git a/...96,device_name=NVIDIA_A100-SXM4-80GB.json → ...96,device_name=NVIDIA_A100-SXM4-80GB.json b/...96,device_name=NVIDIA_A100-SXM4-80GB.json → ...96,device_name=NVIDIA_A100-SXM4-80GB.json
diff --git a/...NVIDIA_H100_80GB_HBM3,dtype=fp8_w8a8.json → ...NVIDIA_H100_80GB_HBM3,dtype=fp8_w8a8.json b/...NVIDIA_H100_80GB_HBM3,dtype=fp8_w8a8.json → ...NVIDIA_H100_80GB_HBM3,dtype=fp8_w8a8.json
diff --git a/...96,device_name=NVIDIA_H100_80GB_HBM3.json → ...96,device_name=NVIDIA_H100_80GB_HBM3.json b/...96,device_name=NVIDIA_H100_80GB_HBM3.json → ...96,device_name=NVIDIA_H100_80GB_HBM3.json
diff --git a/...7168,device_name=AMD_Instinct_MI300X.json → ...7168,device_name=AMD_Instinct_MI300X.json b/...7168,device_name=AMD_Instinct_MI300X.json → ...7168,device_name=AMD_Instinct_MI300X.json
diff --git a/...68,device_name=NVIDIA_A100-SXM4-80GB.json → ...68,device_name=NVIDIA_A100-SXM4-80GB.json b/...68,device_name=NVIDIA_A100-SXM4-80GB.json → ...68,device_name=NVIDIA_A100-SXM4-80GB.json
diff --git a/...NVIDIA_H100_80GB_HBM3,dtype=fp8_w8a8.json → ...NVIDIA_H100_80GB_HBM3,dtype=fp8_w8a8.json b/...NVIDIA_H100_80GB_HBM3,dtype=fp8_w8a8.json → ...NVIDIA_H100_80GB_HBM3,dtype=fp8_w8a8.json
diff --git a/...68,device_name=NVIDIA_H100_80GB_HBM3.json → ...68,device_name=NVIDIA_H100_80GB_HBM3.json b/...68,device_name=NVIDIA_H100_80GB_HBM3.json → ...68,device_name=NVIDIA_H100_80GB_HBM3.json
diff --git a/...NVIDIA_H100_80GB_HBM3,dtype=fp8_w8a8.json → ...NVIDIA_H100_80GB_HBM3,dtype=fp8_w8a8.json b/...NVIDIA_H100_80GB_HBM3,dtype=fp8_w8a8.json → ...NVIDIA_H100_80GB_HBM3,dtype=fp8_w8a8.json
diff --git a/...rt/layers/triton_fused_moe/configs/README → ...rt/layers/fused_moe_triton/configs/README b/...rt/layers/triton_fused_moe/configs/README → ...rt/layers/fused_moe_triton/configs/README
diff --git a/.../srt/layers/triton_fused_moe/fused_moe.py → .../srt/layers/fused_moe_triton/fused_moe.py b/.../srt/layers/triton_fused_moe/fused_moe.py → .../srt/layers/fused_moe_triton/fused_moe.py
@@ -376,7 +376,7 @@ def try_get_optimal_moe_config(
     M: int,
     is_marlin: bool = False,
 ):
-    from sglang.srt.layers.triton_fused_moe import get_config
+    from sglang.srt.layers.fused_moe_triton import get_config
 
     override_config = get_config()
     if override_config:

diff --git a/...lang/srt/layers/triton_fused_moe/layer.py → ...lang/srt/layers/fused_moe_triton/layer.py b/...lang/srt/layers/triton_fused_moe/layer.py → ...lang/srt/layers/fused_moe_triton/layer.py
@@ -20,7 +20,7 @@
 from sglang.srt.utils import set_weight_attrs
 
 if torch.cuda.is_available() or torch.hip.is_available():
-    from sglang.srt.layers.triton_fused_moe.fused_moe import fused_experts
+    from sglang.srt.layers.fused_moe_triton.fused_moe import fused_experts
 else:
     fused_experts = None  # type: ignore
 
@@ -514,7 +514,7 @@ def select_experts(
         num_expert_group: Optional[int] = None,
         custom_routing_function: Optional[Callable] = None,
     ):
-        from sglang.srt.layers.triton_fused_moe.fused_moe import (
+        from sglang.srt.layers.fused_moe_triton.fused_moe import (
             fused_topk,
             grouped_topk,
         )

diff --git a/python/sglang/srt/layers/quantization/__init__.py b/python/sglang/srt/layers/quantization/__init__.py
@@ -68,7 +68,7 @@ def fp8_get_quant_method(self, layer, prefix):
         is_layer_skipped,
     )
 
-    from sglang.srt.layers.triton_fused_moe.layer import FusedMoE
+    from sglang.srt.layers.fused_moe_triton.layer import FusedMoE
 
     if isinstance(layer, LinearBase):
         if is_layer_skipped(prefix, self.ignored_layers):

diff --git a/python/sglang/srt/models/dbrx.py b/python/sglang/srt/models/dbrx.py
@@ -28,6 +28,7 @@
 from vllm.model_executor.model_loader.weight_utils import default_weight_loader
 from vllm.transformers_utils.configs.dbrx import DbrxConfig
 
+from sglang.srt.layers.fused_moe_triton import fused_moe
 from sglang.srt.layers.linear import (
     QKVParallelLinear,
     ReplicatedLinear,
@@ -36,7 +37,6 @@
 from sglang.srt.layers.logits_processor import LogitsProcessor
 from sglang.srt.layers.quantization.base_config import QuantizationConfig
 from sglang.srt.layers.radix_attention import RadixAttention
-from sglang.srt.layers.triton_fused_moe import fused_moe
 from sglang.srt.layers.vocab_parallel_embedding import (
     DEFAULT_VOCAB_PADDING_SIZE,
     ParallelLMHead,

diff --git a/python/sglang/srt/models/deepseek.py b/python/sglang/srt/models/deepseek.py
@@ -30,6 +30,7 @@
 from vllm.model_executor.model_loader.weight_utils import default_weight_loader
 
 from sglang.srt.layers.activation import SiluAndMul
+from sglang.srt.layers.fused_moe_triton import fused_moe
 from sglang.srt.layers.layernorm import RMSNorm
 from sglang.srt.layers.linear import (
     MergedColumnParallelLinear,
@@ -40,7 +41,6 @@
 from sglang.srt.layers.logits_processor import LogitsProcessor
 from sglang.srt.layers.quantization.base_config import QuantizationConfig
 from sglang.srt.layers.radix_attention import RadixAttention
-from sglang.srt.layers.triton_fused_moe import fused_moe
 from sglang.srt.layers.vocab_parallel_embedding import (
     ParallelLMHead,
     VocabParallelEmbedding,

diff --git a/python/sglang/srt/models/deepseek_v2.py b/python/sglang/srt/models/deepseek_v2.py
@@ -31,6 +31,7 @@
 from vllm.model_executor.model_loader.weight_utils import default_weight_loader
 
 from sglang.srt.layers.activation import SiluAndMul
+from sglang.srt.layers.fused_moe_triton import FusedMoE
 from sglang.srt.layers.layernorm import RMSNorm
 from sglang.srt.layers.linear import (
     ColumnParallelLinear,
@@ -41,7 +42,6 @@
 from sglang.srt.layers.logits_processor import LogitsProcessor
 from sglang.srt.layers.quantization.base_config import QuantizationConfig
 from sglang.srt.layers.radix_attention import RadixAttention
-from sglang.srt.layers.triton_fused_moe import FusedMoE
 from sglang.srt.layers.vocab_parallel_embedding import (
     ParallelLMHead,
     VocabParallelEmbedding,

diff --git a/python/sglang/srt/models/grok.py b/python/sglang/srt/models/grok.py
@@ -31,7 +31,7 @@
 from vllm.model_executor.model_loader.loader import DefaultModelLoader
 from vllm.model_executor.model_loader.weight_utils import default_weight_loader
 
-from sglang.srt.layers.fused_moe import FusedMoE
+from sglang.srt.layers.fused_moe_grok import FusedMoE
 from sglang.srt.layers.layernorm import RMSNorm
 from sglang.srt.layers.linear import (
     QKVParallelLinear,

diff --git a/python/sglang/srt/models/mixtral.py b/python/sglang/srt/models/mixtral.py
@@ -25,6 +25,7 @@
 from vllm.model_executor.layers.rotary_embedding import get_rope
 from vllm.model_executor.model_loader.weight_utils import default_weight_loader
 
+from sglang.srt.layers.fused_moe_triton import FusedMoE
 from sglang.srt.layers.layernorm import RMSNorm
 from sglang.srt.layers.linear import (
     QKVParallelLinear,
@@ -35,7 +36,6 @@
 from sglang.srt.layers.quantization.base_config import QuantizationConfig
 from sglang.srt.layers.radix_attention import RadixAttention
 from sglang.srt.layers.torchao_utils import apply_torchao_config_
-from sglang.srt.layers.triton_fused_moe import FusedMoE
 from sglang.srt.layers.vocab_parallel_embedding import (
     ParallelLMHead,
     VocabParallelEmbedding,

diff --git a/python/sglang/srt/models/olmoe.py b/python/sglang/srt/models/olmoe.py
@@ -38,11 +38,11 @@
 from vllm.utils import print_warning_once
 
 from sglang.srt.layers.activation import SiluAndMul
+from sglang.srt.layers.fused_moe_triton import FusedMoE
 from sglang.srt.layers.layernorm import RMSNorm
 from sglang.srt.layers.logits_processor import LogitsProcessor, LogitsProcessorOutput
 from sglang.srt.layers.quantization.base_config import QuantizationConfig
 from sglang.srt.layers.radix_attention import RadixAttention
-from sglang.srt.layers.triton_fused_moe import FusedMoE
 from sglang.srt.layers.vocab_parallel_embedding import (
     ParallelLMHead,
     VocabParallelEmbedding,

diff --git a/python/sglang/srt/models/qwen2_moe.py b/python/sglang/srt/models/qwen2_moe.py
@@ -30,6 +30,7 @@
 from vllm.model_executor.model_loader.weight_utils import default_weight_loader
 
 from sglang.srt.layers.activation import SiluAndMul
+from sglang.srt.layers.fused_moe_triton import FusedMoE
 from sglang.srt.layers.layernorm import RMSNorm
 from sglang.srt.layers.linear import (
     MergedColumnParallelLinear,
@@ -41,7 +42,6 @@
 from sglang.srt.layers.quantization.base_config import QuantizationConfig
 from sglang.srt.layers.radix_attention import RadixAttention
 from sglang.srt.layers.torchao_utils import apply_torchao_config_
-from sglang.srt.layers.triton_fused_moe import FusedMoE
 from sglang.srt.layers.vocab_parallel_embedding import (
     ParallelLMHead,
     VocabParallelEmbedding,

diff --git a/python/sglang/srt/models/xverse_moe.py b/python/sglang/srt/models/xverse_moe.py
@@ -34,10 +34,10 @@
 from vllm.model_executor.layers.rotary_embedding import get_rope
 from vllm.model_executor.model_loader.weight_utils import default_weight_loader
 
+from sglang.srt.layers.fused_moe_triton import fused_moe
 from sglang.srt.layers.logits_processor import LogitsProcessor
 from sglang.srt.layers.quantization.base_config import QuantizationConfig
 from sglang.srt.layers.radix_attention import RadixAttention
-from sglang.srt.layers.triton_fused_moe import fused_moe
 from sglang.srt.layers.vocab_parallel_embedding import (
     ParallelLMHead,
     VocabParallelEmbedding,